このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240626となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 教育におけるジェネレーティブAIの責任ある利用の促進--リワードベースの学習アプローチ
Encouraging Responsible Use of Generative AI in Education: A Reward-Based Learning Approach ( http://arxiv.org/abs/2407.15022v1 ) ライセンス: Link先を確認 | Aditi Singh, Abul Ehtesham, Saket Kumar, Gaurav Kumar Gupta, Tala Talaei Khoei, | (参考訳) 本研究は、生成AIを統合した革新的な数学的学習手法を導入し、素早い解ではなく構造化学習を育成する。
この方法はチャットボット機能と生成AIを組み合わせてインタラクティブな問題解決演習を提供し、さまざまな問題に対するステップバイステップのアプローチを通じて学習を強化し、教育におけるAIの責任を主張する。
われわれのアプローチは、ChatGPTからの即時回答が学習を妨げることを強調している。
本稿では,学生に数学的な問題を効果的に解いて最終回答を得るよう要求する報酬ベースシステムを提案する。
これにより、基本的な問題から複雑な問題への進歩的な学習パスが促進され、最終的なソリューションで熟達に報いる。
目標は、学生が迅速な修正を求めることから、総合的な学習体験に積極的に参加することにある。
This research introduces an innovative mathematical learning approach that integrates generative AI to cultivate a structured learning rather than quick solution. Our method combines chatbot capabilities and generative AI to offer interactive problem-solving exercises, enhancing learning through a stepby-step approach for varied problems, advocating for the responsible use of AI in education. Our approach emphasizes that immediate answers from ChatGPT can impede real learning. We introduce a reward-based system that requires students to solve mathematical problems effectively to receive the final answer. This encourages a progressive learning path from basic to complex problems, rewarding mastery with final solutions. The goal is to transition students from seeking quick fixes to engaging actively in a comprehensive learning experience. | 翻訳日:2024-07-28 18:39:09 公開日:2024-06-26 |
# ヘリウム気球飛行ドローンによるCS教育
Using Helium Balloon Flying Drones for Introductory CS Education ( http://arxiv.org/abs/2407.16909v1 ) ライセンス: Link先を確認 | Stanley Cao, Christopher Gregg, | (参考訳) コンピュータサイエンス教育の急速に発展する分野では、基本的な概念を教えるための新しいアプローチが、多様な学生団体の関与に不可欠である。
コンピューティングを専門とする労働力の需要が高まっていることを考えると、現在のコンピューティング教育が通常ターゲットとしているものよりも幅広い聴衆の関心を捉えるために、教育方法を適用することが不可欠である。
教育経験の充実は、特にコンピュータ教育において、学習成果と試験成績に肯定的な影響を与えることが示されている。
さらに,コンピュータ科学を専攻する学生のモチベーションの増大と,物理コンピューティング装置の相関が示されている。
In the rapidly evolving field of computer science education, novel approaches to teaching fundamental concepts are crucial for engaging a diverse student body. Given the growing demand for a computing-skilled workforce, it is essential to adapt educational methods to capture the interest of a broader audience than what current computing education typically targets. Engaging educational experiences have been shown to have a positive impact on learning outcomes and examination performance, especially within computing education. Moreover, physical computing devices have been shown to correlate with increased student motivation when students are studying computer science. | 翻訳日:2024-07-28 18:19:29 公開日:2024-06-26 |
# PianoBART:シンボリック・ピアノ・ミュージック・ジェネレーションと大規模事前学習による理解
PianoBART: Symbolic Piano Music Generation and Understanding with Large-Scale Pre-Training ( http://arxiv.org/abs/2407.03361v1 ) ライセンス: Link先を確認 | Xiao Liang, Zijian Zhao, Weichao Zeng, Yutong He, Fupeng He, Yiyi Wang, Chengying Gao, | (参考訳) 音楽生成と理解には音楽構造と作曲パターンの学習が必要であるが,現在の手法では,音楽の生成と理解を同時に行うために,学習した特徴の統一的利用は行っていない。
本稿では,BARTを記号的ピアノ音楽生成と理解の両方に利用する事前学習モデルであるPianoBARTを提案する。
我々は、情報漏洩や損失を防止し、学習能力を高めるために、PanoBARTの様々な事前学習タスクのためのマルチレベルオブジェクト選択戦略を考案する。
事前学習で得られた音楽意味論は、音楽生成と理解タスクのために微調整される。
実験により、ピアノBARTは効率よく音楽パターンを学習し、高品質なコヒーレントな曲を生成し、音楽を理解する上で優れたパフォーマンスを発揮することが示された。
私たちのコードと補足資料はhttps://github.com/RS2002/PianoBart.comで公開されています。
Learning musical structures and composition patterns is necessary for both music generation and understanding, but current methods do not make uniform use of learned features to generate and comprehend music simultaneously. In this paper, we propose PianoBART, a pre-trained model that uses BART for both symbolic piano music generation and understanding. We devise a multi-level object selection strategy for different pre-training tasks of PianoBART, which can prevent information leakage or loss and enhance learning ability. The musical semantics captured in pre-training are fine-tuned for music generation and understanding tasks. Experiments demonstrate that PianoBART efficiently learns musical patterns and achieves outstanding performance in generating high-quality coherent pieces and comprehending music. Our code and supplementary material are available at https://github.com/RS2002/PianoBart. | 翻訳日:2024-07-22 22:09:04 公開日:2024-06-26 |
# 空間的に一貫性のある降水ダウンスケーリングのための類似性に基づく生成的アプローチ
A Likelihood-Based Generative Approach for Spatially Consistent Precipitation Downscaling ( http://arxiv.org/abs/2407.04724v1 ) ライセンス: Link先を確認 | Jose González-Abad, | (参考訳) 深層学習は降水ダウンスケーリングのための有望なツールとして登場した。
しかし、現在のモデルは降水分布を適切にモデル化するために可能性に基づく損失関数に依存しており、サンプリング時に空間的に矛盾するプロジェクションが生じる。
この研究は、生成モデルで使用される可能性に基づく強みと敵対的損失の強みを融合させることにより、新しいアプローチを探求する。
その結果,両手法の利点を生かし,降水量削減のための可能性に基づく生成手法を提案する。
Deep learning has emerged as a promising tool for precipitation downscaling. However, current models rely on likelihood-based loss functions to properly model the precipitation distribution, leading to spatially inconsistent projections when sampling. This work explores a novel approach by fusing the strengths of likelihood-based and adversarial losses used in generative models. As a result, we propose a likelihood-based generative approach for precipitation downscaling, leveraging the benefits of both methods. | 翻訳日:2024-07-22 16:25:52 公開日:2024-06-26 |
# Redactable Blockchain Solutions for IoT: メカニズムとアプリケーションのレビュー
Redactable Blockchain Solutions for IoT: A Review of Mechanisms and Applications ( http://arxiv.org/abs/2407.05948v1 ) ライセンス: Link先を確認 | Arpish R. Solanki, | (参考訳) IoT(Internet of Things)とブロックチェーンテクノロジの統合は、IoTエコシステム内のデータセキュリティ、整合性、信頼を高めるための、有望なソリューションを提供する。
しかし、ブロックチェーン技術の不変性は、データ保護法によって規定されるデータリアクション要件と矛盾する。
本稿は、ブロックチェーンとリアクションメカニズム、特にIoTコンテキストにおけるそれらのアプリケーションに焦点を当てた、現在の状態に関する包括的なレビューを提供する。
既存の文献の広範なレビューを通じて、IoTデータ管理のために再実行可能なブロックチェーンを実装する上での重要な課題と機会を特定する。
さまざまなリアクション機構を探索し、データ保護の懸念に対処するために、再実行可能なブロックチェーンを使用するIoT実装とユースケースについて検討する。
The integration of blockchain technology with the Internet of Things (IoT) presents a promising solution to enhance data security, integrity, and trust within IoT ecosystems. However, the immutable nature of blockchain technology conflicts with data redaction requirements mandated by data protection laws. This paper provides a comprehensive review of the current state of redactable blockchains and redaction mechanisms, particularly focusing on their application within IoT contexts. Through an extensive review of existing literature, this paper identifies key challenges and opportunities in implementing redactable blockchains for IoT data management. Various redaction mechanisms are explored, and the paper examines IoT implementations and use cases where redactable blockchains are employed to address data protection concerns. | 翻訳日:2024-07-22 14:19:18 公開日:2024-06-26 |
# 専門家の混ざり合いに関する調査
A Survey on Mixture of Experts ( http://arxiv.org/abs/2407.06204v1 ) ライセンス: Link先を確認 | Weilin Cai, Juyong Jiang, Fan Wang, Jing Tang, Sunghun Kim, Jiayi Huang, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理からコンピュータビジョンなど、様々な分野において前例のない進歩を遂げている。
LLMの進歩は、その相当なモデルサイズ、広範囲で多様なデータセット、および訓練中に活用される膨大な計算能力によって支えられ、これらすべてが、小さなモデルに存在しないLLM(例えば、文脈内学習)の創発的能力に寄与している。
この文脈の中で、専門家(MoE)の混在は、最小の計算オーバーヘッドでモデルキャパシティを実質的にスケールアップする有効な方法として現れ、アカデミックや業界から大きな注目を集めている。
普及しているにもかかわらず、MoEに関する文献の体系的かつ包括的なレビューは欠如している。
この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
まずまず,MoE層の構造について概説し,その後にMoEの新しい分類法を提案する。
次に,アルゴリズム的側面とシステム的側面の両方を含む様々なMoEモデルのコア設計と,利用可能なオープンソース実装のコレクション,ハイパーパラメータ構成,経験的評価について概説する。
さらに,MoEの多面的応用について概説し,今後の研究の方向性について概説する。
MoE研究で進行中の更新と最先端の開発の共有を容易にするため、https://github.com/withinmiaov/A-Survey-on-Mixture-of-Expertsで利用可能なリソースリポジトリを構築した。
Large language models (LLMs) have garnered unprecedented advancements across diverse fields, ranging from natural language processing to computer vision and beyond. The prowess of LLMs is underpinned by their substantial model size, extensive and diverse datasets, and the vast computational power harnessed during training, all of which contribute to the emergent abilities of LLMs (e.g., in-context learning) that are not present in small models. Within this context, the mixture of experts (MoE) has emerged as an effective method for substantially scaling up model capacity with minimal computation overhead, gaining significant attention from academia and industry. Despite its growing prevalence, there lacks a systematic and comprehensive review of the literature on MoE. This survey seeks to bridge that gap, serving as an essential resource for researchers delving into the intricacies of MoE. We first briefly introduce the structure of the MoE layer, followed by proposing a new taxonomy of MoE. Next, we overview the core designs for various MoE models including both algorithmic and systemic aspects, alongside collections of available open-source implementations, hyperparameter configurations and empirical evaluations. Furthermore, we delineate the multifaceted applications of MoE in practice, and outline some potential directions for future research. To facilitate ongoing updates and the sharing of cutting-edge developments in MoE research, we have established a resource repository accessible at https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts. | 翻訳日:2024-07-22 14:07:46 公開日:2024-06-26 |
# 心電図の基礎モデル
Foundation Models for Electrocardiograms ( http://arxiv.org/abs/2407.07110v1 ) ライセンス: Link先を確認 | Junho Song, Jong-Hwan Jang, Byeong Tak Lee, DongGyun Hong, Joon-myoung Kwon, Yong-Yeon Jo, | (参考訳) 自己監督学習(SSL)技術によって強化された基礎モデルは、特に心電図(ECG)において、バイオメディカルシグナル分析における最先端のフロンティアであり、心臓の健康モニタリングと診断に不可欠である。
本研究は,1100万以上のECGサンプルからなる膨大なデータセット上に,革新的なSSL方法論,すなわち生成的かつコントラッシブな学習を適用して,ECGの基礎モデルを包括的に分析する。
本研究は,心電図信号の複雑な特性に合わせてこれらの手法をカスタマイズすることにより,心臓診断の精度と信頼性を大幅に向上させる基礎モデルの開発に成功した。
これらのモデルは、ECGデータの複雑な微妙なニュアンスを表現することに長けており、診断能力を著しく向上させる。
この結果は、臨床現場におけるSSLの強化基盤モデルの可能性を強調し、幅広い医療診断分野にまたがって、そのスケーラブルな応用について広範な研究を行うための道を開くものである。
この研究は、ECG分野におけるベンチマークを設定し、適切なデータ駆動モデルトレーニングが医療診断の有効性と正確性に与える影響を実証する。
Foundation models, enhanced by self-supervised learning (SSL) techniques, represent a cutting-edge frontier in biomedical signal analysis, particularly for electrocardiograms (ECGs), crucial for cardiac health monitoring and diagnosis. This study conducts a comprehensive analysis of foundation models for ECGs by employing and refining innovative SSL methodologies - namely, generative and contrastive learning - on a vast dataset of over 1.1 million ECG samples. By customizing these methods to align with the intricate characteristics of ECG signals, our research has successfully developed foundation models that significantly elevate the precision and reliability of cardiac diagnostics. These models are adept at representing the complex, subtle nuances of ECG data, thus markedly enhancing diagnostic capabilities. The results underscore the substantial potential of SSL-enhanced foundation models in clinical settings and pave the way for extensive future investigations into their scalable applications across a broader spectrum of medical diagnostics. This work sets a benchmark in the ECG field, demonstrating the profound impact of tailored, data-driven model training on the efficacy and accuracy of medical diagnostics. | 翻訳日:2024-07-22 13:58:01 公開日:2024-06-26 |
# 拡散モデルに基づくビデオ編集:サーベイ
Diffusion Model-Based Video Editing: A Survey ( http://arxiv.org/abs/2407.07111v1 ) ライセンス: Link先を確認 | Wenhao Sun, Rong-Cheng Tu, Jingyi Liao, Dacheng Tao, | (参考訳) 拡散モデル(DM)の急速な開発は、画像とビデオのアプリケーションを大幅に進歩させ、「あなたが望むものは何に見えるか」を現実にしている。
このうち、ビデオ編集が注目され、研究活動が急速に増加し、既存の文献を包括的かつ体系的にレビューする必要がある。
本稿では,拡散モデルに基づくビデオ編集技術について概説する。
まず、数学的定式化と画像領域の鍵となる手法について概説する。
その後、進化軌道を描写した映像編集手法を、コア技術固有の接続によって分類する。
本稿では,ポイントベース編集やポーズ誘導型ヒューマンビデオ編集など,新しい応用についても検討する。
さらに,新たに導入したV2VBenchを用いた総合比較を行った。
これまでに達成された進歩に基づいて、この論文は、現在進行中の課題と今後の研究への潜在的方向性を結論付けている。
The rapid development of diffusion models (DMs) has significantly advanced image and video applications, making "what you want is what you see" a reality. Among these, video editing has gained substantial attention and seen a swift rise in research activity, necessitating a comprehensive and systematic review of the existing literature. This paper reviews diffusion model-based video editing techniques, including theoretical foundations and practical applications. We begin by overviewing the mathematical formulation and image domain's key methods. Subsequently, we categorize video editing approaches by the inherent connections of their core technologies, depicting evolutionary trajectory. This paper also dives into novel applications, including point-based editing and pose-guided human video editing. Additionally, we present a comprehensive comparison using our newly introduced V2VBench. Building on the progress achieved to date, the paper concludes with ongoing challenges and potential directions for future research. | 翻訳日:2024-07-22 13:58:01 公開日:2024-06-26 |
# ROLCH: 条件付きヘテロスケダストリティのための正規化オンライン学習
ROLCH: Regularized Online Learning for Conditional Heteroskedasticity ( http://arxiv.org/abs/2407.08750v1 ) ライセンス: Link先を確認 | Simon Hirsch, Jonathan Berrisch, Florian Ziel, | (参考訳) 大規模ストリーミングデータは現代の機械学習アプリケーションで一般的であり、オンライン学習アルゴリズムの開発につながっている。
サプライチェーン管理、気象・気象学、エネルギー市場、金融といった多くの分野は、予測された値を正確に学習するだけでなく、条件付きヘテロスケダスティック性を学ぶためにも必要となる確率的予測の使用に向けて方向転換してきた。
このような背景から,条件付きヘテロスケダスティック性に対する正規化線形分布モデルのオンライン推定手法を提案する。
提案アルゴリズムは,LASSOモデルのオンライン評価とGAMLSSフレームワークを併用した最近の開発成果に基づいている。
本稿では, 適応推定の競争性能と, 計算作業の強化を併用した日頭電力価格予測のケーススタディを提案する。
我々のアルゴリズムは計算効率のよいPythonパッケージで実装されている。
Large-scale streaming data are common in modern machine learning applications and have led to the development of online learning algorithms. Many fields, such as supply chain management, weather and meteorology, energy markets, and finance, have pivoted towards using probabilistic forecasts, which yields the need not only for accurate learning of the expected value but also for learning the conditional heteroskedasticity. Against this backdrop, we present a methodology for online estimation of regularized linear distributional models for conditional heteroskedasticity. The proposed algorithm is based on a combination of recent developments for the online estimation of LASSO models and the well-known GAMLSS framework. We provide a case study on day-ahead electricity price forecasting, in which we show the competitive performance of the adaptive estimation combined with strongly reduced computational effort. Our algorithms are implemented in a computationally efficient Python package. | 翻訳日:2024-07-22 13:48:17 公開日:2024-06-26 |
# 定量値を用いた氷板の注釈精度評価
Assessing Annotation Accuracy in Ice Sheets Using Quantitative Metrics ( http://arxiv.org/abs/2407.09535v1 ) ライセンス: Link先を確認 | Bayu Adhi Tama, Vandana Janeja, Sanjay Purushotham, | (参考訳) 気候変動による海面上昇の脅威は、氷床構造を深く理解する必要がある。
本研究は,氷床アノテーション手法の検証を目的とした定量的指標スイートを導入することで,正確な氷床データ解釈の必要性に対処する。
ARESELPとその修正版であるMARESELPを含む手動と自動の両方の手法に着目し,それらの精度を専門家のアノテーションから評価する。
本手法は,氷層アノテーションの連続性と接続性を評価するために,伝統的に氷河学研究で利用されていないいくつかのコンピュータビジョンメトリクスを取り入れている。
その結果,手動のアノテーションは専門家の洞察に優れるが,自動手法,特にMARESELPは,階層の連続性と専門家のラベルとの整合性を向上することがわかった。
The increasing threat of sea level rise due to climate change necessitates a deeper understanding of ice sheet structures. This study addresses the need for accurate ice sheet data interpretation by introducing a suite of quantitative metrics designed to validate ice sheet annotation techniques. Focusing on both manual and automated methods, including ARESELP and its modified version, MARESELP, we assess their accuracy against expert annotations. Our methodology incorporates several computer vision metrics, traditionally underutilized in glaciological research, to evaluate the continuity and connectivity of ice layer annotations. The results demonstrate that while manual annotations provide invaluable expert insights, automated methods, particularly MARESELP, improve layer continuity and alignment with expert labels. | 翻訳日:2024-07-22 13:18:53 公開日:2024-06-26 |
# ViPro: 手続き的知識を用いた複雑な動的シナリオの映像予測の実現と制御
ViPro: Enabling and Controlling Video Prediction for Complex Dynamical Scenarios using Procedural Knowledge ( http://arxiv.org/abs/2407.09537v1 ) ライセンス: Link先を確認 | Patrick Takenaka, Johannes Maucher, Marco F. Huber, | (参考訳) データ駆動モデルの計算グラフの一部として、手続き的ドメイン知識を直接活用するために、ビデオ予測のための新しいアーキテクチャ設計を提案する。
新たな挑戦的なシナリオに基づいて、最先端のビデオ予測器が複雑な動的設定に苦しむことを示し、プロセス知識の導入によって学習問題が実現可能であることを強調する。
我々のアプローチは、モデルにおけるデータ駆動型アスペクトと、下流制御タスクで使用する専用手続き型知識モジュールとの間の、象徴的に対処可能なインターフェースの学習をもたらす。
We propose a novel architecture design for video prediction in order to utilize procedural domain knowledge directly as part of the computational graph of data-driven models. On the basis of new challenging scenarios we show that state-of-the-art video predictors struggle in complex dynamical settings, and highlight that the introduction of prior process knowledge makes their learning problem feasible. Our approach results in the learning of a symbolically addressable interface between data-driven aspects in the model and our dedicated procedural knowledge module, which we utilize in downstream control tasks. | 翻訳日:2024-07-22 13:18:53 公開日:2024-06-26 |
# 人間と機械のリズムの相互作用をモデル化するための動的システムアプローチ
A Dynamic Systems Approach to Modelling Human-Machine Rhythm Interaction ( http://arxiv.org/abs/2407.09538v1 ) ライセンス: Link先を確認 | Zhongju Yuan, Wannes Van Ransbeeck, Geraint Wiggins, Dick Botteldooren, | (参考訳) 本研究は,人間のリズム知覚と同期能力のシミュレーションを探求するために,リズム処理の基礎となる物理・生物学的プロセスに触発された計算モデルを提案する。
小脳の機能をシミュレートする貯水池コンピューティングフレームワークを利用することで、モデルは二重ニューロンの分類を特徴とし、情報伝達を変調するパラメータを組み込んで生物学的ニューラルネットワーク特性を反映する。
本研究は, モデルが人間の知覚範囲内におけるリズムパターンを正確に知覚し, 適応する能力を示し, 人間のリズム相互作用と密に一致した行動を示す。
微調整機構と遅延フィードバックを組み込むことで、連続学習と正確なリズム予測が可能になる。
カスタマイズされた設定の導入により、その能力はさらに強化され、時間的認知タスクモデリングにおけるこのアーキテクチャの可能性と、人工的および生物学的システムにおけるリズム同期と予測の研究が強調される。
そこで本モデルは,脳がリズム関連行動を生成する動的な過程を解明する認知理論を,透過的にモデル化することができる。
In exploring the simulation of human rhythmic perception and synchronization capabilities, this study introduces a computational model inspired by the physical and biological processes underlying rhythm processing. Utilizing a reservoir computing framework that simulates the function of cerebellum, the model features a dual-neuron classification and incorporates parameters to modulate information transfer, reflecting biological neural network characteristics. Our findings demonstrate the model's ability to accurately perceive and adapt to rhythmic patterns within the human perceptible range, exhibiting behavior closely aligned with human rhythm interaction. By incorporating fine-tuning mechanisms and delay-feedback, the model enables continuous learning and precise rhythm prediction. The introduction of customized settings further enhances its capacity to stimulate diverse human rhythmic behaviors, underscoring the potential of this architecture in temporal cognitive task modeling and the study of rhythm synchronization and prediction in artificial and biological systems. Therefore, our model is capable of transparently modelling cognitive theories that elucidate the dynamic processes by which the brain generates rhythm-related behavior. | 翻訳日:2024-07-22 13:18:53 公開日:2024-06-26 |
# 液滴統計に基づくインクジェットプリンタの分類
Classification of Inkjet Printers based on Droplet Statistics ( http://arxiv.org/abs/2407.09539v1 ) ライセンス: Link先を確認 | Patrick Takenaka, Manuel Eberhardinger, Daniel Grießhaber, Johannes Maucher, | (参考訳) 与えられた文書を印刷するために使用されるプリンタモデルを知ることは、偽造を識別したり、実際の文書の有効性を逆に検証するための決定的な手がかりとなるかもしれない。
インクジェットプリンタは, 各プリンタモデルごとに異なるように見える確率的液滴パターンを生成し, 印刷文書スキャンから抽出した周波数領域の特徴を含む液滴特性を利用して, 基礎となるプリンタモデルの分類を行う。
我々は、高解像度文書スキャンのデータセットを収集して公開し、抽出した特徴が、ニューラルネットワークがプリンタメーカーだけでなく、個々のプリンタモデルも識別できるようにするのに十分な情報であることを示す。
Knowing the printer model used to print a given document may provide a crucial lead towards identifying counterfeits or conversely verifying the validity of a real document. Inkjet printers produce probabilistic droplet patterns that appear to be distinct for each printer model and as such we investigate the utilization of droplet characteristics including frequency domain features extracted from printed document scans for the classification of the underlying printer model. We collect and publish a dataset of high resolution document scans and show that our extracted features are informative enough to enable a neural network to distinguish not only the printer manufacturer, but also individual printer models. | 翻訳日:2024-07-22 13:18:53 公開日:2024-06-26 |
# 遺伝的バイオマーカー予測による全スライド画像のプロンプティング
Prompting Whole Slide Image Based Genetic Biomarker Prediction ( http://arxiv.org/abs/2407.09540v1 ) ライセンス: Link先を確認 | Ling Zhang, Boxiang Yun, Xingran Xie, Qingli Li, Xinxing Li, Yan Wang, | (参考訳) 大腸癌における遺伝子バイオマーカー,例えばマイクロサテライト不安定性,BRAFの予測は臨床診断に不可欠である。
本稿では,全スライド画像(WSI)に基づく遺伝的バイオマーカー予測手法を提案する。
本研究の目的は,(1)ギガピクセルWSIから遺伝バイオマーカーに関連する前景のインスタンスを抽出し,(2)WSIにおける微細な病理成分間の相互作用を抽出することである。
腫瘍微小環境におけるバイオマーカー情報のマイニングには粗大なアプローチを採用する。
これには、粗い医学的事前知識を使用して遺伝バイオマーカーに関連するインスタンスを抽出し、病理学のインスタンスを微細な病理学的構成要素に分類し、それらの相互作用をマイニングする。
MSI分類ではAUCが91.49%であった。
さらに,本手法の臨床的解釈可能性について検討した。
コードはhttps://github.com/DeepMed-Lab-ECNU/PromptBioで公開されている。
Prediction of genetic biomarkers, e.g., microsatellite instability and BRAF in colorectal cancer is crucial for clinical decision making. In this paper, we propose a whole slide image (WSI) based genetic biomarker prediction method via prompting techniques. Our work aims at addressing the following challenges: (1) extracting foreground instances related to genetic biomarkers from gigapixel WSIs, and (2) the interaction among the fine-grained pathological components in WSIs.Specifically, we leverage large language models to generate medical prompts that serve as prior knowledge in extracting instances associated with genetic biomarkers. We adopt a coarse-to-fine approach to mine biomarker information within the tumor microenvironment. This involves extracting instances related to genetic biomarkers using coarse medical prior knowledge, grouping pathology instances into fine-grained pathological components and mining their interactions. Experimental results on two colorectal cancer datasets show the superiority of our method, achieving 91.49% in AUC for MSI classification. The analysis further shows the clinical interpretability of our method. Code is publicly available at https://github.com/DeepMed-Lab-ECNU/PromptBio. | 翻訳日:2024-07-22 13:18:53 公開日:2024-06-26 |
# MATE: 埋め込み ― 長いテキストで画像を繋ぐ
MATE: Meet At The Embedding -- Connecting Images with Long Texts ( http://arxiv.org/abs/2407.09541v1 ) ライセンス: Link先を確認 | Young Kyun Jang, Junmo Kang, Yong Jae Lee, Donghyun Kim, | (参考訳) 視覚言語モデル(VLM)の進歩は、視覚的およびテキスト的データの整合性を大幅に向上させてきたが、これらのモデルは、主に画像と短い記述的キャプションの整合性に焦点を当てている。
この焦点は複雑なテキストのやりとりを扱う能力を制限するもので、特に長いキャプションや文書のような長いテキストは、まだ広く研究されていない。
本稿では,VLMとLarge Language Models(LLM)の機能を組み合わせた新たなアプローチであるMeet At The Embedding(MATE)を紹介し,画像長文ペアの追加を必要とせずに,この課題を克服する。
具体的には、VLMのテキストエンコーダを、長文の理解に優れたLLMベースのエンコーダに置き換える。
VLMとLLMのギャップを埋めるために、MATEは多段階的に訓練されたプロジェクションモジュールを組み込んでいる。
VLMテキストエンコーダからの埋め込みと、広範なテキストペアを使用してLLMからの埋め込みをアライメントすることから始まる。
このモジュールは、LLM埋め込みと密に画像埋め込みをシームレスに整列するために使用される。
画像と長文(長文キャプション/文書)を接続するタスクを評価するために,2つの新たなクロスモーダル検索ベンチマークを提案する。
大規模な実験結果から、MATEは画像と長いテキストを効果的に結合し、多様な意味関係を明らかにする。
While advancements in Vision Language Models (VLMs) have significantly improved the alignment of visual and textual data, these models primarily focus on aligning images with short descriptive captions. This focus limits their ability to handle complex text interactions, particularly with longer texts such as lengthy captions or documents, which have not been extensively explored yet. In this paper, we introduce Meet At The Embedding (MATE), a novel approach that combines the capabilities of VLMs with Large Language Models (LLMs) to overcome this challenge without the need for additional image-long text pairs. Specifically, we replace the text encoder of the VLM with a pretrained LLM-based encoder that excels in understanding long texts. To bridge the gap between VLM and LLM, MATE incorporates a projection module that is trained in a multi-stage manner. It starts by aligning the embeddings from the VLM text encoder with those from the LLM using extensive text pairs. This module is then employed to seamlessly align image embeddings closely with LLM embeddings. We propose two new cross-modal retrieval benchmarks to assess the task of connecting images with long texts (lengthy captions / documents). Extensive experimental results demonstrate that MATE effectively connects images with long texts, uncovering diverse semantic relationships. | 翻訳日:2024-07-22 13:18:53 公開日:2024-06-26 |
# ジェネレーティブ・差別:ジェネレーティブ・AIがバイアスを排出すると何が起こるのか、それについて何ができるのか
Generative Discrimination: What Happens When Generative AI Exhibits Bias, and What Can Be Done About It ( http://arxiv.org/abs/2407.10329v1 ) ライセンス: Link先を確認 | Philipp Hacker, Brent Mittelstadt, Frederik Zuiderveen Borgesius, Sandra Wachter, | (参考訳) ジェネレーティブ・人工知能(genAI)技術は、セクターにまたがって普及しているため、大きな利益を提供するだけでなく、差別を悪化させるリスクも与えている。
この章では、genAIが非差別法とどのように交わるかを説明し、欠点を特定し、改善を提案する。
主な2種類の識別出力を強調します。
一 軽蔑及び虐待の内容及び
二 保護集団の表現が不十分なことによる微妙な偏見は、個々の場合において過度に差別的ではなく、累積的な差別的効果を有する可能性がある。
例えば、GenAIシステムでは、重要な職にある人物のイメージを尋ねると、主に白人男性を描写することがある。
この章では、これらの問題を調査し、問題のあるアウトプットを、差別的コンテンツ、ハラスメント、不均衡コンテンツ、有害なステレオタイプまたは誤分類のような法的に困難なケースの3つの法的カテゴリに分類する。
差別的なアウトプットに責任を負うgenAIプロバイダやデプロイの保持を主張し、genAI固有の問題に対処する従来の法的枠組みの不十分さを強調している。
この章では、トレーニングと入力データのバイアスを軽減するためにAI法を含むEUの法律の更新、テストと監査を義務付けること、テクノロジーが進歩するにつれてバイアス緩和と傾きの基準を強制する法律の進化を推奨している。
As generative Artificial Intelligence (genAI) technologies proliferate across sectors, they offer significant benefits but also risk exacerbating discrimination. This chapter explores how genAI intersects with non-discrimination laws, identifying shortcomings and suggesting improvements. It highlights two main types of discriminatory outputs: (i) demeaning and abusive content and (ii) subtler biases due to inadequate representation of protected groups, which may not be overtly discriminatory in individual cases but have cumulative discriminatory effects. For example, genAI systems may predominantly depict white men when asked for images of people in important jobs. This chapter examines these issues, categorizing problematic outputs into three legal categories: discriminatory content; harassment; and legally hard cases like unbalanced content, harmful stereotypes or misclassification. It argues for holding genAI providers and deployers liable for discriminatory outputs and highlights the inadequacy of traditional legal frameworks to address genAI-specific issues. The chapter suggests updating EU laws, including the AI Act, to mitigate biases in training and input data, mandating testing and auditing, and evolving legislation to enforce standards for bias mitigation and inclusivity as technology advances. | 翻訳日:2024-07-22 12:49:16 公開日:2024-06-26 |
# 時系列ストリーム音声翻訳におけるMTビーム探索のマイニングフィールドの探索
Navigating the Minefield of MT Beam Search in Cascaded Streaming Speech Translation ( http://arxiv.org/abs/2407.11010v1 ) ライセンス: Link先を確認 | Rastislav Rabatin, Frank Seide, Ernie Chang, | (参考訳) 我々は,機械翻訳においてよく知られたビームサーチアルゴリズムを適用し,実時間音声翻訳システムで動作させる。
これは、(1) ASRの不完全単語による中間文字と最終文字のリアルタイム処理、(2) ユーザの知覚遅延を最小限に抑えた中間文字と最終翻訳の出力、(3) 長さとモデル状態の異なるビーム探索仮説の処理、(4) 文境界の処理の4つの主要な課題により、当初予想より複雑であることが判明した。
機械翻訳の分野でのこれまでの作業では、グレディ復号化しか実装されていなかった。
上記の全てを処理し、課題の地雷フィールドを通じてガイダンスを提供するビームサーチ実現法を提案する。
提案手法では,入力を繰り返し再翻訳するベースラインヒューリスティックに比べて,BLEUスコアが1ポイント向上し,CPU時間を最大40%削減し,キャラクタフリックレートが20%向上する。
We adapt the well-known beam-search algorithm for machine translation to operate in a cascaded real-time speech translation system. This proved to be more complex than initially anticipated, due to four key challenges: (1) real-time processing of intermediate and final transcriptions with incomplete words from ASR, (2) emitting intermediate and final translations with minimal user perceived latency, (3) handling beam search hypotheses that have unequal length and different model state, and (4) handling sentence boundaries. Previous work in the field of simultaneous machine translation only implemented greedy decoding. We present a beam-search realization that handles all of the above, providing guidance through the minefield of challenges. Our approach increases the BLEU score by 1 point compared to greedy search, reduces the CPU time by up to 40% and character flicker rate by 20+% compared to a baseline heuristic that just retranslates input repeatedly. | 翻訳日:2024-07-22 12:29:47 公開日:2024-06-26 |
# 3Dポイントクラウドのアベイラビリティーアタックに向けて
Toward Availability Attacks in 3D Point Clouds ( http://arxiv.org/abs/2407.11011v1 ) ライセンス: Link先を確認 | Yifan Zhu, Yibo Miao, Yinpeng Dong, Xiao-Shan Gao, | (参考訳) 3Dビジョンの大きな進歩にもかかわらず、3Dディープラーニングにおけるデータプライバシとセキュリティ問題は、体系的に検討されていない。
2次元画像の領域では、不正な深層モデルによる不正な学習を防ぐために、多くのアベイラビリティーアタックが提案されている。
しかし、固定次元格子上に表現される画像とは異なり、点雲は非順序集合と非構造集合として特徴付けられ、3次元深層学習に有効なアベイラビリティーアタックを設計する上で大きな課題となっている。
本稿では, 距離正規化による2次元アベイラビリティー・アタックを3次元点群に直接拡張することは, 縮退の影響を受けやすいことを理論的に示す。
これは、双方向最適化において、正規化項を導入することで、制御不能な更新方向が生じるためである。
この問題に対処するために,特徴空間に新たなショートカットを発生させる新しい特徴衝突誤差最小化法 (FC-EM) を提案する。
さらに,FC-EM攻撃の有効性を示す理論的解析を行った。
典型的なポイントクラウドデータセット,3次元頭蓋内大動脈瘤医療データセット,および3次元顔データセットに対する大規模な実験により,我々のアプローチの優位性と実用性を検証する。
コードはhttps://github.com/hala64/fc-emで入手できる。
Despite the great progress of 3D vision, data privacy and security issues in 3D deep learning are not explored systematically. In the domain of 2D images, many availability attacks have been proposed to prevent data from being illicitly learned by unauthorized deep models. However, unlike images represented on a fixed dimensional grid, point clouds are characterized as unordered and unstructured sets, posing a significant challenge in designing an effective availability attack for 3D deep learning. In this paper, we theoretically show that extending 2D availability attacks directly to 3D point clouds under distance regularization is susceptible to the degeneracy, rendering the generated poisons weaker or even ineffective. This is because in bi-level optimization, introducing regularization term can result in update directions out of control. To address this issue, we propose a novel Feature Collision Error-Minimization (FC-EM) method, which creates additional shortcuts in the feature space, inducing different update directions to prevent the degeneracy of bi-level optimization. Moreover, we provide a theoretical analysis that demonstrates the effectiveness of the FC-EM attack. Extensive experiments on typical point cloud datasets, 3D intracranial aneurysm medical dataset, and 3D face dataset verify the superiority and practicality of our approach. Code is available at https://github.com/hala64/fc-em. | 翻訳日:2024-07-22 12:29:47 公開日:2024-06-26 |
# 自殺自動リスクアセスメントにおけるジェンダー特有の音声パターンの探索
Exploring Gender-Specific Speech Patterns in Automatic Suicide Risk Assessment ( http://arxiv.org/abs/2407.11012v1 ) ライセンス: Link先を確認 | Maurice Gerczuk, Shahin Amiriparian, Justina Lutz, Wolfgang Strube, Irina Papazova, Alkomiet Hasan, Björn W. Schuller, | (参考訳) 救急医療では、自殺リスクのある患者へのタイムリーな介入は、専門の精神科医療へのアクセスが遅れることによって妨げられることが多い。
このギャップを埋めるために,自動自殺リスク評価のための音声ベースのアプローチを導入する。
本研究は,中性テキストを読む20症例の音声記録を含む新しいデータセットについて検討した。
解釈可能な特徴と深い特徴を含む4つの音声表現を抽出する。
さらに、ジェンダーベースのモデリングとフレーズレベルの正規化の影響についても検討する。
性別排他モデルを適用することにより、感情の微調整wav2vec2.0モデルから抽出した特徴を利用して、低自殺リスクから高リスクを81%の精度で識別することができる。
最後に, 音声特性と自殺リスクとの関連性について検討した。
我々のデータセットでは、自殺リスクは扇動とともに増加し、女性の声の特徴は反対の方向を向いている。
In emergency medicine, timely intervention for patients at risk of suicide is often hindered by delayed access to specialised psychiatric care. To bridge this gap, we introduce a speech-based approach for automatic suicide risk assessment. Our study involves a novel dataset comprising speech recordings of 20 patients who read neutral texts. We extract four speech representations encompassing interpretable and deep features. Further, we explore the impact of gender-based modelling and phrase-level normalisation. By applying gender-exclusive modelling, features extracted from an emotion fine-tuned wav2vec2.0 model can be utilised to discriminate high- from low- suicide risk with a balanced accuracy of 81%. Finally, our analysis reveals a discrepancy in the relationship of speech characteristics and suicide risk between female and male subjects. For men in our dataset, suicide risk increases together with agitation while voice characteristics of female subjects point the other way. | 翻訳日:2024-07-22 12:29:47 公開日:2024-06-26 |
# 社会物理学的ニューロモーフィックAIのための量子トンネル型ディープニューラルネットワーク
Quantum-tunnelling deep neural networks for sociophysical neuromorphic AI ( http://arxiv.org/abs/2407.11013v1 ) ライセンス: Link先を確認 | Ivan S. Maksymov, | (参考訳) 量子トンネル効果の発見は、1920年代に行われた量子力学の最も印象的な成果の1つである。
現代の課題に対応して、量子トンネル効果を用いて情報を処理する新しいディープニューラルネットワーク(DNN)アーキテクチャを導入します。
量子トンネルDNN(QT-DNN)が人間のような錯覚を認識できることを実証する。
QT-DNNのハードウェア実装は、自動運転車への応用に適した安価でエネルギー効率の良いニューロモルフィックチップをもたらすことが期待されている。
本研究で開発された光学イリュージョン認識テストは、未来のAIシステムのための認知的ベンチマークタスクの基礎を築き、社会物理学や行動科学の分野に役立てるべきである。
The discovery of the quantum tunnelling effect -- the transmission of particles through a high potential barrier -- was one of the most impressive achievements of quantum mechanics made in the 1920s. Responding to the contemporary challenges, I introduce a novel deep neural network (DNN) architecture that processes information using the effect of quantum tunnelling. I demonstrate the ability of the quantum tunnelling DNN (QT-DNN) to recognise optical illusions like a human. Hardware implementation of QT-DNN is expected to result in an inexpensive and energy-efficient neuromorphic chip suitable for applications in autonomous vehicles. The optical illusions recognition tests developed in this paper should lay foundations for cognitive benchmarking tasks for AI systems of the future, benefiting the fields of sociophysics and behavioural science. | 翻訳日:2024-07-22 12:29:47 公開日:2024-06-26 |
# Geode: 露骨な推論と高精度な時空間検索機能を備えたゼロショット地理空間質問応答エージェント
Geode: A Zero-shot Geospatial Question-Answering Agent with Explicit Reasoning and Precise Spatio-Temporal Retrieval ( http://arxiv.org/abs/2407.11014v1 ) ライセンス: Link先を確認 | Devashish Vikas Gupta, Azeez Syed Ali Ishaqui, Divya Kiran Kadiyala, | (参考訳) 大規模言語モデル(LLM)は、様々な形式のデータから学習と文脈情報を得る上で有望な結果を示している。
近年の基盤モデル,特に自己認識機構の進歩は,多様なデータ型の意味を理解する能力を大幅に向上させてきた。
マルチモダリティの恩恵を受けることができる分野の1つは、本質的に複数のモダリティを持つ地理空間データの理解である。
しかし、現在の自然言語処理(NLP)メカニズムは、地理空間的クエリを効果的に扱うのに苦労している。
既存の学習済みLLMは地理空間データのユニークな要求を満たすには不十分であり、正確な時空間データをリアルタイムに取得できないため、複雑な地理空間クエリに応答する際の精度が大幅に低下する。
これらの制約に対処するために,時空間データ検索を用いた高精度なゼロショット地理空間質問応答問題に対処する先駆的システムGeodeを導入する。
提案手法は,現在のLLMモデルの限界に対処する上で,既存の最先端事前学習モデルと比較して空間的質問応答能力が著しく向上したことを示す。
Large language models (LLMs) have shown promising results in learning and contextualizing information from different forms of data. Recent advancements in foundational models, particularly those employing self-attention mechanisms, have significantly enhanced our ability to comprehend the semantics of diverse data types. One such area that could highly benefit from multi-modality is in understanding geospatial data, which inherently has multiple modalities. However, current Natural Language Processing (NLP) mechanisms struggle to effectively address geospatial queries. Existing pre-trained LLMs are inadequately equipped to meet the unique demands of geospatial data, lacking the ability to retrieve precise spatio-temporal data in real-time, thus leading to significantly reduced accuracy in answering complex geospatial queries. To address these limitations, we introduce Geode--a pioneering system designed to tackle zero-shot geospatial question-answering tasks with high precision using spatio-temporal data retrieval. Our approach represents a significant improvement in addressing the limitations of current LLM models, demonstrating remarkable improvement in geospatial question-answering abilities compared to existing state-of-the-art pre-trained models. | 翻訳日:2024-07-22 12:29:47 公開日:2024-06-26 |
# 放射性炭素とAIを用いた筆跡解析を用いた古写本の年代推定
Dating ancient manuscripts using radiocarbon and AI-based writing style analysis ( http://arxiv.org/abs/2407.12013v1 ) ライセンス: Link先を確認 | Mladen Popović, Maruf A. Dhali, Lambert Schomaker, Johannes van der Plicht, Kaare Lund Rasmussen, Jacopo La Nasa, Ilaria Degano, Maria Perla Colombini, Eibert Tigchelaar, | (参考訳) 古写本の年代決定は、思想の進化の再構築に不可欠である。
デッドシースクロールにとって、これは特に重要である。
しかし、ほぼ完全な年代記の欠如がタイムラインに均等に散在し、パレオグラフィー比較で利用可能な類似の書体で書かれている。
本稿では,現在最先端のAIに基づく年代予測モデルであるEnochについて紹介する。
Enochは、確立された手書きスタイルの記述子を使用し、ベイズ尾根の回帰を適用している。
本研究の課題は,現在の機械学習では大量のトレーニングデータを必要とするのに対して,放射性炭素年代付原稿の数は少ないことである。
角線およびアログラフによる特徴ベクトルとベイジアンリッジの回帰を併用することにより,エノクは放射性炭素系年代を27.9~30.7年で予測できることを示した。
その後、エノクは135点の未確認写本の日付を推定するために用いられ、標本の79パーセントがパレオグラフィーによるポストホック評価で「現実的」であるとされた。
我々はその巻物の新しい年表を提示する。
放射性炭素の範囲とエノクのスタイルに基づく予測は、伝統的に推定されるパレオグラフィー推定よりも古いことが多い。
紀元前300-50年の範囲では、エノクの年代予測により粒度は改善された。
本研究は, マルチモーダル機械学習技術の現況と一致し, 他の部分的古写本コレクションの日付予測に利用することができる。
この研究は、エノクの量的、確率に基づくアプローチが、パレオグラフィーや歴史家にとっての道具となり、古代ユダヤ人の鍵となる文章を再編纂し、現在のユダヤ教とキリスト教の起源に関する議論に寄与していることを示している。
Determining the chronology of ancient handwritten manuscripts is essential for reconstructing the evolution of ideas. For the Dead Sea Scrolls, this is particularly important. However, there is an almost complete lack of date-bearing manuscripts evenly distributed across the timeline and written in similar scripts available for palaeographic comparison. Here, we present Enoch, a state-of-the-art AI-based date-prediction model, trained on the basis of new radiocarbon-dated samples of the scrolls. Enoch uses established handwriting-style descriptors and applies Bayesian ridge regression. The challenge of this study is that the number of radiocarbon-dated manuscripts is small, while current machine learning requires an abundance of training data. We show that by using combined angular and allographic writing style feature vectors and applying Bayesian ridge regression, Enoch could predict the radiocarbon-based dates from style, supported by leave-one-out validation, with varied MAEs of 27.9 to 30.7 years relative to the radiocarbon dating. Enoch was then used to estimate the dates of 135 unseen manuscripts, revealing that 79 per cent of the samples were considered 'realistic' upon palaeographic post-hoc evaluation. We present a new chronology of the scrolls. The radiocarbon ranges and Enoch's style-based predictions are often older than the traditionally assumed palaeographic estimates. In the range of 300-50 BCE, Enoch's date prediction provides an improved granularity. The study is in line with current developments in multimodal machine-learning techniques, and the methods can be used for date prediction in other partially-dated manuscript collections. This research shows how Enoch's quantitative, probability-based approach can be a tool for palaeographers and historians, re-dating ancient Jewish key texts and contributing to current debates on Jewish and Christian origins. | 翻訳日:2024-07-22 11:30:12 公開日:2024-06-26 |
# 無線フェデレーション学習のためのエネルギー効率の良いチャネルデコーディング:収束解析と適応設計
Energy-Efficient Channel Decoding for Wireless Federated Learning: Convergence Analysis and Adaptive Design ( http://arxiv.org/abs/2407.13703v1 ) ライセンス: Link先を確認 | Linping Qu, Yuyi Mao, Shenghui Song, Chi-Ying Tsui, | (参考訳) 無線ネットワークにおけるフェデレートラーニング(FL)のような分散学習の展開における最も重要な課題の1つは、モバイルデバイスのバッテリ容量の制限である。
モバイル機器のエネルギー消費は、アップリンクデータ伝送によるものであるという説が一般的であるが、本稿では、チャネルデコード操作が、FLにおけるモバイル機器全体のエネルギー消費に大きく貢献することを示す。
そこで本研究では,FLの固有ロバスト性を利用したエネルギー効率適応型チャネル復号法を提案する。
特に、携帯端末におけるチャネルデコーダのエネルギー消費を減らすために、復号回数を適応的に調整することでロバスト性を利用する。
我々は,通信エラーのあるFLが,ビット誤り率(BER)が適切に制約されている限り,エラーのない通信と同じ速度で収束できることを理論的に証明する。
次に、FLシステムのエネルギー効率を改善するために適応チャネル復号方式を提案する。
実験の結果,提案手法は同じ学習精度を維持しつつ,既存の手法と比較してチャネル復号化エネルギー消費量を20%削減できることがわかった。
One of the most critical challenges for deploying distributed learning, such as federated learning (FL), in wireless networks is the limited battery capacity of mobile devices. While it is a common belief that the major energy consumption of mobile devices comes from the uplink data transmission, this paper presents a novel finding, namely the channel decoding operation also contributes significantly to the overall energy consumption of mobile devices in FL. Motivated by this new observation, we propose an energy-efficient adaptive channel decoding scheme that leverages the intrinsic robustness of FL to model errors. In particular, the robustness is exploited to reduce the energy consumption of channel decoders at mobile devices by adaptively adjusting the number of decoding iterations. We theoretically prove that FL with communication errors can converge at the same rate as error-free communication as long as the bit error rate (BER) is properly constrained. An adaptive channel decoding scheme is then proposed to improve the energy efficiency of FL systems. Experimental results demonstrate that the proposed method maintains the same learning accuracy while reducing the channel decoding energy consumption by 20% when compared to existing approaches. | 翻訳日:2024-07-22 08:07:30 公開日:2024-06-26 |
# パッケージ生態系における信頼強化機構の体系的文献レビュー
Systematic literature review of the trust reinforcement mechanisms exist in package ecosystems ( http://arxiv.org/abs/2407.02522v1 ) ライセンス: Link先を確認 | Angel Temelko, Fang Hou, Siamak Farshidi, Slinger Jansen, | (参考訳) 我々は、既存のnpmセキュリティツールに関連する課題と解決策をよりよく把握するために、徹底的なSLRを実施しました。
私たちのゴールは、ドキュメント化された経験と発見を掘り下げることでした。
具体的には、サードパーティパッケージの選択の背景にあるモチベーション、警告メッセージに対するソフトウェアエンジニアの反応、セキュリティ問題に対する全体的な理解について、積極的に学びました。
このレビューの主な目的は、現在のnpm環境における一般的なトレンド、方法、および信頼ツールの関心点を特定することである。
さらに我々は,SECOをnpmのようなプラットフォームに統合することの複雑さを理解することを試みた。
初期の研究を分析した結果、見落とされがちな地域を見つけ出し、それに対応するために我々の研究を推し進めることが目的だった。
We conducted a thorough SLR to better grasp the challenges and possible solutions associated with existing npm security tools. Our goal was to delve into documented experiences and findings. Specifically, we were keen to learn about the motivations behind choosing third-party packages, software engineers' responses to warning messages, and their overall understanding of security issues. The main aim of this review was to pinpoint prevailing trends, methods, and concerns in trust tools for the present npm environment. Furthermore, we sought to understand the complexities of integrating SECO into platforms such as npm. By analyzing earlier studies, our intention was to spot any overlooked areas and steer our research to address them. | 翻訳日:2024-07-07 13:14:55 公開日:2024-06-26 |
# マルチモーダル大言語モデル(MLLM)における視覚的推論とマルチエージェントアプローチ--TSPとmTSP Combinatorによる課題の解決
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges ( http://arxiv.org/abs/2407.00092v1 ) ライセンス: Link先を確認 | Mohammed Elhenawy, Ahmad Abutahoun, Taqwa I. Alhadidi, Ahmed Jaber, Huthaifa I. Ashqar, Shadi Jaradat, Ahmed Abdelhay, Sebastien Glaser, Andry Rakotonirainy, | (参考訳) MLLM(Multimodal Large Language Models)は、テキスト、画像、オーディオにまたがる包括的な知識を活用して、ゼロショットのインコンテキスト学習シナリオを含む複雑な問題に対処する。
本研究では,2次元平面上の点分布を表す画像を用いて,旅行セールスマン問題 (TSP) と旅行セールスマン問題 (MTSP) を視覚的に解決するMLLMの能力について検討した。
本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
実験では、ゼロショット設定に対する厳密な評価と、革新的なマルチエージェントゼロショットインコンテキストシナリオを導入している。
その結果,2つのマルチエージェントモデルが得られた。
Initializer, Critic, Scorer エージェントを含む Multi-Agent 1 と,Initializer エージェントと Critic エージェントのみを含む Multi-Agent 2。
Multi-Agent 1は、詳細なルート修正と評価を必要とする環境に優れ、洗練された最適化のための堅牢なフレームワークを提供する。
対照的にMulti-Agent 2は、イニシャライザと批評家による反復的な改善に焦点を当て、迅速な意思決定シナリオに有効であることが証明された。
これらの実験は有望な結果をもたらし、多様な組合せ問題に対処するMLLMの堅牢な視覚的推論能力を示す。
この発見は、計算最適化における強力なツールとしてのMLLMの可能性を強調し、この将来性のある分野のさらなる進歩を刺激する洞察を提供する。
プロジェクトリンク:https://github.com/ahmed-abdulhuy/Solving-TSP-and-mTSP-Combinatorial-Challenges-using-Visual-Reason ing-and-Multi-Agent-Approach-MLLMs-
git
Multimodal Large Language Models (MLLMs) harness comprehensive knowledge spanning text, images, and audio to adeptly tackle complex problems, including zero-shot in-context learning scenarios. This study explores the ability of MLLMs in visually solving the Traveling Salesman Problem (TSP) and Multiple Traveling Salesman Problem (mTSP) using images that portray point distributions on a two-dimensional plane. We introduce a novel approach employing multiple specialized agents within the MLLM framework, each dedicated to optimizing solutions for these combinatorial challenges. Our experimental investigation includes rigorous evaluations across zero-shot settings and introduces innovative multi-agent zero-shot in-context scenarios. The results demonstrated that both multi-agent models. Multi-Agent 1, which includes the Initializer, Critic, and Scorer agents, and Multi-Agent 2, which comprises only the Initializer and Critic agents; significantly improved solution quality for TSP and mTSP problems. Multi-Agent 1 excelled in environments requiring detailed route refinement and evaluation, providing a robust framework for sophisticated optimizations. In contrast, Multi-Agent 2, focusing on iterative refinements by the Initializer and Critic, proved effective for rapid decision-making scenarios. These experiments yield promising outcomes, showcasing the robust visual reasoning capabilities of MLLMs in addressing diverse combinatorial problems. The findings underscore the potential of MLLMs as powerful tools in computational optimization, offering insights that could inspire further advancements in this promising field. Project link: https://github.com/ahmed-abdulhuy/Solving-TSP-and-mTSP-Combinatorial-Challenges-using-Visual-Reasoni ng-and-Multi-Agent-Approach-MLLMs-.git | 翻訳日:2024-07-04 06:30:11 公開日:2024-06-26 |
# サルペター方程式の閉形式解
Closed-form solutions for the Salpeter equation ( http://arxiv.org/abs/2407.00096v1 ) ライセンス: Link先を確認 | Fernando Alonso-Marroquin, Yaoyue Tang, Fatemeh Gharari, M. N. Najafi, | (参考訳) スピンを持たない相対論的量子粒子を記述した1+1$次元サルペター・ハミルトンのプロパゲータに対する積分表現と解析解を提案する。
与えられた初期条件に対する正確なグリーン関数と正確な解を探索し、いくつかの極限の場合において漸近解を求める。
複素平面におけるハミルトニアンの解析的拡張により、等価確率問題、すなわちB\"オーマー方程式を定式化することができる。
この方程式は時変異常拡散を伴う‘textit{relativistic} 確率過程を記述する。
このB\"オーマープロパゲータは、小さな時間でコーシー分布とガウス拡散を補間する相対論的拡散過程のグリーン関数に対応し、異常拡散が時間依存である確率過程の枠組みを提供する。
We propose integral representations and analytical solutions for the propagator of the $1+1$ dimensional Salpeter Hamiltonian, describing a relativistic quantum particle with no spin. We explore the exact Green function and an exact solution for a given initial condition, and also find the asymptotic solutions in some limiting cases. The analytical extension of the Hamiltonian in the complex plane allows us to formulate the equivalent stochastic problem, namely the B\"aumer equation. This equation describes \textit{relativistic} stochastic processes with time-changing anomalous diffusion. This B\"aumer propagator corresponds to the Green function of a relativistic diffusion process that interpolates between Cauchy distributions for small times and Gaussian diffusion for large times, providing a framework for stochastic processes where anomalous diffusion is time-dependent. | 翻訳日:2024-07-04 06:30:11 公開日:2024-06-26 |
# H&E全スライド画像からの仮想マルチステアリングのためのスケーラブルで信頼性の高い生成モデル
Scalable, Trustworthy Generative Model for Virtual Multi-Staining from H&E Whole Slide Images ( http://arxiv.org/abs/2407.00098v1 ) ライセンス: Link先を確認 | Mehdi Ounissi, Ilias Sarbout, Jean-Pierre Hugot, Christine Martinez-Vinson, Dominique Berrebi, Daniel Racoceanu, | (参考訳) 化学染色法は信頼性が高いが、幅広い時間と高価な化学物質を必要とし、環境問題を引き起こす。
これらの課題は、診断プロセスを加速し、染色アプリケーションの柔軟性を高める仮想染色のような代替ソリューションの必要性を強調している。
ジェネレーティブAI技術は、これらの問題に対処する上で重要である。
しかし、特に計算病理学において、医療決定の持つ高い性質は、それらの不透明なプロセスのため、これらのツールの採用を複雑にしている。
我々の研究は、仮想染色に生成AIを導入し、計算病理学における性能、信頼性、スケーラビリティ、適応性を向上させることを目的としている。
この手法は、複数のステンデコーダをサポートする特異なH&Eエンコーダを中心にしている。
この設計は、H&Eの潜伏空間における臨界領域に焦点を当て、正確な合成染色生成を可能にする。
提案手法は,1つのH&Eスライドから8つの異なる染色物を生成するためにテストされ,本システムに必要なモデルコンポーネントのみをロードすることでスケーラビリティを提供する。
ラベルなしの知識を学習において統合し、損失関数と正規化を用いてアーティファクトを最小化し、ペア/アンペア仮想染色精度を向上させる。
信頼を構築するために,各染色の種類ごとに識別器を用いたリアルタイム自己検査を行い,信頼性の高い熱マップを病理学者に提供する。
新しいH&Eスライドの自動品質チェックは、トレーニングされた分布に適合し、正確な合成染色を確実にする。
新しいテクノロジによる病理学者の課題を認識し,ブラウザを通じてH&Eスライドの仮想染色を可能にし,ハードウェアやソフトウェアの問題に対処し,リアルタイムなユーザフィードバックを容易にする,オープンソースのクラウドベースシステムを開発した。
また, 小児クローン病に関連する8つのH&E/stainの新たなデータセットを収集し, 480個のWSIを用いて, 計算病理学研究をさらに促進した。
Chemical staining methods are dependable but require extensive time, expensive chemicals, and raise environmental concerns. These challenges highlight the need for alternative solutions like virtual staining, which accelerates the diagnostic process and enhances stain application flexibility. Generative AI technologies are pivotal in addressing these issues. However, the high-stakes nature of healthcare decisions, especially in computational pathology, complicates the adoption of these tools due to their opaque processes. Our work introduces the use of generative AI for virtual staining, aiming to enhance performance, trustworthiness, scalability, and adaptability in computational pathology. The methodology centers on a singular H&E encoder supporting multiple stain decoders. This design focuses on critical regions in the latent space of H&E, enabling precise synthetic stain generation. Our method, tested to generate 8 different stains from a single H&E slide, offers scalability by loading only necessary model components during production. We integrate label-free knowledge in training, using loss functions and regularization to minimize artifacts, thus improving paired/unpaired virtual staining accuracy. To build trust, we use real-time self-inspection with discriminators for each stain type, providing pathologists with confidence heat-maps. Automatic quality checks on new H&E slides ensure conformity to the trained distribution, ensuring accurate synthetic stains. Recognizing pathologists' challenges with new technologies, we have developed an open-source, cloud-based system, that allows easy virtual staining of H&E slides through a browser, addressing hardware/software issues and facilitating real-time user feedback. We also curated a novel dataset of 8 paired H&E/stains related to pediatric Crohn's disease, comprising 480 WSIs to further stimulate computational pathology research. | 翻訳日:2024-07-04 06:30:11 公開日:2024-06-26 |
# 氷床モデルと海面モデル(ISSM)の計算効率的エミュレータとしてのグラフニューラルネットワーク
Graph Neural Network as Computationally Efficient Emulator of Ice-sheet and Sea-level System Model (ISSM) ( http://arxiv.org/abs/2407.01464v1 ) ライセンス: Link先を確認 | Younghyun Koo, Maryam Rahnemoonfar, | (参考訳) 氷床・海水準系モデル(ISSM)は、有限要素と微細メッシュ適応を用いて、氷床力学に関連するストークス方程式の解を提供する。
しかし、その有限要素法はCPU(Central Processing Units)としか互換性がないため、ISSMは計算時間を短縮することに制限がある。
したがって、グラフィックス処理ユニット(GPU)を活用して、ISSMの高速エミュレータとしてグラフ畳み込みネットワーク(GCN)を設計する。
GCNは、Pine Island Glacier (PIG)の20年間のISSMシミュレーションを用いて、訓練と試験を行っている。
GCNは0.998以上の相関係数で氷厚と速度を再現し、従来の畳み込みニューラルネットワーク(CNN)より優れている。
さらに、GCNはCPUベースのISSMモデリングよりも34倍高速な計算速度を示している。
GPUベースのGCNエミュレータにより,PIGが将来的にどのように変化するかを予測することができる。
The Ice-sheet and Sea-level System Model (ISSM) provides solutions for Stokes equations relevant to ice sheet dynamics by employing finite element and fine mesh adaption. However, since its finite element method is compatible only with Central Processing Units (CPU), the ISSM has limits on further economizing computational time. Thus, by taking advantage of Graphics Processing Units (GPUs), we design a graph convolutional network (GCN) as a fast emulator for ISSM. The GCN is trained and tested using the 20-year transient ISSM simulations in the Pine Island Glacier (PIG). The GCN reproduces ice thickness and velocity with a correlation coefficient greater than 0.998, outperforming the traditional convolutional neural network (CNN). Additionally, GCN shows 34 times faster computational speed than the CPU-based ISSM modeling. The GPU-based GCN emulator allows us to predict how the PIG will change in the future under different melting rate scenarios with high fidelity and much faster computational time. | 翻訳日:2024-07-03 20:31:30 公開日:2024-06-26 |
# データ駆動型中距離気象予報の長期予測精度向上
Long-Term Prediction Accuracy Improvement of Data-Driven Medium-Range Global Weather Forecast ( http://arxiv.org/abs/2407.01598v1 ) ライセンス: Link先を確認 | Yifan Hu, Fukang Yin, Weimin Zhang, Kaijun Ren, Junqiang Song, Kefeng Deng, Di Zhang, | (参考訳) 長期安定は、データ駆動の中距離世界天気予報において重要な要件である。
スペクトルバイアスは、小規模の力学を学ぶのが難しいデータ駆動手法として、不安定性の主要な要因として認識されている。
本稿では,これらの不安定性の普遍的なメカニズムが,スペクトルバイアスだけでなく,従来の畳み込みを用いた球面データ処理による歪みにも関係していることを明らかにする。
これらの歪みは、連続した長期反復のエラーを急速に増幅させ、予測精度を著しく低下させる。
この問題に対処するため、Spherical Harmonic Neural Operator (SHNO)と呼ばれる普遍的な神経オペレータを導入し、長期的反復予測を改善する。
SHNOは球面の高調波基底を用いて球面データの歪みを緩和し、異なるスケールでスプリアス相関によって生じるスペクトルバイアスを補正するためにゲート残留スペクトルアテンション(GRSA)を用いる。
提案手法の有効性と有効性は, 球状浅水方程式(SWE)と中距離大域気象予報の適用により検証された。
本研究は,長期予測の精度を向上させるため,SHNOの利点と可能性を強調した。
Long-term stability stands as a crucial requirement in data-driven medium-range global weather forecasting. Spectral bias is recognized as the primary contributor to instabilities, as data-driven methods difficult to learn small-scale dynamics. In this paper, we reveal that the universal mechanism for these instabilities is not only related to spectral bias but also to distortions brought by processing spherical data using conventional convolution. These distortions lead to a rapid amplification of errors over successive long-term iterations, resulting in a significant decline in forecast accuracy. To address this issue, a universal neural operator called the Spherical Harmonic Neural Operator (SHNO) is introduced to improve long-term iterative forecasts. SHNO uses the spherical harmonic basis to mitigate distortions for spherical data and uses gated residual spectral attention (GRSA) to correct spectral bias caused by spurious correlations across different scales. The effectiveness and merit of the proposed method have been validated through its application for spherical Shallow Water Equations (SWEs) and medium-range global weather forecasting. Our findings highlight the benefits and potential of SHNO to improve the accuracy of long-term prediction. | 翻訳日:2024-07-03 20:11:58 公開日:2024-06-26 |
# JailbreakZoo:大規模言語と視覚言語モデルのジェイルブレイクにおける調査、景観、ホライズン
JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models ( http://arxiv.org/abs/2407.01599v1 ) ライセンス: Link先を確認 | Haibo Jin, Leyang Hu, Xinuo Li, Peiyan Zhang, Chonghan Chen, Jun Zhuang, Haohan Wang, | (参考訳) 大規模言語モデル(LLMs)と視覚言語モデル(VLMs)の発展による人工知能(AI)の急速な進化は、様々な技術領域で大きな進歩をもたらした。
これらのモデルが自然言語処理や視覚的対話タスクの能力を高める一方で、それらの採用の増加は、セキュリティと倫理的整合性に関する重要な懸念を提起する。
本調査は, LLM と VLM の倫理的・運用的境界を未然に回避し, そして, 防衛機構の発達の進展を概観するものである。
今回の研究は、ジェイルブレイクを7つの異なるタイプに分類し、これらの脆弱性に対処する防衛戦略を精査する。
この総合的な調査を通じて,研究のギャップを特定し,LLMとVLMのセキュリティフレームワークを強化するための今後の研究の方向性を提案する。
我々の発見は、次世代の言語モデルのための堅牢でセキュアで信頼性の高い環境を育むために、ジェイルブレイク戦略と防御ソリューションの両方を統合する統一的な視点の必要性を浮き彫りにしている。
詳細は、私たちのWebサイト(リンク)で確認できます。
The rapid evolution of artificial intelligence (AI) through developments in Large Language Models (LLMs) and Vision-Language Models (VLMs) has brought significant advancements across various technological domains. While these models enhance capabilities in natural language processing and visual interactive tasks, their growing adoption raises critical concerns regarding security and ethical alignment. This survey provides an extensive review of the emerging field of jailbreaking--deliberately circumventing the ethical and operational boundaries of LLMs and VLMs--and the consequent development of defense mechanisms. Our study categorizes jailbreaks into seven distinct types and elaborates on defense strategies that address these vulnerabilities. Through this comprehensive examination, we identify research gaps and propose directions for future studies to enhance the security frameworks of LLMs and VLMs. Our findings underscore the necessity for a unified perspective that integrates both jailbreak strategies and defensive solutions to foster a robust, secure, and reliable environment for the next generation of language models. More details can be found on our website: \url{https://chonghan-chen.com/llm-jailbreak-zoo-survey/}. | 翻訳日:2024-07-03 20:11:58 公開日:2024-06-26 |
# 変圧器の異常注意分布の解明と制御
Unveiling and Controlling Anomalous Attention Distribution in Transformers ( http://arxiv.org/abs/2407.01601v1 ) ライセンス: Link先を確認 | Ruiqing Yan, Xingbo Du, Haoyu Deng, Linghan Zheng, Qiuzhuang Sun, Jifang Hu, Yuhang Shao, Penghao Jiang, Jinrong Jiang, Lian Zhao, | (参考訳) トランスフォーマーアーキテクチャに基づく大規模モデルの出現により、研究者はアテンション機構における異常現象を観測した。
キーバリュー(KV)キャッシュ圧縮や無限外挿など,注目度分布に着目した手法の開発には,それを理解することが不可欠である。
本稿では, ウェイバー現象の観点から, ソフトマックス関数の特定の要素の内部値の低減を伴う現象を解析し, 情報への寄与を伴わずに過剰な注意を吸収できるようにする。
特定のモデルでは、位置エンコーディングと注意パターンの違いにより、モデルによるウェイバー要素の選択は、位置エンコーディングベースと特徴分布ウィイン要素ベースという2つの方法に分類できることがわかった。
With the advent of large models based on the Transformer architecture, researchers have observed an anomalous phenomenon in the Attention mechanism--there is a very high attention on the first element, which is prevalent across Transformer-based models. It is crucial to understand it for the development of techniques focusing on attention distribution, such as Key-Value (KV) Cache compression and infinite extrapolation; however, the latent cause leaves to be unknown. In this paper, we analyze such a phenomenon from the perspective of waiver phenomenon, which involves reducing the internal values of certain elements in the Softmax function, allowing them to absorb excess attention without affecting their contribution to information. In specific models, due to differences in positional encoding and attention patterns, we have found that the selection of waiver elements by the model can be categorized into two methods: positional-encoding-based and feature-distribution-within-elements-based. | 翻訳日:2024-07-03 20:11:58 公開日:2024-06-26 |
# 純アテンションハードマックス変圧器のクラスタリングと感情分析におけるその役割
Clustering in pure-attention hardmax transformers and its role in sentiment analysis ( http://arxiv.org/abs/2407.01602v1 ) ライセンス: Link先を確認 | Albert Alcalde, Giovanni Fantuzzi, Enrique Zuazua, | (参考訳) 変換器は非常に成功した機械学習モデルであり、数学的性質はよく分かっていない。
ここでは, ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
そのような変圧器をユークリッド空間における点の進化を記述する離散時間力学系として捉え、超平面分離に基づく自己認識機構の幾何学的解釈により、変換器入力が漸近的にリーダーと呼ばれる特別な点によって決定されるクラスター平衡に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて言語処理から感情分析の問題を解く。
最後に,変圧器の数学的解析と実際の実装とのギャップを埋めるための課題について概説する。
Transformers are extremely successful machine learning models whose mathematical properties remain poorly understood. Here, we rigorously characterize the behavior of transformers with hardmax self-attention and normalization sublayers as the number of layers tends to infinity. By viewing such transformers as discrete-time dynamical systems describing the evolution of points in a Euclidean space, and thanks to a geometric interpretation of the self-attention mechanism based on hyperplane separation, we show that the transformer inputs asymptotically converge to a clustered equilibrium determined by special points called leaders. We then leverage this theoretical understanding to solve sentiment analysis problems from language processing using a fully interpretable transformer model, which effectively captures `context' by clustering meaningless words around leader words carrying the most meaning. Finally, we outline remaining challenges to bridge the gap between the mathematical analysis of transformers and their real-life implementation. | 翻訳日:2024-07-03 20:11:58 公開日:2024-06-26 |
# 化学における大規模言語モデルと自律エージェントの展望
A Review of Large Language Models and Autonomous Agents in Chemistry ( http://arxiv.org/abs/2407.01603v1 ) ライセンス: Link先を確認 | Mayk Caldas Ramos, Christopher J. Collison, Andrew D. White, | (参考訳) 大規模言語モデル(LLM)は、複数のドメインにわたる化学において強力なツールとして登場している。
化学では、LSMは特性を正確に予測し、新しい分子を設計し、合成経路を最適化し、薬物や物質の発見を加速することができる。
中心となるアイデアは、LSMと合成プランナーやデータベースのような化学固有のツールを組み合わせることであり、いわゆる「エージェント」に繋がる。
このレビューでは、LSMの最近の歴史、現在の能力、設計、化学に特有の課題、今後の方向性について取り上げる。
エージェントには特に注意が向けられ、化学横断パラダイムとして出現する。
エージェントは様々な化学領域で有効であることが証明されているが、課題は残る。
ドメイン固有のエージェントとジェネラリストエージェントを作成し、自律パイプラインと"コパイロット"システムを開発することが化学を加速するかどうかは不明である。
新たな方向性として、Human-in-the-loopアプローチを用いたマルチエージェントシステムの開発がある。
この分野の驚くほど高速な開発のため、最新の研究を追跡するためにリポジトリが構築されている。
Large language models (LLMs) are emerging as a powerful tool in chemistry across multiple domains. In chemistry, LLMs are able to accurately predict properties, design new molecules, optimize synthesis pathways, and accelerate drug and material discovery. A core emerging idea is combining LLMs with chemistry-specific tools like synthesis planners and databases, leading to so-called "agents." This review covers LLMs' recent history, current capabilities, design, challenges specific to chemistry, and future directions. Particular attention is given to agents and their emergence as a cross-chemistry paradigm. Agents have proven effective in diverse domains of chemistry, but challenges remain. It is unclear if creating domain-specific versus generalist agents and developing autonomous pipelines versus "co-pilot" systems will accelerate chemistry. An emerging direction is the development of multi-agent systems using a human-in-the-loop approach. Due to the incredibly fast development of this field, a repository has been built to keep track of the latest studies: https://github.com/ur-whitelab/LLMs-in-science. | 翻訳日:2024-07-03 20:11:58 公開日:2024-06-26 |
# 原子時計の夜明け:$^{229m}$Thアイソマー遷移と$^{87}$Sr原子時計の周波数比
Dawn of a nuclear clock: frequency ratio of the $^{229m}$Th isomeric transition and the $^{87}$Sr atomic clock ( http://arxiv.org/abs/2406.18719v1 ) ライセンス: Link先を確認 | Chuankun Zhang, Tian Ooi, Jacob S. Higgins, Jack F. Doyle, Lars von der Wense, Kjeld Beeks, Adrian Leitner, Georgy Kazakov, Peng Li, Peter G. Thirolf, Thorsten Schumm, Jun Ye, | (参考訳) 光原子時計$^{1,2}$ 時間を正確に追跡するために電子エネルギーレベルを使用する。
核エネルギーレベルに基づく時計は、精密気象学と基礎物理学研究のための次世代プラットフォームを約束する。
トリウム229核は、最先端真空紫外(VUV)レーザー光源の届く範囲内で、一意に低エネルギーの核遷移を示すため、最初の原子時計(英語版)の建設が提案されている。
しかし、$^{229m}$Th異性体の量子状態分解分光により核構造が決定され、既存の原子時計との直接周波数接続が確立されていない。
ここでは、VUV周波数コムを用いて、固体CaF$_2$ホスト材料中の狭い$^{229}$Th核時計遷移を直接励起し、絶対遷移周波数を決定する。
我々は、基本周波数コムをJILA $^{87}$Srクロック$^2$に安定化し、フェムト秒拡張キャビティを用いて、VUVの7番目の高調波にコヒーレントに変換する。
このVUVコムは、核エネルギーレベルと電子エネルギーレベルの周波数リンクを確立し、$^{229}$Th核時計遷移と$^{87}$Sr原子時計の周波数比を直接測定することができる。
また、核四極子分裂を正確に測定し、異性体の固有の性質を抽出する。
これらの結果は核ベースの固体光時計の始まりであり、基礎物理学研究のための原子時計と原子時計の初めての比較を実証している。
この研究は、精密気象学、超高速強磁場物理学、核物理学、基礎物理学の融合を表している。
Optical atomic clocks$^{1,2}$ use electronic energy levels to precisely keep track of time. A clock based on nuclear energy levels promises a next-generation platform for precision metrology and fundamental physics studies. Thorium-229 nuclei exhibit a uniquely low energy nuclear transition within reach of state-of-the-art vacuum ultraviolet (VUV) laser light sources and have therefore been proposed for construction of the first nuclear clock$^{3,4}$. However, quantum state-resolved spectroscopy of the $^{229m}$Th isomer to determine the underlying nuclear structure and establish a direct frequency connection with existing atomic clocks has yet to be performed. Here, we use a VUV frequency comb to directly excite the narrow $^{229}$Th nuclear clock transition in a solid-state CaF$_2$ host material and determine the absolute transition frequency. We stabilize the fundamental frequency comb to the JILA $^{87}$Sr clock$^2$ and coherently upconvert the fundamental to its 7th harmonic in the VUV range using a femtosecond enhancement cavity. This VUV comb establishes a frequency link between nuclear and electronic energy levels and allows us to directly measure the frequency ratio of the $^{229}$Th nuclear clock transition and the $^{87}$Sr atomic clock. We also precisely measure the nuclear quadrupole splittings and extract intrinsic properties of the isomer. These results mark the start of nuclear-based solid-state optical clock and demonstrate the first comparison of nuclear and atomic clocks for fundamental physics studies. This work represents a confluence of precision metrology, ultrafast strong field physics, nuclear physics, and fundamental physics. | 翻訳日:2024-07-01 19:01:16 公開日:2024-06-26 |
# グルー・ピザ・アンド・ダイエット・ロック」-検索型生成モデルにおける脆弱性の爆発
"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models ( http://arxiv.org/abs/2406.19417v1 ) ライセンス: Link先を確認 | Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Song Wang, Jundong Li, Tianlong Chen, Huan Liu, | (参考訳) Retrieval-Augmented Generative (RAG)モデルは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化し、ファクトチェックや情報検索といったアプリケーションのパフォーマンスを向上させる。
本稿では,これらの知識基盤のオープン性を利用して,意図的なモデル動作を意図的に変更し,偽装コンテンツを検索データベースに注入することで,敵がこれらの知識基盤のオープン性を利用することのできるセキュリティ上の脅威を示す。
この脅威は、RAGシステムがWebスクレイピングやユーザコントリビュートデータプールなど、公開アクセス可能な知識ベースと対話する現実世界のユースケースを反映しているため、極めて重要である。
より現実的なためには、ユーザのクエリや知識ベースデータ、LLMパラメータに関する知識を持たない現実的な設定をターゲットとします。
我々は,レトリバーにアクセス可能なコンテンツアップロードを通じて,モデルをうまく活用できることを実証した。
本研究は,RAGシステムの設計・展開におけるセキュリティ対策の緊急の必要性を強調した。
Retrieval-Augmented Generative (RAG) models enhance Large Language Models (LLMs) by integrating external knowledge bases, improving their performance in applications like fact-checking and information searching. In this paper, we demonstrate a security threat where adversaries can exploit the openness of these knowledge bases by injecting deceptive content into the retrieval database, intentionally changing the model's behavior. This threat is critical as it mirrors real-world usage scenarios where RAG systems interact with publicly accessible knowledge bases, such as web scrapings and user-contributed data pools. To be more realistic, we target a realistic setting where the adversary has no knowledge of users' queries, knowledge base data, and the LLM parameters. We demonstrate that it is possible to exploit the model successfully through crafted content uploads with access to the retriever. Our findings emphasize an urgent need for security measures in the design and deployment of RAG systems to prevent potential manipulation and ensure the integrity of machine-generated content. | 翻訳日:2024-07-01 19:01:16 公開日:2024-06-26 |
# 分散学習のための量子化に基づくプライバシ保護手法
A Quantization-based Technique for Privacy Preserving Distributed Learning ( http://arxiv.org/abs/2406.19418v1 ) ライセンス: Link先を確認 | Maurizio Colombo, Rasool Asal, Ernesto Damiani, Lamees Mahmoud AlQassem, Al Anoud Almemari, Yousof Alhammadi, | (参考訳) 機械学習(ML)モデルの大規模展開は、データ保護に関する深刻な懸念を提起する。
プライバシ向上技術(PET)は、有望な第一歩だが、分散学習における機密性と差分プライバシーを達成する上で、難しい課題が続いている。
本稿では,MLモデルの分散トレーニングにおいて,基礎となるMLアーキテクチャによらず,MLライフサイクルを通じて適用可能な,新しい規則に準拠したデータ保護手法について述べる。
データオーナの観点から設計した本手法では,ランダム化と組み合わせた量子化されたマルチハッシュデータ表現Hash-Combに基づくプロトコルを用いることで,トレーニングデータとMLモデルパラメータの両方を保護している。
提案方式のハイパーパラメータは,標準的なセキュアなマルチパーティ計算プロトコルを用いて共有できる。
実験により, 本手法のロバスト性および精度保存性を実証した。
The massive deployment of Machine Learning (ML) models raises serious concerns about data protection. Privacy-enhancing technologies (PETs) offer a promising first step, but hard challenges persist in achieving confidentiality and differential privacy in distributed learning. In this paper, we describe a novel, regulation-compliant data protection technique for the distributed training of ML models, applicable throughout the ML life cycle regardless of the underlying ML architecture. Designed from the data owner's perspective, our method protects both training data and ML model parameters by employing a protocol based on a quantized multi-hash data representation Hash-Comb combined with randomization. The hyper-parameters of our scheme can be shared using standard Secure Multi-Party computation protocols. Our experimental results demonstrate the robustness and accuracy-preserving properties of our approach. | 翻訳日:2024-07-01 19:01:16 公開日:2024-06-26 |
# 価格-ウォートン制約型衝突体:共因か無因か?
Price-Wharton Constrained Colliders: Co-Causation or No Causation? ( http://arxiv.org/abs/2406.19419v1 ) ライセンス: Link先を確認 | W. M. Stuckey, Michael Silberstein, | (参考訳) プライスとウォートンは最近、「拘束された後背側コライダーバイアスが絡み合いの起源である」と示唆している。
本稿では、ベル状態を持つV字型円柱(CCC)間の接続が「絡み合いのメカニズム」ではなく、arXiv:2406.04571のタイトルに対する負の答えであると主張している。
むしろ、CCCは絡み合いの因果モデリングに対する新しいアプローチと見なされるべきであり、局所性や統計的独立性に反しない実験の2つの翼間の分光的共因関係を提供する。
鍵となるのは、量子力学が完備であることを受け入れることであるので、ベル状態は「絡み合いのメカニズム」を提供し、CCCは実験の異なる主観的時空モデルに従って、因果パースペクティビズム毎の絡み合いの因果モデルを提供する。
実験の客観的時空モデルに組み合わさると、主観的共因は量子再構成プログラムに従って絡み合いの客観的な視点を残して消える。
本質的には、量子再構成プログラムは、相対性理論(NPRF)によって正当化されたプランク定数hの観測独立性に基づく原理理論を量子力学としており、正確には特殊相対性理論は、相対性理論によって正当化された光の速度の観測独立性に基づく原理理論である。
したがって、NPRF + c は実験中の機器のワールドチューブの構成に関する空力的大域的制約であり、NPRF + h はその文脈における量子検出事象の分布に関する空力的大域的制約である。
したがって、CCCは、実験の客観的な因果時空モデルにおいて、因果パースペクティビズムごとに主観的に因果関係を理解する新しい方法を提供する。
Price and Wharton have recently suggested that "constrained retrocausal collider bias is the origin of entanglement." In this paper, we argue that their connection across a constrained collider (CCC) for the V-shaped case with the Bell states is not "a mechanism for entanglement," providing a negative answer to the title of arXiv:2406.04571. Rather, CCC should be viewed as a novel approach to the causal modeling of entanglement, providing a perspectival co-causal relationship between the two wings of the experiment that does not violate locality or statistical independence. The key is to accept that quantum mechanics is complete, so the Bell states provide the "mechanism for entanglement" and CCC provides a causal model of entanglement per causal perspectivalism in accord with the different subjective spacetime models of the experiment. When combined into an objective spacetime model of the experiment, the subjective co-causation disappears leaving an objective acausal view of entanglement in accord with the quantum reconstruction program. Essentially, the quantum reconstruction program has rendered quantum mechanics a principle theory based on the observer-independence of Planck's constant h as justified by the relativity principle ("no preferred reference frame" NPRF), exactly as special relativity is a principle theory based on the observer-independence of the speed of light c as justified by the relativity principle. Thus, NPRF + c is an adynamical global constraint on the configuration of worldtubes for the equipment in the experiment while NPRF + h is an adynamical global constraint on the distribution of quantum detection events in that context. Accordingly, CCC then provides a new way to understand causation subjectively per causal perspectivalism in this objectively acausal spacetime model of the experiment. | 翻訳日:2024-07-01 19:01:16 公開日:2024-06-26 |
# 格子上のケプラー問題
The Kepler problem on the lattice ( http://arxiv.org/abs/2406.19423v1 ) ライセンス: Link先を確認 | Diego Sanjinés, Evaristo Mamani, Javier Velasco, | (参考訳) クーロンポテンシャルの存在下での3次元格子内の粒子の運動について検討するが、この軌道は常に長方形格子として捉えることができる平面に留まることを半古典的に示す。
この問題のハミルトンモデルは、それぞれXY軸の格子定数 a, b とホッピング要素 A, B を持つ保守的強結合である。
半古典形式と量子形式を使い、後者はシュレーディンガー方程式を統合するために擬スペクトルアルゴリズムを適用する。
格子状離散部分空間は等方性ではないため、角運動量は保存されず、これは非中央重力力による天文学的な偏心軌道、特に非相対論的水星の近日点の偏心軌道と同様に、カオス軌道や偏心軌道のような興味深い結果をもたらす。
質量テンソルの要素は長方形格子において自然に異なるが、これらは連続体においてまだ異なるものを選ぶことができ、通常のニュートン運動エネルギーで運動を研究することができる。
格子内を移動する初期ガウス波束の輪郭プロットも計算し、量子的および半古典的角運動量モーメントを単純に関連付けるような非対称な変形に付随する「内接角運動量」を提案する。
We study the motion of a particle in a 3-dimensional lattice in the presence of a Coulomb potential, but we demonstrate semiclassicaly that the trajectories will always remain in a plane which can be taken as a rectangular lattice. The Hamiltonian model for this problem is the conservative tight-binding one with lattice constants a, b and hopping elements A, B in the XY axes, respectively. We use the semiclassical and quantum formalisms; for the latter we apply the pseudo-spectral algorithm to integrate the Schroedinger equation. Since the lattice discrete subspace is not isotropic, the angular momentum is not conserved, which has interesting consequences as chaotic trajectories and precession trajectories, similar to the astronomical precession trajectories due to non-central gravitational forces, notably, the non-relativistic Mercury's perihelion precession. Although the elements of the mass tensor are naturally different in a rectangular lattice, these can be chosen to be still different in the continuum, which permits to study the motion with the usual Newtonian kinetic energies. We calculate also the contour plots of an initial Gaussian wavepacket as it moves in the lattice and we propose an "intrinsec angular momentum" associated to its asymmetrical deformation, such that the quantum and semiclassical angular momenta could be simply related. | 翻訳日:2024-07-01 18:51:19 公開日:2024-06-26 |
# マルチプレイヤーゲームにおけるナッシュ平衡計算のための架空のプレイの実証分析
Empirical Analysis of Fictitious Play for Nash Equilibrium Computation in Multiplayer Games ( http://arxiv.org/abs/2001.11165v9 ) ライセンス: Link先を確認 | Sam Ganzfried, | (参考訳) 架空のプレイは、2つのプレイヤーゼロサムゲームのような特定のゲームクラスにおいてナッシュ均衡に収束することが保証されるが、ゼロサムゲームやマルチプレイヤーゲームでは収束することが保証されない。
近年,多人数ポーカー用のスーパーヒューマンプレイを制作した(現実的)後悔最小化よりも,現実的なプレイは,様々なゲームクラスやサイズに対してナッシュ均衡近似を改善することが示されている。
また、ランダムな初期化を用いて架空のプレイが数回実行された場合、シェープリーの古典的な反例を含む標準バージョンが収束しないことが知られているいくつかの既知の課題を解くことができることを示した。
これらは、最悪の理論的結果が否定的であるにもかかわらず、これらの設定における架空のプレーに対する最初の肯定的な結果のいくつかを提供する。
While fictitious play is guaranteed to converge to Nash equilibrium in certain game classes, such as two-player zero-sum games, it is not guaranteed to converge in non-zero-sum and multiplayer games. We show that fictitious play in fact leads to improved Nash equilibrium approximation over a variety of game classes and sizes than (counterfactual) regret minimization, which has recently produced superhuman play for multiplayer poker. We also show that when fictitious play is run several times using random initializations it is able to solve several known challenge problems in which the standard version is known to not converge, including Shapley's classic counterexample. These provide some of the first positive results for fictitious play in these settings, despite the fact that worst-case theoretical results are negative. | 翻訳日:2024-07-01 12:18:29 公開日:2024-06-26 |
# キーチホフ氏、ジョンソン氏と会談-無条件でセキュアなコミュニケーションを求めて
Kirchhoff Meets Johnson: In Pursuit of Unconditionally Secure Communication ( http://arxiv.org/abs/2312.02042v3 ) ライセンス: Link先を確認 | Ertugrul Basar, | (参考訳) ノイズ:対処すべき敵であり、通信システムの性能を制限する主要な要因である。
しかし、そのゴミの中に金が入っていたらどうしますか。
従来の工学では、ノイズとその有害な影響を排除、抑制、戦闘、無視することに集中しています。
逆に、ノイズのようなキャリア信号を使って情報を伝達する生物学に類似して活用できるだろうか?
この文脈では、将来、無条件でセキュアな通信システムを実現する手段として、ノイズやノイズのような信号の利用が推奨されている。
本稿では、熱雑音に基づく通信の起源を追究し、キー交換方式KLJN(Kirchhoff-law-Johnson-noise)という、無条件でセキュアなネットワークを実現するための重要な応用の1つを取り上げる。
次に、セキュアな通信に関連する固有の課題を掘り下げ、無条件のセキュリティを追求する物理ベースの鍵分配スキームの必要性について論じる。
同時に、量子鍵分布(QKD)スキームの簡潔な概要を提供し、KLJNベースのスキームと比較する。
最後に,有線通信ループを超越して,ノイズ信号の無線伝送を検討,ステルスやセキュアな無線通信システムの可能性を評価する。
Noise: an enemy to be dealt with and a major factor limiting communication system performance. However, what if there is gold in that garbage? In conventional engineering, our focus is primarily on eliminating, suppressing, combating, or even ignoring noise and its detrimental impacts. Conversely, could we exploit it similarly to biology, which utilizes noise-alike carrier signals to convey information? In this context, the utilization of noise, or noise-alike signals in general, has been put forward as a means to realize unconditionally secure communication systems in the future. In this tutorial article, we begin by tracing the origins of thermal noise-based communication and highlighting one of its significant applications for ensuring unconditionally secure networks: the Kirchhoff-law-Johnson-noise (KLJN) secure key exchange scheme. We then delve into the inherent challenges tied to secure communication and discuss the imperative need for physics-based key distribution schemes in pursuit of unconditional security. Concurrently, we provide a concise overview of quantum key distribution (QKD) schemes and draw comparisons with their KLJN-based counterparts. Finally, extending beyond wired communication loops, we explore the transmission of noise signals over-the-air and evaluate their potential for stealth and secure wireless communication systems. | 翻訳日:2024-06-29 00:27:55 公開日:2024-06-26 |
# アンタングル表現学習
Disentangled Representation Learning ( http://arxiv.org/abs/2211.11695v4 ) ライセンス: Link先を確認 | Xin Wang, Hong Chen, Si'ao Tang, Zihao Wu, Wenwu Zhu, | (参考訳) Disentangled Representation Learning (DRL) は、観測可能なデータに隠された基礎的要因を表現形式で識別し、切り離すことができるモデルを学習することを目的としている。
変化の根底にある要因を変数に分割するプロセスは、対象や関係を観察する際の人間の意味的な理解過程を模倣する、説明可能なデータ表現の学習において利益をもたらす。
一般的な学習戦略として、DRLは、コンピュータビジョン、自然言語処理、データマイニングといった幅広いシナリオにおいて、モデル説明可能性、制御可能性、堅牢性、および一般化能力を改善する能力を示した。
本稿では,モチベーション,定義,方法論,評価,応用,モデル設計など,さまざまな側面からDRLを包括的に検討する。
まず,不整合表現学習のための直観的定義とグループ理論定義という,よく認識された2つの定義を提示する。
さらに,DRLの方法論を,モデルタイプ,表現構造,監視信号,独立性仮定の4つのグループに分類する。
また、実用アプリケーションで異なるタスクに利益をもたらす可能性のある、異なるDRLモデルを設計するための原則も分析する。
最後に,DRLの課題と今後の研究の方向性を指摘する。
我々は、この研究がコミュニティにおけるDRL研究を促進するための洞察を与えるかもしれないと考えている。
Disentangled Representation Learning (DRL) aims to learn a model capable of identifying and disentangling the underlying factors hidden in the observable data in representation form. The process of separating underlying factors of variation into variables with semantic meaning benefits in learning explainable representations of data, which imitates the meaningful understanding process of humans when observing an object or relation. As a general learning strategy, DRL has demonstrated its power in improving the model explainability, controlability, robustness, as well as generalization capacity in a wide range of scenarios such as computer vision, natural language processing, and data mining. In this article, we comprehensively investigate DRL from various aspects including motivations, definitions, methodologies, evaluations, applications, and model designs. We first present two well-recognized definitions, i.e., Intuitive Definition and Group Theory Definition for disentangled representation learning. We further categorize the methodologies for DRL into four groups from the following perspectives, the model type, representation structure, supervision signal, and independence assumption. We also analyze principles to design different DRL models that may benefit different tasks in practical applications. Finally, we point out challenges in DRL as well as potential research directions deserving future investigations. We believe this work may provide insights for promoting the DRL research in the community. | 翻訳日:2024-06-28 20:41:09 公開日:2024-06-26 |
# トポロジカルマヨナワイヤのプローブとしての局所アンドリーフ伝導体の非局所性
Nonlocality of local Andreev conductances as a probe for topological Majorana wires ( http://arxiv.org/abs/2303.01867v2 ) ライセンス: Link先を確認 | Rodrigo A. Dourado, Poliana H. Penteado, J. Carlos Egues, | (参考訳) 本稿では,マヨラナゼロモード(MZM)をホストできる実効的な3端子超伝導ナノワイヤにおいて,局所伝導率測定のみで位相位相と自明な位相を区別するプロトコルを提案する。
グリーン関数と散乱行列アプローチを用いて、左(Gamma_L$)と右(Gamma_R$)との結合における非対称性の関数として、コンダクタンス行列と状態の局所密度(LDOS)を計算する。
自明な位相では、ゼロバイアス局所伝導は$\Gamma_R$(固定された$\Gamma_L$の場合):$G_{LL}$はほとんど定数であるのに対して、$G_{RR}$は$\Gamma_R$のように指数関数的に崩壊する。
位相相において、$G_{LL}$と$G_{RR}$はともに$G_{LL} \sim G_{RR}$で抑制される。
この G_{LL}$ の $\Gamma_R$ の抑制は MZM のハイブリダイゼーションエネルギー $\varepsilon_m$ でスケールし、ワイヤの左端でゼロエネルギーに近い LDOS におけるディップの出現から生じる。
局所Andreevプロセスの非局所性と、Majoranaベースのトランジスタの提案によるLDOSのゲート制御抑制をさらに活用する。
この結果は、ゼロ電子温度と低電子温度が$T<20$mKである。
T = 30, 40$ mK の場合、$G_{LL}$ と $G_{RR}$ は相関が小さくなる。
高次のT$sにおける位相位相位相の非局所的な指紋として、我々の導電率偏差 $\delta G^{asym}_{LL}= G_{LL}^{\Gamma_R = \Gamma_L} - G_{LL}^{\Gamma_R \ll \Gamma_L}$ の変調を予測する。
We propose a protocol based only on local conductance measurements for distinguishing trivial from topological phases in realistic three-terminal superconducting nanowires coupled to normal leads, capable of hosting Majorana zero modes (MZMs). By using Green functions and the scattering matrix approach, we calculate the conductance matrix and the local density of states (LDOS) as functions of the asymmetry in the couplings to the left ($\Gamma_L$) and right ($\Gamma_R$) leads. In the trivial phase, we find that the zero-bias local conductances are distinctively affected by variations in $\Gamma_R$ (for fixed $\Gamma_L$): while $G_{LL}$ is mostly constant, $G_{RR}$ decays exponentially as $\Gamma_R$ is decreased. In the topological phase, surprisingly, $G_{LL}$ and $G_{RR}$ are both suppressed with $G_{LL} \sim G_{RR}$. This \textit{nonlocal} suppression of $G_{LL}$ with $\Gamma_R$ scales with the MZM hybridization energy $\varepsilon_m$ and arises from the emergence of a dip in the LDOS near zero energy at the left end of the wire, which affects the local Andreev reflection. We further exploit this nonlocality of the local Andreev processes and the gate-controlled suppression of the LDOS by proposing a Majorana-based transistor. Our results hold for zero and low electron temperatures $T<20$ mK. For $T = 30, 40$ mK, $G_{LL}$ and $G_{RR}$ become less correlated. As an additional nonlocal fingerprint of the topological phase at higher $T$'s, we predict modulations in our \textit{asymmetric} conductance deviation $\delta G^{asym}_{LL}= G_{LL}^{\Gamma_R = \Gamma_L} - G_{LL}^{\Gamma_R \ll \Gamma_L}$ that remains commensurate with the Majorana oscillations in $\varepsilon_m$ over the range $30<T< 150~\rm{mK}$. | 翻訳日:2024-06-28 20:35:54 公開日:2024-06-26 |
# オーナーシップとコントリビューションアライメントとコード技術的負債の関係を探る
Exploring the Relationship Between Ownership and Contribution Alignment and Code Technical Debt ( http://arxiv.org/abs/2304.02140v2 ) ライセンス: Link先を確認 | Ehsan Zabardast, Javier Gonzalez-Huerta, Francis Palma, Panagiota Chatzipetrou, | (参考訳) ソフトウェア開発組織は、システムの複雑さが増大する中で、効率的で効率的な状態を維持することを目指している。
これに対処するため、独立した開発、テスト、デプロイが可能な、独立したコンポーネントに焦点を当てた小さなチームを形成することが多い。
アーキテクチャを組織構造にアライメントすることは、効果的なコミュニケーションとコラボレーション、コードの削減、アーキテクチャの劣化に不可欠です。
主に作業するチームに特定のコンポーネントの責任を割り当てることが、これらの目標の鍵となります。
この記事では、コードの1行あたりの技術的負債として測定された、オーナシップとコントリビューションの整合性とコード品質の劣化の関係について説明する。
また、チーム構造の変化がコード品質の劣化を管理する能力にどのように影響するかについても検討している。
1つのチームが管理する10のコンポーネントを分析し、大規模なソフトウェアシステムを開発する企業でケーススタディを実施しました。
このチームは後に2つのコンポーネントに分割され、新しいチーム間で再配布された。
日常業務で使用される開発ツールのアーカイブデータを収集した。
分割前は、4つのコンポーネントのコントリビューションアライメントアライメントと技術的負債密度の間に統計的に有意な負の相関があり、コントリビューションアライメントアライメントがより高いことで技術的負債密度が低下し、コード品質が向上したことを示している。
分割後, この負の相関は3つの成分に持続し, 5つの成分は正の相関を示し, 低コントリビューションアライメントがコード品質の劣化を悪化させる可能性が示唆された。
ソフトウェア開発組織におけるコード品質劣化の制御には,コントリビューションアライメントが重要であることが示唆された。
チーム間の依存関係を最小限にすることで、コード品質の低下を軽減できます。
Software development organisations aim to stay effective and efficient amid growing system complexity. To address this, they often form small teams focused on separate components that can be independently developed, tested, and deployed. Aligning architecture with organisational structures is crucial for effective communication and collaboration, reducing code and architectural degradation. Assigning specific component responsibility to the teams primarily working on them is key to these goals. This article explores the relationship between ownership and contribution alignment and code quality degradation, measured as technical debt per line of code. It also examines how team structure changes impact their ability to manage code quality degradation. We conducted a case study in a company developing a large software system, analysing ten components managed by one team. This team was later split into two, redistributing components between the new teams. Archival data from development tools used in their daily operations was collected. Before the split, there was a statistically significant negative correlation between contribution alignment and technical debt density in four components, indicating that higher contribution alignment leads to lower technical debt density and better code quality. After the split, this negative correlation persisted in three components, while five components showed a positive correlation, suggesting that low contribution alignment might worsen code quality degradation. Our findings suggest that contribution alignment is important in controlling code quality degradation in software development organisations. Ensuring teams are responsible for components they are most familiar with and minimising dependencies between teams can help mitigate code quality degradation. | 翻訳日:2024-06-28 20:35:54 公開日:2024-06-26 |
# クラウドをスムースにするか、ピンダウンするか: 拡散モデルにおけるスコアマッチングの保証と考察
To smooth a cloud or to pin it down: Guarantees and Insights on Score Matching in Denoising Diffusion Models ( http://arxiv.org/abs/2305.09605v3 ) ライセンス: Link先を確認 | Francisco Vargas, Teodora Reu, Anna Kerekes, Michael M Bronstein, | (参考訳) 微分拡散モデル(Denoising diffusion model)は、最近多くの領域で最先端の結果を得た生成モデルのクラスである。
拡散過程を用いてデータに経時雑音を付加し、データ分布をガウス変換する。
生成モデルからのサンプルは、ガウスサンプルによって初期化されたこの拡散の時間反転の近似をシミュレートすることによって得られる。
近年,サンプリングおよび推論タスクの適応拡散モデルについて検討している。
本稿では,F\-ollmerドリフトに類似した確率的制御への既知の接続を利用して,F\-ollmerドリフトの確立したニューラルネットワーク近似結果を拡張し,拡散モデルとサンプリング器をデノナイズする。
Denoising diffusion models are a class of generative models which have recently achieved state-of-the-art results across many domains. Gradual noise is added to the data using a diffusion process, which transforms the data distribution into a Gaussian. Samples from the generative model are then obtained by simulating an approximation of the time reversal of this diffusion initialized by Gaussian samples. Recent research has explored adapting diffusion models for sampling and inference tasks. In this paper, we leverage known connections to stochastic control akin to the F\"ollmer drift to extend established neural network approximation results for the F\"ollmer drift to denoising diffusion models and samplers. | 翻訳日:2024-06-28 20:35:54 公開日:2024-06-26 |
# 情報ボトルネック法を用いた教師付きコントラスト学習における神経崩壊の理解に向けて
Towards understanding neural collapse in supervised contrastive learning with the information bottleneck method ( http://arxiv.org/abs/2305.11957v2 ) ライセンス: Link先を確認 | Siwei Wang, Stephanie E Palmer, | (参考訳) ニューラル崩壊(Neural collapse)とは、パフォーマンスプレートを超えてトレーニングされたディープニューラルネットワークの最終層におけるアクティベーションの幾何学である。
オープンな疑問は、神経崩壊がより一般化に繋がるかどうか、そしてもしそうなら、なぜ高原を越えてのトレーニングがどのように役立つのかである。
我々は、そのようなコンパクトな表現が存在するかどうかを調べ、その一般化との関係を明らかにするために、情報ボトルネック(IB)問題として神経崩壊をモデル化する。
分類問題の最適IB解に近づくと、神経崩壊は特に良い一般化をもたらすことを実証する。
最近の研究では、同じ対照的な損失目標で独立に訓練された2つのディープニューラルネットワークが線形に識別可能であることが示されており、結果として得られる表現は行列変換に等価である。
We leverage linear identifiability to almost a analysisal solution of the IB problem。
この近似は、クラス平均が$K$-simplex Equiangular Tight Frame (ETF) の振る舞いを示す場合(例えば、CIFAR10は$K$=10、CIFAR100は$K$=100)、対応するIB問題の臨界位相遷移と一致することを示す。
IB問題に対する最適解がこれらすべての相転移を含むと、性能プラトーが生じる。
また、結果として得られる$K$-simplex ETFは、ResNet50バックボーンによる教師付きコントラスト学習を用いて、$K$-dimensional Gaussian分布にまとめることができることを示す。
この幾何は、教師付きコントラスト学習によって学習された$K$-simplex ETFが、ソース符号化の最適な特徴を近似することを示唆している。
したがって、最適ISB解とコントラスト学習における一般化の間には直接対応がある。
Neural collapse describes the geometry of activation in the final layer of a deep neural network when it is trained beyond performance plateaus. Open questions include whether neural collapse leads to better generalization and, if so, why and how training beyond the plateau helps. We model neural collapse as an information bottleneck (IB) problem in order to investigate whether such a compact representation exists and discover its connection to generalization. We demonstrate that neural collapse leads to good generalization specifically when it approaches an optimal IB solution of the classification problem. Recent research has shown that two deep neural networks independently trained with the same contrastive loss objective are linearly identifiable, meaning that the resulting representations are equivalent up to a matrix transformation. We leverage linear identifiability to approximate an analytical solution of the IB problem. This approximation demonstrates that when class means exhibit $K$-simplex Equiangular Tight Frame (ETF) behavior (e.g., $K$=10 for CIFAR10 and $K$=100 for CIFAR100), they coincide with the critical phase transitions of the corresponding IB problem. The performance plateau occurs once the optimal solution for the IB problem includes all of these phase transitions. We also show that the resulting $K$-simplex ETF can be packed into a $K$-dimensional Gaussian distribution using supervised contrastive learning with a ResNet50 backbone. This geometry suggests that the $K$-simplex ETF learned by supervised contrastive learning approximates the optimal features for source coding. Hence, there is a direct correspondence between optimal IB solutions and generalization in contrastive learning. | 翻訳日:2024-06-28 20:35:54 公開日:2024-06-26 |
# 深いカオスレジームにおける量子平均値の計算
Computing Quantum Mean Values in the Deep Chaotic Regime ( http://arxiv.org/abs/2308.04655v2 ) ライセンス: Link先を確認 | Gabriel M. Lando, Olivier Giraud, Denis Ullmo, | (参考訳) 量子作用素の平均値の時間的進化は、2つの困難に悩まされている:$\hbar$の小さいことと、強でユビキタスな古典的カオスの存在。
数値は純粋に量子計算には高すぎるが、$\hbar \to 0$のように、半古典的手法である$\hbar$という小ささを利用する手法は、深いカオス体制における概念的および実践的困難に悩まされている。
我々は,これらの概念的問題に対処するアプローチを実装し,演算子の平均値に対する干渉寄与の起源を深く理解する。
本手法では,従来の半古典的手法(Herman-Klukプロパゲータ)は数値ノイズのみを発生させる。
我々の研究は、カオス的な古典的極限を持つシステムの量子シミュレーションのための、より効率的で正確な手法の開発と採用の道を開いた。
We study the time evolution of mean values of quantum operators in a regime plagued by two difficulties: The smallness of $\hbar$ and the presence of strong and ubiquitous classical chaos. While numerics become too computationally expensive for purely quantum calculations as $\hbar \to 0$, methods that take advantage of the smallness of $\hbar$ -- that is, semiclassical methods -- suffer from both conceptual and practical difficulties in the deep chaotic regime. We implement an approach which addresses these conceptual problems, leading to a deeper understanding of the origin of the interference contributions to the operator's mean value. We show that in the deep chaotic regime our approach is capable of unprecedented accuracy, while a standard semiclassical method (the Herman-Kluk propagator) produces only numerical noise. Our work paves the way to the development and employment of more efficient and accurate methods for quantum simulations of systems with strongly chaotic classical limits. | 翻訳日:2024-06-28 20:26:08 公開日:2024-06-26 |
# 機械学習対応ソフトウェアとシステムアーキテクチャフレームワーク
Machine Learning-Enabled Software and System Architecture Frameworks ( http://arxiv.org/abs/2308.05239v2 ) ライセンス: Link先を確認 | Armin Moin, Atta Badii, Stephan Günnemann, Moharram Challenger, | (参考訳) ソフトウェア、システム、企業のための様々なアーキテクチャフレームワークが文献で提案されている。
彼らはいくつかの利害関係者を特定し、モデリングの観点、アーキテクチャの観点、利害関係者の懸念に対処するための視点を定義した。
しかし、データサイエンスと機械学習(ML)に関連する関心事、例えばデータサイエンティストやデータエンジニアの利害関係者は、まだ既存のアーキテクチャフレームワークには含まれていない。
この方法でのみ、ML対応システムの全体的システムアーキテクチャ記述を想像できる。
MLコンポーネントの振る舞いと機能性は特別なものであり、従来のソフトウェアシステムの振る舞いと機能とは区別されるべきである。
主な理由は、実際の機能は設計時に指定されるのではなく、データから推測されるべきである。
さらに、MLモデルアーキテクチャのようなMLコンポーネントの構造モデルは通常、ソフトウェア工学(SE)コミュニティがソフトウェア構造モデルに使用しているものと異なる表記法と形式を使って特定されます。
しかし、これら2つの側面、すなわちMLと非MLは、ML対応システムアーキテクチャをサポートするためのソフトウェアアーキテクチャフレームワークとモデリングプラクティスの拡張を必要としている。
本稿では,オンライン調査機器を用いた実証的研究を通じて,このギャップに対処する。
10か国25以上の組織から61名の被験者を対象に調査を行った。
Various architecture frameworks for software, systems, and enterprises have been proposed in the literature. They identified several stakeholders and defined modeling perspectives, architecture viewpoints, and views to frame and address stakeholder concerns. However, the stakeholders with data science and Machine Learning (ML) related concerns, such as data scientists and data engineers, are yet to be included in existing architecture frameworks. Only this way can we envision a holistic system architecture description of an ML-enabled system. Note that the ML component behavior and functionalities are special and should be distinguished from traditional software system behavior and functionalities. The main reason is that the actual functionality should be inferred from data instead of being specified at design time. Additionally, the structural models of ML components, such as ML model architectures, are typically specified using different notations and formalisms from what the Software Engineering (SE) community uses for software structural models. Yet, these two aspects, namely ML and non-ML, are becoming so intertwined that it necessitates an extension of software architecture frameworks and modeling practices toward supporting ML-enabled system architectures. In this paper, we address this gap through an empirical study using an online survey instrument. We surveyed 61 subject matter experts from over 25 organizations in 10 countries. | 翻訳日:2024-06-28 20:26:08 公開日:2024-06-26 |
# AutoProSAM:3Dマルチオーガンセグメンテーションのための自動プロンプティングSAM
AutoProSAM: Automated Prompting SAM for 3D Multi-Organ Segmentation ( http://arxiv.org/abs/2308.14936v3 ) ライセンス: Link先を確認 | Chengyin Li, Prashant Khanduri, Yao Qiang, Rafi Ibn Sultan, Indrin Chetty, Dongxiao Zhu, | (参考訳) Segment Anything Model (SAM) は画像セグメンテーションのための先駆的なプロンプトベース基盤モデルの一つであり、様々な医療画像に急速に採用されている。
しかし、臨床環境では、効果的なプロンプトを作成することは特に困難であり、医師のような専門医の専門知識を必要とする。
この要件は、医療アプリケーションにおけるSAMの主な利点、すなわちエンドユーザーとの対話能力を著しく低下させます。
さらに、最近の研究では、SAMはもともと2次元の自然画像用に設計されており、3次元の医用画像分割作業に準最適であることが示された。
このサブパー性能は、自然画像と医用画像の領域ギャップと、2次元画像と3次元画像の空間的配置の違いに起因する。
これらの課題を克服するために,AutoProSAMと呼ばれる新しい手法を提案する。
本手法は,SAMの基本モデル機能を活用することで,ドメインエキスパートにプロンプトを頼らずに3次元多臓器CTによるセグメンテーションを自動化する。
この手法はパラメータ効率のよい適応手法を用いてSAMを3次元医用画像に適用し、この領域に特有の効果的な自動プロンプト学習パラダイムを取り入れている。
手動のプロンプトを不要にすることで、SAMの3次元医用画像セグメンテーション能力を高め、CTベースの多臓器セグメンテーションタスクにおける最先端(SOTA)パフォーマンスを達成する。
Segment Anything Model (SAM) is one of the pioneering prompt-based foundation models for image segmentation and has been rapidly adopted for various medical imaging applications. However, in clinical settings, creating effective prompts is notably challenging and time-consuming, requiring the expertise of domain specialists such as physicians. This requirement significantly diminishes SAM's primary advantage - its interactive capability with end users - in medical applications. Moreover, recent studies have indicated that SAM, originally designed for 2D natural images, performs sub optimally on 3D medical image segmentation tasks. This subpar performance is attributed to the domain gaps between natural and medical images and the disparities in spatial arrangements between 2D and 3D images, particularly in multi-organ segmentation applications. To overcome these challenges, we present a novel technique termed AutoProSAM. This method automates 3D multi-organ CT-based segmentation by leveraging SAM's foundational model capabilities without relying on domain experts for prompts. The approach utilizes parameter-efficient adaptation techniques to adapt SAM for 3D medical imagery and incorporates an effective automatic prompt learning paradigm specific to this domain. By eliminating the need for manual prompts, it enhances SAM's capabilities for 3D medical image segmentation and achieves state-of-the-art (SOTA) performance in CT-based multi-organ segmentation tasks. | 翻訳日:2024-06-28 20:26:08 公開日:2024-06-26 |
# 大規模言語モデルによる多言語協調のための心の理論
Theory of Mind for Multi-Agent Collaboration via Large Language Models ( http://arxiv.org/abs/2310.10701v3 ) ライセンス: Link先を確認 | Huao Li, Yu Quan Chong, Simon Stepputtis, Joseph Campbell, Dana Hughes, Michael Lewis, Katia Sycara, | (参考訳) 大規模言語モデル(LLM)は推論と計画の両方において素晴らしい成果を上げてきたが、マルチエージェントのコラボレーションにおけるそれらの能力はいまだほとんど解明されていない。
本研究では,MARL(Multi-Agent Reinforcement Learning)とプランニングベースライン(MARL)を併用した多エージェント協調型テキストゲームにおけるLLMエージェントの評価を行った。
LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
この結果から,LLMエージェントの長期的コンテキスト管理における系統的障害とタスク状態に対する幻覚による計画最適化の限界が明らかになった。
本研究では,これらの問題を緩和するために,明示的な信念状態表現を用いることで,LCMに基づくエージェントに対するタスク性能とToM推論の精度を向上させることを明らかにする。
While Large Language Models (LLMs) have demonstrated impressive accomplishments in both reasoning and planning, their abilities in multi-agent collaborations remains largely unexplored. This study evaluates LLM-based agents in a multi-agent cooperative text game with Theory of Mind (ToM) inference tasks, comparing their performance with Multi-Agent Reinforcement Learning (MARL) and planning-based baselines. We observed evidence of emergent collaborative behaviors and high-order Theory of Mind capabilities among LLM-based agents. Our results reveal limitations in LLM-based agents' planning optimization due to systematic failures in managing long-horizon contexts and hallucination about the task state. We explore the use of explicit belief state representations to mitigate these issues, finding that it enhances task performance and the accuracy of ToM inferences for LLM-based agents. | 翻訳日:2024-06-28 20:16:23 公開日:2024-06-26 |
# GRAM:グラディエントアテンションマップを用いたグラフ異常検出のための解釈可能なアプローチ
GRAM: An Interpretable Approach for Graph Anomaly Detection using Gradient Attention Maps ( http://arxiv.org/abs/2311.06153v2 ) ライセンス: Link先を確認 | Yifei Yang, Peng Wang, Xiaofan He, Dongmian Zou, | (参考訳) グラフデータの異常なパターンを検出することは、データマイニングにおいて重要な課題である。
しかし、既存の手法は、一貫して満足な性能を達成し、しばしば解釈可能性の欠如に直面するため、異常判定の決定に対する私たちの理解を妨げている。
本稿では,解析可能性のパワーを活用して性能を向上させるグラフ異常検出手法を提案する。
具体的には,グラフニューラルネットワークの勾配から抽出したアテンションマップを抽出し,異常評価の基礎となる。
特に,本手法は柔軟であり,様々な異常検出設定で使用することができる。
さらに, 合成データを用いて理論的解析を行い, その方法を検証するとともに, 意思決定プロセスに関する洞察を得る。
提案手法の有効性を実証するため,実世界のグラフ分類と無線ネットワークデータセットにおける最先端グラフ異常検出技術に対する我々のアプローチを広範囲に評価した。
その結果,本手法はベースラインに比べて優れた性能を示した。
Detecting unusual patterns in graph data is a crucial task in data mining. However, existing methods face challenges in consistently achieving satisfactory performance and often lack interpretability, which hinders our understanding of anomaly detection decisions. In this paper, we propose a novel approach to graph anomaly detection that leverages the power of interpretability to enhance performance. Specifically, our method extracts an attention map derived from gradients of graph neural networks, which serves as a basis for scoring anomalies. Notably, our approach is flexible and can be used in various anomaly detection settings. In addition, we conduct theoretical analysis using synthetic data to validate our method and gain insights into its decision-making process. To demonstrate the effectiveness of our method, we extensively evaluate our approach against state-of-the-art graph anomaly detection techniques on real-world graph classification and wireless network datasets. The results consistently demonstrate the superior performance of our method compared to the baselines. | 翻訳日:2024-06-28 20:16:23 公開日:2024-06-26 |
# PGODE:高品質システムダイナミクスモデリングを目指して
PGODE: Towards High-quality System Dynamics Modeling ( http://arxiv.org/abs/2311.06554v2 ) ライセンス: Link先を確認 | Xiao Luo, Yiyang Gu, Huiyu Jiang, Hang Zhou, Jinsheng Huang, Wei Ju, Zhiping Xiao, Ming Zhang, Yizhou Sun, | (参考訳) 本稿では,エージェントが相互に相互作用して動作に影響を与えるマルチエージェント力学系をモデル化する問題について検討する。
最近の研究では、幾何グラフを用いてこれらの相互相互作用を描写し、強力なグラフニューラルネットワーク(GNN)によって捉えられている。
しかし、アウト・オブ・ディストリビューション・シフトや複雑な基礎ルールといった困難なシナリオにおける相互作用力学の予測は未解決のままである。
本稿では,プロトタイプグラフODE (PGODE) という新しい手法を提案する。
PGODEの中核は、文脈知識からのプロトタイプ分解を連続グラフODEフレームワークに組み込むことである。
具体的には、PGODEは、オブジェクトレベルとシステムレベルの両方のコンテキストを歴史的トラジェクトリから抽出するために、表現のゆがみとシステムパラメータを用いており、それによって、その独立した影響を明示的にモデル化し、システム変更時の一般化能力を高めることができる。
そして,これらの非絡み合った潜在表現をグラフODEモデルに統合し,モデル表現性を高めるための様々な対話型プロトタイプの組み合わせを決定する。
モデル全体は、その可能性の最大化のために、エンドツーエンドの変分推論フレームワークを使用して最適化される。
分布内および分布外の両方における広範囲な実験は、PGODEの様々な基線に対する優越性を検証した。
This paper studies the problem of modeling multi-agent dynamical systems, where agents could interact mutually to influence their behaviors. Recent research predominantly uses geometric graphs to depict these mutual interactions, which are then captured by powerful graph neural networks (GNNs). However, predicting interacting dynamics in challenging scenarios such as out-of-distribution shift and complicated underlying rules remains unsolved. In this paper, we propose a new approach named Prototypical Graph ODE (PGODE) to address the problem. The core of PGODE is to incorporate prototype decomposition from contextual knowledge into a continuous graph ODE framework. Specifically, PGODE employs representation disentanglement and system parameters to extract both object-level and system-level contexts from historical trajectories, which allows us to explicitly model their independent influence and thus enhances the generalization capability under system changes. Then, we integrate these disentangled latent representations into a graph ODE model, which determines a combination of various interacting prototypes for enhanced model expressivity. The entire model is optimized using an end-to-end variational inference framework to maximize the likelihood. Extensive experiments in both in-distribution and out-of-distribution settings validate the superiority of PGODE compared to various baselines. | 翻訳日:2024-06-28 20:06:29 公開日:2024-06-26 |
# バイモーダル畳み込みニューラルネットワークを用いた言語・生理データストリームの認識検出
Deception Detection from Linguistic and Physiological Data Streams Using Bimodal Convolutional Neural Networks ( http://arxiv.org/abs/2311.10944v4 ) ライセンス: Link先を確認 | Panfeng Li, Mohamed Abouelenien, Rada Mihalcea, Zhicheng Ding, Qikai Yang, Yiming Zhou, | (参考訳) 倫理的・セキュリティ上の懸念から、偽造検知が関心を増している。
本稿では,畳み込み型ニューラルネットワークのマルチモーダルな騙し検出への応用について検討する。
2つのトピックについて104人の被験者にインタビューして構築したデータセットを使用します。
特に、主な貢献は3つあります。
まず,このデータから言語的・生理的特徴を抽出し,ニューラルネットワークモデルを訓練・構築する。
次に,両モードを用いた融合畳み込みニューラルネットワークモデルを提案する。
第3に,新しい手法と,マルチモーダルな偽装検出のための従来手法を比較した。
我々のシステムは通常の分類法よりも優れており,本研究の結果は,限られた量のデータが存在する場合でも,誤検出にニューラルネットワークを用いることの可能性を示している。
Deception detection is gaining increasing interest due to ethical and security concerns. This paper explores the application of convolutional neural networks for the purpose of multimodal deception detection. We use a dataset built by interviewing 104 subjects about two topics, with one truthful and one falsified response from each subject about each topic. In particular, we make three main contributions. First, we extract linguistic and physiological features from this data to train and construct the neural network models. Second, we propose a fused convolutional neural network model using both modalities in order to achieve an improved overall performance. Third, we compare our new approach with earlier methods designed for multimodal deception detection. We find that our system outperforms regular classification methods; our results indicate the feasibility of using neural networks for deception detection even in the presence of limited amounts of data. | 翻訳日:2024-06-28 20:06:29 公開日:2024-06-26 |
# 非パラメトリック戦略試験
Nonparametric Strategy Test ( http://arxiv.org/abs/2312.10695v3 ) ライセンス: Link先を確認 | Sam Ganzfried, | (参考訳) 本稿では,エージェントが与えられた混合戦略に従っているかどうかを,エージェントのプレイのサンプルを与えられた繰り返し戦略形式ゲームで判定するための非パラメトリック統計的テストを提案する。
これには、エージェントの純粋な戦略の周波数がターゲットの周波数に十分近いかどうかを判定し、選択された純粋な戦略が異なるゲームイテレーション間で独立であるかどうかを決定する2つのコンポーネントが含まれる。
統合テストでは、第1成分に対して2乗の適合性を適用し、第2成分に対して一般化されたWald-Wolfowitzがテストを実行する。
両テストの結果は、ボンフェロニ補正を用いて、与えられた意味レベル$\alphaの完全なテストを生成する。
このテストは、人間のロックペーパー・シッセラー・プレイの公開データに適用しました。
データは500人の人間プレイヤーのための50回のプレイで構成されている。
我々は,各ゲーム繰り返しにおいて,プレイヤーが一様ランダム戦略に従っているという無効仮説を検証した。
重要度を$\alpha = 0.05$とすると、被験者の305人(61%)が目標戦略に従っていると結論付ける。
We present a nonparametric statistical test for determining whether an agent is following a given mixed strategy in a repeated strategic-form game given samples of the agent's play. This involves two components: determining whether the agent's frequencies of pure strategies are sufficiently close to the target frequencies, and determining whether the pure strategies selected are independent between different game iterations. Our integrated test involves applying a chi-squared goodness of fit test for the first component and a generalized Wald-Wolfowitz runs test for the second component. The results from both tests are combined using Bonferroni correction to produce a complete test for a given significance level $\alpha.$ We applied the test to publicly available data of human rock-paper-scissors play. The data consists of 50 iterations of play for 500 human players. We test with a null hypothesis that the players are following a uniform random strategy independently at each game iteration. Using a significance level of $\alpha = 0.05$, we conclude that 305 (61%) of the subjects are following the target strategy. | 翻訳日:2024-06-28 20:06:29 公開日:2024-06-26 |
# I2V-Adapter:拡散モデルのための一般画像から映像への適応器
I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models ( http://arxiv.org/abs/2312.16693v4 ) ライセンス: Link先を確認 | Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Pengfei Wan, Di Zhang, Yufan Liu, Weiming Hu, Zhengjun Zha, Haibin Huang, Chongyang Ma, | (参考訳) テキスト誘導画像合成(I2V)は、入力画像の同一性を保ち、入力プロンプトと意味的に整合するコヒーレントなビデオを生成することを目的としている。
既存の方法では、トレーニング済みのテキスト・トゥ・ビデオ(T2V)モデルを拡張して、モデルに入力される前に、画像とノイズ付きビデオフレームをチャンネルワイズに結合するか、あるいは、トレーニング済みの画像エンコーダによって生成された画像埋め込みを、クロスアテンションモジュールに注入する。
しかしながら、前者のアプローチでは、事前訓練されたT2Vモデルの基本的な重みを変える必要がしばしばあり、これにより、オープンソースコミュニティ内でのモデルの互換性が制限され、モデルの事前の知識が破壊される。
一方、後者は通常、入力画像のアイデンティティを保持するのに失敗する。
このような制限を克服するために、I2V-Adapterを提案する。
I2V-Adapterは、予め訓練されたT2Vモデルを変更することなく、入力画像の同一性を保ちながら、後続のノイズ付きフレームに適応的に伝播する。
特に、I2V-Adapterはトレーニング可能なパラメータをいくつか導入するだけで、トレーニングコストを大幅に軽減し、既存のコミュニティ主導のパーソナライズされたモデルとコントロールツールとの互換性を確保する。
さらに,2つの調整可能な制御係数による動画の動作振幅と安定性のバランスをとるために,新しいフレーム類似性を提案する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
このパフォーマンスと、その俊敏性と適応性は、特にパーソナライズされ、制御可能なアプリケーションにおいて、I2V分野の大幅な進歩を示している。
Text-guided image-to-video (I2V) generation aims to generate a coherent video that preserves the identity of the input image and semantically aligns with the input prompt. Existing methods typically augment pretrained text-to-video (T2V) models by either concatenating the image with noised video frames channel-wise before being fed into the model or injecting the image embedding produced by pretrained image encoders in cross-attention modules. However, the former approach often necessitates altering the fundamental weights of pretrained T2V models, thus restricting the model's compatibility within the open-source communities and disrupting the model's prior knowledge. Meanwhile, the latter typically fails to preserve the identity of the input image. We present I2V-Adapter to overcome such limitations. I2V-Adapter adeptly propagates the unnoised input image to subsequent noised frames through a cross-frame attention mechanism, maintaining the identity of the input image without any changes to the pretrained T2V model. Notably, I2V-Adapter only introduces a few trainable parameters, significantly alleviating the training cost and also ensures compatibility with existing community-driven personalized models and control tools. Moreover, we propose a novel Frame Similarity Prior to balance the motion amplitude and the stability of generated videos through two adjustable control coefficients. Our experimental results demonstrate that I2V-Adapter is capable of producing high-quality videos. This performance, coupled with its agility and adaptability, represents a substantial advancement in the field of I2V, particularly for personalized and controllable applications. | 翻訳日:2024-06-28 19:56:44 公開日:2024-06-26 |
# コヒーレンス, 正確性, データベース化のための言語モデルの帰納的クロージャ訓練
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability ( http://arxiv.org/abs/2401.08574v2 ) ライセンス: Link先を確認 | Afra Feyza Akyürek, Ekin Akyürek, Leshem Choshen, Derry Wijaya, Jacob Andreas, | (参考訳) 言語モデル(LM)は、事実的に正しいテキストを生成し、個々のクレームの真理値を推定することもあるが、一般的には、世界全体の一貫性のある操作可能なモデルを反映していない。
その結果、現在のLMは誤りや非意味なコンテンツも生成し、編集や更新が難しくなっている。
提案手法は, LM自体を用いて生成したテキストの意味(および矛盾点)を同定し, LMの事実性を改善するための効率的な自己監督的手順を導出する。
シード文書のコレクションが与えられた後、DCTはLMにこれらの文書によって示唆される追加のテキストを生成するよう促し、この生成されたテキストの正確さを全世界的に推論し、最終的に正しいと推定されるテキストに微調整を行う。
DCTは、信頼できるソースからシード文書が与えられた場合、教師付きモデル更新のためのツールを提供する。
CREAK、MQUaKE、Reversal Curseデータセット全体で、教師付きDCTはLM事実検証とテキスト生成の精度を3~26%改善する。
これらの結果から,推論中のLMの推論能力をトレーニング中に活用し,信頼性を向上させることが示唆された。
While language models (LMs) can sometimes generate factually correct text and estimate truth values of individual claims, these generally do not reflect a globally coherent, manipulable model of the world. As a consequence, current LMs also generate incorrect or nonsensical content, and are difficult to edit and bring up to date. We present a method called Deductive Closure Training (DCT) that uses LMs themselves to identify implications of (and contradictions within) the text that they generate, yielding an efficient self-supervised procedure for improving LM factuality. Given a collection of seed documents, DCT prompts LMs to generate additional text implied by these documents, reason globally about the correctness of this generated text, and finally fine-tune on text inferred to be correct. Given seed documents from a trusted source, DCT provides a tool for supervised model updating; if seed documents are sampled from the LM itself, DCT enables fully unsupervised fine-tuning for improved coherence and accuracy. Across the CREAK, MQUaKE, and Reversal Curse datasets, supervised DCT improves LM fact verification and text generation accuracy by 3-26%; on CREAK fully unsupervised DCT improves verification accuracy by 12%. These results show that LMs' reasoning capabilities during inference can be leveraged during training to improve their reliability. | 翻訳日:2024-06-28 19:56:44 公開日:2024-06-26 |
# 深層学習と低次モデリングを用いた乗法雑音をもつ非分離ハミルトンのベイズ的同定
Bayesian identification of nonseparable Hamiltonians with multiplicative noise using deep learning and reduced-order modeling ( http://arxiv.org/abs/2401.12476v2 ) ライセンス: Link先を確認 | Nicholas Galioto, Harsh Sharma, Boris Kramer, Alex Arkady Gorodetsky, | (参考訳) 本稿では,統計的に依存し,ベクトル値の付加音と乗法的測定音を扱える確率論的力学モデルを用いて,非分離型ハミルトン系を学習するための構造保存ベイズ的手法を提案する。
アプローチは3つのメインセットで構成されている。
まず,ベイズ後部の確率を評価するために必要となる,統計的に依存的,ベクトル値,加法的および乗法的雑音モデルに対するガウスフィルタを導出する。
第2に,高次元システムへのベイズ同定のコスト効率向上のための新しいアルゴリズムを開発した。
第三に、構造保存手法が提案するフレームワークにどのように組み入れられるかを示し、非分離ハミルトニアンを図式システムクラスとして利用する。
単軌道データから推定したモデルの予測精度に基づいて,提案手法の性能を評価する。
ベイジアン法を、標準的非分離型ハミルトンモデルと、小さな雑音の多い訓練データセットを持つカオス的二重振り子モデルを用いて、最先端の機械学習手法と比較する。
その結果,ベイズ後部をトレーニング目的として用いると,ハミルトン平均二乗誤差の724倍の改善が得られることがわかった。
最後に,最大20%の乗法ノイズで劣化したデータを含む空間分散非線形シュリンガー方程式の64次元モデルのパラメータ推定に対する新しいアルゴリズムの有用性を実証する。
This paper presents a structure-preserving Bayesian approach for learning nonseparable Hamiltonian systems using stochastic dynamic models allowing for statistically-dependent, vector-valued additive and multiplicative measurement noise. The approach is comprised of three main facets. First, we derive a Gaussian filter for a statistically-dependent, vector-valued, additive and multiplicative noise model that is needed to evaluate the likelihood within the Bayesian posterior. Second, we develop a novel algorithm for cost-effective application of Bayesian system identification to high-dimensional systems. Third, we demonstrate how structure-preserving methods can be incorporated into the proposed framework, using nonseparable Hamiltonians as an illustrative system class. We assess the method's performance based on the forecasting accuracy of a model estimated from-single trajectory data. We compare the Bayesian method to a state-of-the-art machine learning method on a canonical nonseparable Hamiltonian model and a chaotic double pendulum model with small, noisy training datasets. The results show that using the Bayesian posterior as a training objective can yield upwards of 724 times improvement in Hamiltonian mean squared error using training data with up to 10% multiplicative noise compared to a standard training objective. Lastly, we demonstrate the utility of the novel algorithm for parameter estimation of a 64-dimensional model of the spatially-discretized nonlinear Schr\"odinger equation with data corrupted by up to 20% multiplicative noise. | 翻訳日:2024-06-28 19:46:58 公開日:2024-06-26 |
# グラフの1つの畳み込み:効率的なグレイスケール画像分類
A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification ( http://arxiv.org/abs/2402.00564v6 ) ライセンス: Link先を確認 | Jacob Fein-Ashley, Sachini Wickramasinghe, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, | (参考訳) SAR ATR(Synthetic Aperture Radar Automatic Target Recognition)や胸部X線分類のようなドメイン固有のタスクのための画像分類器は、畳み込みニューラルネットワーク(CNN)に依存していることが多い。
これらのネットワークは、強力だが、実行している操作数のためにレイテンシが高く、リアルタイムアプリケーションでは問題になる可能性がある。
多くの画像分類モデルは、RGBデータセットとグレースケールデータセットの両方で動作するように設計されているが、グレースケールイメージのみで動作する分類器は一般的ではない。
グレースケール画像分類は、医用画像やSAR ATRなどの分野で重要な応用がある。
画像のベクトル化ビューを用いた新しいグレースケール画像分類手法を提案する。
MLP(Multi-Layer Perceptrons)の軽量性を活用することにより,画像をベクトルとして扱うことにより,グレースケール画像分類への問題を単純化する。
提案手法では,単一のグラフ畳み込み層をバッチ的に組み込んで,精度の向上と性能のばらつきの低減を図る。
さらに,FPGAをモデルとしてカスタマイズしたアクセラレータを開発し,性能向上のためにいくつかの最適化を取り入れた。
SAR ATRと医用画像分類の最先端モデルと比較し, ベンチマークグレースケール画像データセット実験の結果, 提案手法の有効性を実証し, レイテンシを著しく低減し(MSTARでは最大16\times$以下) , 競合性や優れた性能を示した。
Image classifiers for domain-specific tasks like Synthetic Aperture Radar Automatic Target Recognition (SAR ATR) and chest X-ray classification often rely on convolutional neural networks (CNNs). These networks, while powerful, experience high latency due to the number of operations they perform, which can be problematic in real-time applications. Many image classification models are designed to work with both RGB and grayscale datasets, but classifiers that operate solely on grayscale images are less common. Grayscale image classification has critical applications in fields such as medical imaging and SAR ATR. In response, we present a novel grayscale image classification approach using a vectorized view of images. By leveraging the lightweight nature of Multi-Layer Perceptrons (MLPs), we treat images as vectors, simplifying the problem to grayscale image classification. Our approach incorporates a single graph convolutional layer in a batch-wise manner, enhancing accuracy and reducing performance variance. Additionally, we develop a customized accelerator on FPGA for our model, incorporating several optimizations to improve performance. Experimental results on benchmark grayscale image datasets demonstrate the effectiveness of our approach, achieving significantly lower latency (up to $16\times$ less on MSTAR) and competitive or superior performance compared to state-of-the-art models for SAR ATR and medical image classification. | 翻訳日:2024-06-28 19:46:58 公開日:2024-06-26 |
# 持続可能なAIデータセンターのためのニューロモルフィックハードウェア
Neuromorphic hardware for sustainable AI data centers ( http://arxiv.org/abs/2402.02521v2 ) ライセンス: Link先を確認 | Bernhard Vogginger, Amirhossein Rostami, Vaibhav Jain, Sirine Arfa, Andreas Hantsch, David Kappel, Michael Schäfer, Ulrike Faltings, Hector A. Gonzalez, Chen Liu, Christian Mayr, Wolfgang Maaß, | (参考訳) 人間がより高度な人工知能に向かって進むと、常に計算資源の消費をエスカレートするコストがかかり、AIコンピューティング需要の指数的な成長に対応する新しいソリューションを開発する必要がある。
ニューロモルフィックハードウェアは、脳が情報を処理する方法からインスピレーションを得て、AIワークロードのエネルギー効率の高いコンピューティングを約束する。
その可能性にもかかわらず、ニューロモルフィックなハードウェアは商用AIデータセンターに導入されていない。
本稿では、この原因を分析し、効率的で持続可能なクラウドコンピューティングのためのニューロモルフィックシステムを促進するための要件とガイドラインを導出する。
次に、ニューロモルフィックアルゴリズム研究のさらなる方向性として、AIデータセンタに一般的にデプロイされるアプリケーション、モデル、アルゴリズムを特定する。
最後に、ニューロモルフィックシステムをデータセンターにハードウェアとソフトウェアを統合するための要件とベストプラクティスを導出します。
この記事では,ニューロモルフィックハードウェアをデータセンタに統合する上での課題に対する認識を高め,持続可能なエネルギー効率の高いAIを大規模に実現するためのコミュニティの指導を期待する。
As humans advance toward a higher level of artificial intelligence, it is always at the cost of escalating computational resource consumption, which requires developing novel solutions to meet the exponential growth of AI computing demand. Neuromorphic hardware takes inspiration from how the brain processes information and promises energy-efficient computing of AI workloads. Despite its potential, neuromorphic hardware has not found its way into commercial AI data centers. In this article, we try to analyze the underlying reasons for this and derive requirements and guidelines to promote neuromorphic systems for efficient and sustainable cloud computing: We first review currently available neuromorphic hardware systems and collect examples where neuromorphic solutions excel conventional AI processing on CPUs and GPUs. Next, we identify applications, models and algorithms which are commonly deployed in AI data centers as further directions for neuromorphic algorithms research. Last, we derive requirements and best practices for the hardware and software integration of neuromorphic systems into data centers. With this article, we hope to increase awareness of the challenges of integrating neuromorphic hardware into data centers and to guide the community to enable sustainable and energy-efficient AI at scale. | 翻訳日:2024-06-28 19:46:58 公開日:2024-06-26 |
# 拡散誘導型音源データ生成による音源自由領域適応
Source-Free Domain Adaptation with Diffusion-Guided Source Data Generation ( http://arxiv.org/abs/2402.04929v3 ) ライセンス: Link先を確認 | Shivang Chopra, Suraj Kothawade, Houda Aynaou, Aman Chadha, | (参考訳) 本稿では、ソースフリードメイン適応(DM-SFDA)のための拡散モデルの一般化可能性を活用するための新しいアプローチを提案する。
提案したDMSFDA法では,予め訓練したテキスト・画像拡散モデルを微調整し,対象画像の特徴を用いてソース領域画像を生成し,拡散過程を導出する。
具体的には、事前学習した拡散モデルを微調整し、エントロピーを最小化し、事前学習したソースモデルの信頼性を最大化するソースサンプルを生成する。
次に、拡散モデルに基づく画像混合戦略を用いて、ソースとターゲットドメイン間の領域ギャップを埋める。
私たちは、Office-31、Office-Home、VisDAなど、さまざまなデータセットにわたる包括的な実験を通じて、このアプローチを検証する。
その結果、SFDAの性能は著しく改善され、コンテキストに関連のあるドメイン固有の画像を生成する際の拡散モデルの可能性が浮き彫りになった。
This paper introduces a novel approach to leverage the generalizability of Diffusion Models for Source-Free Domain Adaptation (DM-SFDA). Our proposed DMSFDA method involves fine-tuning a pre-trained text-to-image diffusion model to generate source domain images using features from the target images to guide the diffusion process. Specifically, the pre-trained diffusion model is fine-tuned to generate source samples that minimize entropy and maximize confidence for the pre-trained source model. We then use a diffusion model-based image mixup strategy to bridge the domain gap between the source and target domains. We validate our approach through comprehensive experiments across a range of datasets, including Office-31, Office-Home, and VisDA. The results demonstrate significant improvements in SFDA performance, highlighting the potential of diffusion models in generating contextually relevant, domain-specific images. | 翻訳日:2024-06-28 19:46:58 公開日:2024-06-26 |
# 大規模事前学習モデルによるAI連携に関する調査研究
A Survey on Human-AI Teaming with Large Pre-Trained Models ( http://arxiv.org/abs/2403.04931v2 ) ライセンス: Link先を確認 | Vanshika Vats, Marzia Binta Nizam, Minghao Liu, Ziyuan Wang, Richard Ho, Mohnish Sai Prasad, Vincent Titterton, Sai Venkat Malreddy, Riya Aggarwal, Yanwen Xu, Lei Ding, Jay Mehta, Nathan Grinnell, Li Liu, Sijia Zhong, Devanathan Nallur Gandamani, Xinyi Tang, Rohan Ghosalkar, Celeste Shen, Rachel Shen, Nafisa Hussain, Kesav Ravichandran, James Davis, | (参考訳) 人工知能(AI)の急速な発展の中で、ヒューマンAI(Human-AI:Human-AI)チームと呼ばれる人工知能とAIシステムのコラボレーションは、問題解決と意思決定プロセスの前進の基盤として現れてきた。
大規模事前学習モデル(LPtM)の出現は、複雑なパターンを理解し予測するために大量のデータを活用することで、前例のない機能を提供し、この状況を大きく変えた。
本稿では,LPtMsとHAIの統合を重要視し,これらのモデルが従来のアプローチを超えて協調的インテリジェンスをどのように強化するかを強調した。
LPtMが人間の能力を増強する可能性について検討し、AIモデルの改善、効果的なチームづくり、倫理的考察、そして様々な分野で広く適用されている影響について論じる。
この調査を通じて、この研究はLPtMが強化したHAIチーム(HAI Teaming)の変革的影響に光を当て、今後の研究、政策開発、そしてこのコラボレーションの潜在能力を研究と社会的利益に活用することを目的とした戦略的実装に対する洞察を提供する。
In the rapidly evolving landscape of artificial intelligence (AI), the collaboration between human intelligence and AI systems, known as Human-AI (HAI) Teaming, has emerged as a cornerstone for advancing problem-solving and decision-making processes. The advent of Large Pre-trained Models (LPtM) has significantly transformed this landscape, offering unprecedented capabilities by leveraging vast amounts of data to understand and predict complex patterns. This paper surveys the pivotal integration of LPtMs with HAI, emphasizing how these models enhance collaborative intelligence beyond traditional approaches. It examines the potential of LPtMs in augmenting human capabilities, discussing this collaboration for AI model improvements, effective teaming, ethical considerations, and their broad applied implications in various sectors. Through this exploration, the study sheds light on the transformative impact of LPtM-enhanced HAI Teaming, providing insights for future research, policy development, and strategic implementations aimed at harnessing the full potential of this collaboration for research and societal benefit. | 翻訳日:2024-06-28 19:26:56 公開日:2024-06-26 |
# AI Penのデコード:AI生成テキストの検出技術と課題
Decoding the AI Pen: Techniques and Challenges in Detecting AI-Generated Text ( http://arxiv.org/abs/2403.05750v3 ) ライセンス: Link先を確認 | Sara Abdali, Richard Anarfi, CJ Barberan, Jia He, | (参考訳) 大規模言語モデル(LLM)は、人間に似たテキストを生成する素晴らしい能力を示すことによって、自然言語生成(NLG)の分野に革命をもたらした。
しかし、彼らの普及した利用は、思慮深い検査、倫理的精査、責任ある実践を必要とする課題をもたらす。
本研究では、これらの課題を探求し、AI生成したテキストを究極の解決策として特定することに焦点を当て、これらの課題を緩和するための既存の戦略を探求する。
さらに、理論的観点から検出の可能性を評価し、この領域の現在の限界に対処するための新しい研究の方向性を提案する。
Large Language Models (LLMs) have revolutionized the field of Natural Language Generation (NLG) by demonstrating an impressive ability to generate human-like text. However, their widespread usage introduces challenges that necessitate thoughtful examination, ethical scrutiny, and responsible practices. In this study, we delve into these challenges, explore existing strategies for mitigating them, with a particular emphasis on identifying AI-generated text as the ultimate solution. Additionally, we assess the feasibility of detection from a theoretical perspective and propose novel research directions to address the current limitations in this domain. | 翻訳日:2024-06-28 19:26:56 公開日:2024-06-26 |
# 大規模変圧器モデルのための高効率ホップフィールド層
Outlier-Efficient Hopfield Layers for Large Transformer-Based Models ( http://arxiv.org/abs/2404.03828v2 ) ライセンス: Link先を確認 | Jerry Yao-Chieh Hu, Pei-Hsuan Chang, Robin Luo, Hong-Yu Chen, Weijian Li, Wei-Po Wang, Han Liu, | (参考訳) 本稿では,大域変圧器モデルにおける外周非効率問題に対処するために,高効率なモダンホップフィールドモデル($\mathrm{OutEffHop}$)を導入する。
我々の主な貢献は、連想記憶の検索を容易にする新しい連想記憶モデルである。
興味深いことに、このメモリモデルは、外周効率の注意機構のモデルに基づく解釈({\rm Softmax}_1$):$\mathrm{OutEffHop}$のメモリ検索プロセスの近似である。
提案手法により,従来のアテンション機構の強力な代替手段として,新しい外周効率のホップフィールド層を導入し,ポスト量子化性能が向上する。
理論的には、Outlier-Efficient Modern Hopfield Modelは、固定点収束や指数記憶容量を含む標準的な近代ホップフィールドモデルの望ましい特性を維持し、改善する。
実験により,提案モデルは,BERT, OPT, ViT, STanHop-Netを含む大規模トランスフォーマーベースモデルおよびホップフィールドベースモデルに対して有効であり,$\mathtt{Clipped\_Softmax}$や$\mathtt{Gated\_Attention}$といった最先端手法に対するベンチマークを行う。
特に、$\mathrm{OutEffHop}$は平均カルトシスにおいて平均22+\%、モデル出力における最大無限度ノルムにおいて26+\%の減少を達成する。
コードは \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub}; モデルは \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub}; 将来のアップデートは \href{https://arxiv.org/abs/2404.03828}{arXiv} にある。
We introduce an Outlier-Efficient Modern Hopfield Model (termed $\mathrm{OutEffHop}$) and use it to address the outlier inefficiency problem of {training} gigantic transformer-based models. Our main contribution is a novel associative memory model facilitating \textit{outlier-efficient} associative memory retrievals. Interestingly, this memory model manifests a model-based interpretation of an outlier-efficient attention mechanism (${\rm Softmax}_1$): it is an approximation of the memory retrieval process of $\mathrm{OutEffHop}$. Methodologically, this allows us to introduce novel outlier-efficient Hopfield layers as powerful alternatives to traditional attention mechanisms, with superior post-quantization performance. Theoretically, the Outlier-Efficient Modern Hopfield Model retains and improves the desirable properties of standard modern Hopfield models, including fixed point convergence and exponential storage capacity. Empirically, we demonstrate the efficacy of the proposed model across large-scale transformer-based and Hopfield-based models (including BERT, OPT, ViT, and STanHop-Net), benchmarking against state-of-the-art methods like $\mathtt{Clipped\_Softmax}$ and $\mathtt{Gated\_Attention}$. Notably, $\mathrm{OutEffHop}$ achieves an average reduction of 22+\% in average kurtosis and 26+\% in the maximum infinity norm of model outputs across four models. Code is available at \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub}; models are on \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub}; future updates are on \href{https://arxiv.org/abs/2404.03828}{arXiv}. | 翻訳日:2024-06-28 19:16:49 公開日:2024-06-26 |
# ポイントトラック処理によるカジュアル映像からの高速エンコーダベース3D
Fast Encoder-Based 3D from Casual Videos via Point Track Processing ( http://arxiv.org/abs/2404.07097v2 ) ライセンス: Link先を確認 | Yoni Kasten, Wuyue Lu, Haggai Maron, | (参考訳) 本稿では,動的コンテンツを用いたビデオから3次元構造を再構築する上での長年の課題について述べる。
この問題に対する現在のアプローチは、標準的なカメラで記録されたカジュアルなビデオや、長い最適化時間を必要としないように設計されている。
従来のアプローチの効率を大幅に向上することを目的として,1つの効率的なフィードフォワードパスを用いてカジュアルビデオから3D構造とカメラ位置を推定できる学習ベースのアプローチであるTracksTo4Dを提案する。
そこで本研究では,2次元点線処理に適したアーキテクチャを入力として,直接2次元点線を動作させることを提案する。
提案アーキテクチャは,(1)入力点トラックデータに存在する固有対称性を考慮し,(2)低ランク近似を用いて移動パターンを効果的に表現できる,という2つの原則を念頭に設計されている。
TracksTo4Dは、ビデオから抽出された2Dポイントトラックのみを利用して、カジュアルなビデオのデータセットに基づいて、教師なしの方法で訓練される。
実験の結果,TracksTo4Dは映像の時間点雲とカメラの位置を,最先端の手法に匹敵する精度で再構成でき,ランタイムを最大95%削減できることがわかった。
さらに、TracksTo4Dは推論時に目に見えないセマンティックなカテゴリーの動画を一般化することを示した。
This paper addresses the long-standing challenge of reconstructing 3D structures from videos with dynamic content. Current approaches to this problem were not designed to operate on casual videos recorded by standard cameras or require a long optimization time. Aiming to significantly improve the efficiency of previous approaches, we present TracksTo4D, a learning-based approach that enables inferring 3D structure and camera positions from dynamic content originating from casual videos using a single efficient feed-forward pass. To achieve this, we propose operating directly over 2D point tracks as input and designing an architecture tailored for processing 2D point tracks. Our proposed architecture is designed with two key principles in mind: (1) it takes into account the inherent symmetries present in the input point tracks data, and (2) it assumes that the movement patterns can be effectively represented using a low-rank approximation. TracksTo4D is trained in an unsupervised way on a dataset of casual videos utilizing only the 2D point tracks extracted from the videos, without any 3D supervision. Our experiments show that TracksTo4D can reconstruct a temporal point cloud and camera positions of the underlying video with accuracy comparable to state-of-the-art methods, while drastically reducing runtime by up to 95\%. We further show that TracksTo4D generalizes well to unseen videos of unseen semantic categories at inference time. | 翻訳日:2024-06-28 19:16:49 公開日:2024-06-26 |
# 地域風と色移動
Regional Style and Color Transfer ( http://arxiv.org/abs/2404.13880v3 ) ライセンス: Link先を確認 | Zhicheng Ding, Panfeng Li, Qikai Yang, Siyang Li, Qingtian Gong, | (参考訳) 本稿では,地域スタイル移行の分野への新たな貢献について述べる。
既存の手法は、画像全体にわたって均一にスタイルを適用するという欠点に悩まされることが多く、人物像などの前景要素を持つ画像に適用した場合、スタイル上の不整合や前景オブジェクトがねじれてしまう。
この制限に対処するために、セグメント化ネットワークを利用して入力画像内の前景オブジェクトを正確に分離する新しいアプローチを提案する。
その後、背景領域にのみスタイル転送が適用される。
分離されたフォアグラウンドオブジェクトは、慎重にスタイル変換された背景に再統合される。
前景と背景との視覚的コヒーレンスを高めるために、再法人化前の前景要素に色転写ステップを用いる。
最後に,羽ばたき技術を用いて,前景と背景のシームレスな融合を実現し,視覚的に統一され,美的な最終構成を実現する。
その結果,提案手法は従来の手法に比べて,より自然なスタイル変換をもたらすことがわかった。
This paper presents a novel contribution to the field of regional style transfer. Existing methods often suffer from the drawback of applying style homogeneously across the entire image, leading to stylistic inconsistencies or foreground object twisted when applied to image with foreground elements such as person figures. To address this limitation, we propose a new approach that leverages a segmentation network to precisely isolate foreground objects within the input image. Subsequently, style transfer is applied exclusively to the background region. The isolated foreground objects are then carefully reintegrated into the style-transferred background. To enhance the visual coherence between foreground and background, a color transfer step is employed on the foreground elements prior to their rein-corporation. Finally, we utilize feathering techniques to achieve a seamless amalgamation of foreground and background, resulting in a visually unified and aesthetically pleasing final composition. Extensive evaluations demonstrate that our proposed approach yields significantly more natural stylistic transformations compared to conventional methods. | 翻訳日:2024-06-28 19:16:49 公開日:2024-06-26 |
# Mélange:GPUヘテロジニティの爆発によって実現されるコスト効率のよい大規模言語モデル
Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity ( http://arxiv.org/abs/2404.14527v2 ) ライセンス: Link先を確認 | Tyler Griggs, Xiaoxuan Liu, Jiaxiang Yu, Doyoung Kim, Wei-Lin Chiang, Alvin Cheung, Ion Stoica, | (参考訳) 大規模言語モデル(LLM)はますます多くのオンラインサービスに統合されているが、高価なGPUインスタンスを必要とするため、デプロイにはコストがかかる。
これまでは推論エンジンの改善によってLLMの高コスト化に取り組んできたが、特定のLLMサービスに対して最もコスト効率のよいGPUタイプを選択することにはあまり注意が向けられていない。
GPUタイプの大規模で成長する状況があり、これらのオプションでは、高コストがパフォーマンス向上につながるとは限らない。
その代わりに、包括的な調査により、3つの主要なLLMサービス特性(要求サイズ、要求率、SLO)がGPUコスト効率に強く影響を与え、異なるGPUタイプが異なるLLMサービス設定に対して最もコスト効率がよいことがわかった。
結果として、与えられたサービスの最もコスト効率のよい割り当ては、通常、異種GPUタイプの混合である。
この分析に基づいて、これらの多様なLLMサービス特性とヘテロジニアスGPUオプション空間をナビゲートし、与えられたLLMサービスの最小コストGPUアロケーションを自動かつ効率的に導出するGPUアロケーションフレームワークであるM\'elangeを紹介する。
我々は、GPU割り当てタスクを、GPUがビンであり、アイテムがサービスのワークロードのスライスである、コスト対応のビンパッキング問題として定式化する。
私たちの定式化の制約は、サービスのユニークな特性を考慮し、M\'elangeは、さまざまなサービス設定と、GPUアロケーションを特定のサービスに適応するためのヘテロジニティアウェアをサポートするためにフレキシブルになる。
単一のGPUタイプのみを使用する場合と比較して、M\'elangeは、会話設定で77\%、文書ベースの設定で33\%、混合設定で51\%までのデプロイメントコストを削減する。
Large language models (LLMs) are increasingly integrated into many online services, yet they remain cost-prohibitive to deploy due to the requirement of expensive GPU instances. Prior work has addressed the high cost of LLM serving by improving the inference engine, but less attention has been given to selecting the most cost-efficient GPU type(s) for a specific LLM service. There is a large and growing landscape of GPU types and, within these options, higher cost does not always lead to increased performance. Instead, through a comprehensive investigation, we find that three key LLM service characteristics (request size, request rate, SLO) strongly influence GPU cost efficiency, and differing GPU types are most cost efficient for differing LLM service settings. As a result, the most cost-efficient allocation for a given service is typically a mix of heterogeneous GPU types. Based on this analysis, we introduce M\'elange, a GPU allocation framework that navigates these diverse LLM service characteristics and heterogeneous GPU option space to automatically and efficiently derive the minimal-cost GPU allocation for a given LLM service. We formulate the GPU allocation task as a cost-aware bin packing problem where GPUs are bins and items are slices of the service workload. Our formulation's constraints account for a service's unique characteristics, allowing M\'elange to be flexible to support diverse service settings and heterogeneity-aware to adapt the GPU allocation to a specific service. Compared to using only a single GPU type, M\'elange reduces deployment costs by up to 77\% in conversational settings, 33\% in document-based settings, and 51\% in a mixed setting. | 翻訳日:2024-06-28 19:06:57 公開日:2024-06-26 |
# CodeHalu: 実行ベースの検証によるLLMのコード幻覚
CodeHalu: Code Hallucinations in LLMs Driven by Execution-based Verification ( http://arxiv.org/abs/2405.00253v2 ) ライセンス: Link先を確認 | Yuchen Tian, Weixiang Yan, Qian Yang, Qian Chen, Wen Wang, Ziyang Luo, Lei Ma, | (参考訳) 大規模言語モデル(LLM)はコード生成において大きな進歩を遂げており、前例のない自動プログラミングサポートを提供する。
しかし、LLMは構文的に正しいコードを生成することが多く、意味的にも妥当だが、期待通りに実行したり、特定の要件を満たしたりすることはできない。
コード領域におけるこの幻覚の現象は、体系的に研究されていない。
この問題に対するコミュニティの理解と研究を強化するため,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類手法を提案する。
コード幻覚は、マッピング、命名、リソース、論理幻覚の4つの主なタイプに分類され、各カテゴリは、より粒度の細かいコード生成においてLLMが直面する固有の課題を理解し、対処するために、さらに異なるサブカテゴリに分割される。
さらに,コード幻覚を定量化し,コード幻覚を体系的かつ定量的に評価する699タスクから8,883個のサンプルを含むCodeHaluEvalベンチマークを確立するために,CodeHaluという動的検出アルゴリズムを開発した。
このベンチマークで17種類のLLMを評価した結果,コード生成の精度と信頼性に有意な差が見られ,LLMのコード生成能力を改善するための詳細な知見が得られた。
CodeHaluベンチマークとコードはhttps://github.com/yuchen814/CodeHaluで公開されている。
Large Language Models (LLMs) have made significant progress in code generation, providing developers with unprecedented automated programming support. However, LLMs often generate code that is syntactically correct and even semantically plausible but may not execute as expected or meet specified requirements. This phenomenon of hallucinations in the code domain has not been systematically explored. To enhance the community's understanding and research on this issue, we introduce the concept of code hallucinations and propose a classification method for code hallucination based on execution verification. We classify code hallucinations into four main types: mapping, naming, resource, and logic hallucinations, with each category further divided into different subcategories to understand and address the unique challenges faced by LLMs in code generation with finer granularity. Additionally, we develop a dynamic detection algorithm named CodeHalu to quantify code hallucinations and establish the CodeHaluEval benchmark, which includes 8,883 samples from 699 tasks to systematically and quantitatively evaluate code hallucinations. By evaluating 17 popular LLMs on this benchmark, we reveal significant differences in their accuracy and reliability in code generation and provide detailed insights for further improving the code generation capabilities of LLMs. The CodeHalu benchmark and code are publicly available at https://github.com/yuchen814/CodeHalu. | 翻訳日:2024-06-28 19:06:57 公開日:2024-06-26 |
# プロンプト最適化を伴わない同時マスキング--同時翻訳のための微調整LDMのパラダイムシフト
Simultaneous Masking, Not Prompting Optimization: A Paradigm Shift in Fine-tuning LLMs for Simultaneous Translation ( http://arxiv.org/abs/2405.10443v2 ) ライセンス: Link先を確認 | Matthew Raffel, Victor Agostinelli, Lizhong Chen, | (参考訳) 大規模言語モデル(LLM)は、様々な言語処理タスクにおいて最先端のパフォーマンスを達成し、同時翻訳における彼らの採用を動機付けている。
LLMを同時翻訳に適用するための現在の微調整手法は、データ拡張や構造変更の迅速化による最適化戦略の促進に重点を置いている。
しかし、これらの手法は、不要に拡張されたトレーニングセット、キーと値キャッシュのダンプによる計算の非効率性、プロンプトサイズの増加、単一決定ポリシーの制限など、いくつかの問題に悩まされている。
そこで本研究では,これらの問題を解消するために,同時翻訳のためのLLMを微調整する新たなパラダイムであるSimulMaskを提案する。
これは、望ましい意思決定ポリシーのために注意をマスキングすることで、微調整中の同時翻訳をモデル化する新しい注意マスクアプローチを利用する。
提案したSimulMaskをIWSLT 2017データセットのFalcon LLMに適用することにより、計算コストを削減しつつ、5つの言語ペアに対する最先端の最適化戦略と比較して、翻訳品質が大幅に向上することを示した。
Large language models (LLMs) have achieved state-of-the-art performance in various language processing tasks, motivating their adoption in simultaneous translation. Current fine-tuning methods to adapt LLMs for simultaneous translation focus on prompting optimization strategies using either data augmentation or prompt structure modifications. However, these methods suffer from several issues, such as unnecessarily expanded training sets, computational inefficiency from dumping the key and value cache, increased prompt sizes, or restriction to a single decision policy. To eliminate these issues, in this work, we propose SimulMask, a new paradigm for fine-tuning LLMs for simultaneous translation. It utilizes a novel attention mask approach that models simultaneous translation during fine-tuning by masking attention for a desired decision policy. Applying the proposed SimulMask on a Falcon LLM for the IWSLT 2017 dataset, we have observed a significant translation quality improvement compared to state-of-the-art prompting optimization strategies on five language pairs while reducing the computational cost. | 翻訳日:2024-06-28 19:06:57 公開日:2024-06-26 |
# 有害微調整に対する大規模言語モデルの遅延安全アライメント
Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning ( http://arxiv.org/abs/2405.18641v4 ) ライセンス: Link先を確認 | Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu, | (参考訳) 近年の研究では、有害データと混合したデータセットを微調整することで、安全アライメントを伴うLarge Language Models (LLM) を脱獄することができることが示されている。
文献ではじめて、調整段階の状態を分離し、アライメントとユーザデータセットを最適化することで、脱獄効果を緩和できることを示す。
残念なことに、その後の研究では、この単純な双状態最適化(BSO)ソリューションは、アライメント状態に投資するステップが小さすぎると収束不安定になり、アライメント性能が低下することを示した。
統計的解析により, コンセンサスに対するtextit{excess drift} が不安定性の原因となる可能性が示唆された。
この問題を治療するために、各状態のドリフトを制限するための近項を導入する、 \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment(\textbf{Lisa})を提案する。
理論的には、近位項の利点は収束解析によって支えられ、リサの収束を保証するのに十分な大きな近位因子が必要であることを示す。
その結果,LLMの精度をユーザタスクに保ちながら,近似項を持つLisaはアライメント性能を著しく向上させることができることがわかった。
コードは \url{https://github.com/git-disl/Lisa} で入手できる。
Recent studies show that Large Language Models (LLMs) with safety alignment can be jail-broken by fine-tuning on a dataset mixed with harmful data. First time in the literature, we show that the jail-broken effect can be mitigated by separating states in the finetuning stage to optimize the alignment and user datasets. Unfortunately, our subsequent study shows that this simple Bi-State Optimization (BSO) solution experiences convergence instability when steps invested in its alignment state is too small, leading to downgraded alignment performance. By statistical analysis, we show that the \textit{excess drift} towards consensus could be a probable reason for the instability. To remedy this issue, we propose \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment (\textbf{Lisa}), which introduces a proximal term to constraint the drift of each state. Theoretically, the benefit of the proximal term is supported by the convergence analysis, wherein we show that a sufficient large proximal factor is necessary to guarantee Lisa's convergence. Empirically, our results on four downstream finetuning tasks show that Lisa with a proximal term can significantly increase alignment performance while maintaining the LLM's accuracy on the user tasks. Code is available at \url{https://github.com/git-disl/Lisa}. | 翻訳日:2024-06-28 18:56:54 公開日:2024-06-26 |
# 非均質な2層ネットワークのための大ステップグラディエントDescent:マージン改善と高速最適化
Large Stepsize Gradient Descent for Non-Homogeneous Two-Layer Networks: Margin Improvement and Fast Optimization ( http://arxiv.org/abs/2406.08654v2 ) ライセンス: Link先を確認 | Yuhang Cai, Jingfeng Wu, Song Mei, Michael Lindsey, Peter L. Bartlett, | (参考訳) ロジスティック損失下での大きな段差勾配降下(GD)を用いたニューラルネットワークの典型的な訓練は、2つの異なる位相を伴い、経験的リスクは第1フェーズで発振するが、第2フェーズでは単調に減少する。
ほぼ均一条件を満たす2層ネットワークにおけるこの現象について検討する。
第2フェーズは、経験的リスクが一定の閾値以下に落ちてから始まり、ステップサイズに依存することを示す。
さらに、正規化マージンは第2相においてほぼ単調に成長し、非均一予測器のトレーニングにおいてGDの暗黙の偏りを示す。
データセットが線形分離可能であり、活性化関数の微分がゼロから離れた場合、平均的な経験的リスクは減少し、第1フェーズは有限ステップで停止しなければならないことを示す。
最後に、この位相遷移を行うGDは、適度に大きなステップサイズを選択することで、GDよりも効率が良く、単調にリスクを減少させることを示した。
我々の分析は、よく知られたニューラルネットワークカーネルや平均場状態を超えて、あらゆる幅のネットワークに適用できる。
The typical training of neural networks using large stepsize gradient descent (GD) under the logistic loss often involves two distinct phases, where the empirical risk oscillates in the first phase but decreases monotonically in the second phase. We investigate this phenomenon in two-layer networks that satisfy a near-homogeneity condition. We show that the second phase begins once the empirical risk falls below a certain threshold, dependent on the stepsize. Additionally, we show that the normalized margin grows nearly monotonically in the second phase, demonstrating an implicit bias of GD in training non-homogeneous predictors. If the dataset is linearly separable and the derivative of the activation function is bounded away from zero, we show that the average empirical risk decreases, implying that the first phase must stop in finite steps. Finally, we demonstrate that by choosing a suitably large stepsize, GD that undergoes this phase transition is more efficient than GD that monotonically decreases the risk. Our analysis applies to networks of any width, beyond the well-known neural tangent kernel and mean-field regimes. | 翻訳日:2024-06-28 18:47:10 公開日:2024-06-26 |
# 時間グラフに基づく基礎モデルのニューラルスケーリング法則に向けて
Towards Neural Scaling Laws for Foundation Models on Temporal Graphs ( http://arxiv.org/abs/2406.10426v2 ) ライセンス: Link先を確認 | Razieh Shirzadkhani, Tran Gia Bao Ngo, Kiarash Shamsi, Shenyang Huang, Farimah Poursafaei, Poupak Azad, Reihaneh Rabbany, Baris Coskunuzer, Guillaume Rabusseau, Cuneyt Gurcan Akcora, | (参考訳) 時間グラフ学習の分野は、ネットワークデータの進化から将来の相互作用を予測することを目的としている。
観測された時間グラフの集合を考えると、同じ領域から目に見えないネットワークの進化を予測することは可能だろうか?
この質問に答えるために、2017年から2023年にかけて収集された85のERC20トークントランザクションネットワークからなる、時間グラフの大規模なコレクションであるテンポラルグラフスケーリング(TGS)データセットを最初に提示する。
次に、時間グラフ特性予測タスクにおける時間グラフニューラルネットワーク(TGNN)の転送性について、最大64個のトークントランザクションネットワークのコレクションを事前学習し、20個の未確認トークンネットワーク上でのダウンストリーム性能を評価する。
NLPやComputer Visionで観測されるニューラルネットワークのスケーリング法則は、時間グラフ学習にも適用され、より多くのネットワークで事前学習することで、下流のパフォーマンスが向上する。
我々の知る限りでは、これは時間グラフ学習の伝達可能性を示す最初の実証的な実証である。
下流トークンネットワークでは、最大の事前学習モデルが13の未確認テストネットワーク上でシングルモデルTGNNよりも優れている。
したがって、これは時間グラフの基礎モデルを構築するための有望な第一歩であると信じている。
The field of temporal graph learning aims to learn from evolving network data to forecast future interactions. Given a collection of observed temporal graphs, is it possible to predict the evolution of an unseen network from the same domain? To answer this question, we first present the Temporal Graph Scaling (TGS) dataset, a large collection of temporal graphs consisting of eighty-four ERC20 token transaction networks collected from 2017 to 2023. Next, we evaluate the transferability of Temporal Graph Neural Networks (TGNNs) for the temporal graph property prediction task by pre-training on a collection of up to sixty-four token transaction networks and then evaluating the downstream performance on twenty unseen token networks. We find that the neural scaling law observed in NLP and Computer Vision also applies in temporal graph learning, where pre-training on greater number of networks leads to improved downstream performance. To the best of our knowledge, this is the first empirical demonstration of the transferability of temporal graphs learning. On downstream token networks, the largest pre-trained model outperforms single model TGNNs on thirteen unseen test networks. Therefore, we believe that this is a promising first step towards building foundation models for temporal graphs. | 翻訳日:2024-06-28 18:47:10 公開日:2024-06-26 |
# フェーシに基づくジオモデルのパラメータ化とデータ同化のための潜時拡散モデル
Latent diffusion models for parameterization and data assimilation of facies-based geomodels ( http://arxiv.org/abs/2406.14815v2 ) ライセンス: Link先を確認 | Guido Di Federico, Louis J. Durlofsky, | (参考訳) 地質学的パラメータ化は、小さな潜伏変数の集合とこれらの変数からポーシティや透水性のようなグリッドブロック特性への写像を用いて、ジオモデルの表現を包含する。
パラメータ化はデータ同化(履歴マッチング)において有用であり、地質学的リアリズムを維持しつつ、決定すべき変数の数を減らす。
拡散モデル(diffusion model)は、画像生成タスクにおいて、生成的対向ネットワークなどの従来の手法よりも優れていることが示されている、新しい生成的深層学習手順のクラスである。
拡散モデルは「デノエーズ」として訓練され、ランダムノイズを特徴とする入力場から新しい地質学的実現を生成することができる。
この研究で考慮された特定の変種である潜伏拡散モデルは、低次元潜伏変数を用いて次元を減少させる。
本研究で開発されたモデルは、次元縮小のための変分オートエンコーダと、復調過程のためのU-netを含む。
本応用は, 条件付き2次元三相(チャネル-レリー-マウス)システムである。
潜在拡散モデルは、ジオモデリングソフトウェアからのサンプルと視覚的に整合した実現を提供する。
空間的および流動応答統計学の定量的指標を評価し,拡散生成モデルと参照実現の一般的な一致を観察する。
パラメータ化法の平滑性を評価するため,安定性試験を行った。
次に、潜伏拡散モデルを用いてアンサンブルに基づくデータ同化を行う。
2つの合成「真の」モデルが検討されている。
P$_{10}$-P$_{90}$予測は、一般に観測されたデータと一貫した後続地形モデルの両方で達成される。
Geological parameterization entails the representation of a geomodel using a small set of latent variables and a mapping from these variables to grid-block properties such as porosity and permeability. Parameterization is useful for data assimilation (history matching), as it maintains geological realism while reducing the number of variables to be determined. Diffusion models are a new class of generative deep-learning procedures that have been shown to outperform previous methods, such as generative adversarial networks, for image generation tasks. Diffusion models are trained to "denoise", which enables them to generate new geological realizations from input fields characterized by random noise. Latent diffusion models, which are the specific variant considered in this study, provide dimension reduction through use of a low-dimensional latent variable. The model developed in this work includes a variational autoencoder for dimension reduction and a U-net for the denoising process. Our application involves conditional 2D three-facies (channel-levee-mud) systems. The latent diffusion model is shown to provide realizations that are visually consistent with samples from geomodeling software. Quantitative metrics involving spatial and flow-response statistics are evaluated, and general agreement between the diffusion-generated models and reference realizations is observed. Stability tests are performed to assess the smoothness of the parameterization method. The latent diffusion model is then used for ensemble-based data assimilation. Two synthetic "true" models are considered. Significant uncertainty reduction, posterior P$_{10}$-P$_{90}$ forecasts that generally bracket observed data, and consistent posterior geomodels, are achieved in both cases. | 翻訳日:2024-06-28 18:37:21 公開日:2024-06-26 |
# 三周期極小曲面のポロシティと位相的性質
Porosity and topological properties of triply periodic minimal surfaces ( http://arxiv.org/abs/2406.16215v2 ) ライセンス: Link先を確認 | Sergei Ermolenko, Pavel Snopov, | (参考訳) 3つの周期的最小面 (TPMS) は、その構造的効率と制御可能な幾何学のために大きな関心を集めており、幅広い用途に適している。
本稿では,ポロシティと持続エントロピーの関係とTPMSの形状因子について検討する。
本稿では,これらの関係性は,機械学習技術の応用から導かれる,自然界の多項式であることを示す。
本研究は,純粋数学的研究における機械学習手法の統合を実証するものである。
予想の他に, TPMS構造の設計とモデル化に潜在的に影響を及ぼす可能性のある数学的モデルも, 様々な応用で提供する。
Triple periodic minimal surfaces (TPMS) have garnered significant interest due to their structural efficiency and controllable geometry, making them suitable for a wide range of applications. This paper investigates the relationships between porosity and persistence entropy with the shape factor of TPMS. We propose conjectures suggesting that these relationships are polynomial in nature, derived through the application of machine learning techniques. This study exemplifies the integration of machine learning methodologies in pure mathematical research. Besides the conjectures, we provide the mathematical models that might have the potential implications for the design and modeling of TPMS structures in various practical applications. | 翻訳日:2024-06-28 18:37:21 公開日:2024-06-26 |
# Diff3Dformer: Transformer Networksを用いた3次元CT分類におけるスライスシーケンス拡散の活用
Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks ( http://arxiv.org/abs/2406.17173v2 ) ライセンス: Link先を確認 | Zihao Jin, Yingying Fang, Jiahao Huang, Caiwen Xu, Simon Walsh, Guang Yang, | (参考訳) 肺疾患に関連する症状の出現は、個々の患者に対して異なる深さで変化し、医療画像分類のためのCTスキャンにおける3D情報の重要性を強調している。
Vision Transformerは画像分類タスクにおいて畳み込みニューラルネットワークよりも優れた性能を示しているが、その効果は十分に大きな2Dデータセットでしばしば示され、小さな医療画像データセットで過度に適合する問題に容易に遭遇する。
この制限に対処するため,Diff3Dformer (Diff3Dformer) を提案する。Diff3Dformerは,Diffusionモデルの潜伏空間を利用して3次元解析のためのスライスシーケンスを形成し,クラスタリング注意をViTに組み込んで3次元CTスキャン内に繰り返し情報を集約することにより,小さなデータセット上での3次元分類タスクにおける高度な変換器のパワーを活用する。
本手法は, 新型コロナウイルスパンデミック時に出現した最先端の3D法および他のトランスフォーマーベースのアプローチを超越し, 異なる規模のデータに対して頑健で優れたパフォーマンスを示す。
実験の結果,提案手法の優位性を実証し,現実シナリオにおける医用画像分類タスクの強化の可能性を示した。
The manifestation of symptoms associated with lung diseases can vary in different depths for individual patients, highlighting the significance of 3D information in CT scans for medical image classification. While Vision Transformer has shown superior performance over convolutional neural networks in image classification tasks, their effectiveness is often demonstrated on sufficiently large 2D datasets and they easily encounter overfitting issues on small medical image datasets. To address this limitation, we propose a Diffusion-based 3D Vision Transformer (Diff3Dformer), which utilizes the latent space of the Diffusion model to form the slice sequence for 3D analysis and incorporates clustering attention into ViT to aggregate repetitive information within 3D CT scans, thereby harnessing the power of the advanced transformer in 3D classification tasks on small datasets. Our method exhibits improved performance on two different scales of small datasets of 3D lung CT scans, surpassing the state of the art 3D methods and other transformer-based approaches that emerged during the COVID-19 pandemic, demonstrating its robust and superior performance across different scales of data. Experimental results underscore the superiority of our proposed method, indicating its potential for enhancing medical image classification tasks in real-world scenarios. | 翻訳日:2024-06-28 18:27:13 公開日:2024-06-26 |
# アニーリングに基づく偏微分方程式の解法
Annealing-based approach to solving partial differential equations ( http://arxiv.org/abs/2406.17364v2 ) ライセンス: Link先を確認 | Kazue Kudo, | (参考訳) 熱処理に基づくアプローチによる偏微分方程式の解法は、一般化固有値問題の解法に基づいている。
偏微分方程式が離散化されると、線形方程式(SLE)の系につながる。
SLE を解くことは一般固有値問題として表すことができ、これは一般化されたレイリー商函数を持つ最適化問題に変換できる。
提案アルゴリズムは,Isingマシンを用いて変数数を増大させることなく,任意の精度で固有ベクトルの計算を可能にする。
この手法と理論解析を用いて解決した簡単な例は、適切なパラメータ設定のためのガイドラインを提供する。
Solving partial differential equations using an annealing-based approach is based on solving generalized eigenvalue problems. When a partial differential equation is discretized, it leads to a system of linear equations (SLE). Solving an SLE can be expressed as a general eigenvalue problem, which can be converted into an optimization problem with the objective function being a generalized Rayleigh quotient. The proposed algorithm allows the computation of eigenvectors at arbitrary precision without increasing the number of variables using an Ising machine. Simple examples solved using this method and theoretical analysis provide a guideline for appropriate parameter settings. | 翻訳日:2024-06-28 18:27:13 公開日:2024-06-26 |
# プログラムのリファインメントを支援する大規模言語モデルに向けて
Towards Large Language Model Aided Program Refinement ( http://arxiv.org/abs/2406.18616v1 ) ライセンス: Link先を確認 | Yufan Cai, Zhe Hou, Xiaokun Luan, David Miguel Sanan Baena, Yun Lin, Jun Sun, Jin Song Dong, | (参考訳) プログラムの洗練には、正式なハイレベルな仕様文から実行可能なプログラムへの正当性保存の変換が含まれる。
プログラムリファインメントに対する従来の検証ツールのサポートは対話性が高く、自動化が欠如している。
一方、大規模言語モデル(LLM)の出現は、非公式な自然言語仕様から自動コード生成を可能にする。
しかし、LLMによって生成されたコードは、しばしば信頼できない。
さらに、LCMが提供する仕様からコードへの不透明な手続きは、制御されていないブラックボックスである。
LLM4PR は,(1) 仕様を事前条件と後条件に変換し,(2) 修正計算に基づいてプロンプトを自動構築し,(3) コード生成のために LLM と対話し,(4) 生成したコードが修正計算の条件を満たすことを検証し,その正確性を保証するツールである。
我々は、GPT4、Coq、Coqhammerを使用してツールを実装し、HumanEvalおよびEvalPlusデータセットで評価した。
Program refinement involves correctness-preserving transformations from formal high-level specification statements into executable programs. Traditional verification tool support for program refinement is highly interactive and lacks automation. On the other hand, the emergence of large language models (LLMs) enables automatic code generations from informal natural language specifications. However, code generated by LLMs is often unreliable. Moreover, the opaque procedure from specification to code provided by LLM is an uncontrolled black box. We propose LLM4PR, a tool that combines formal program refinement techniques with informal LLM-based methods to (1) transform the specification to preconditions and postconditions, (2) automatically build prompts based on refinement calculus, (3) interact with LLM to generate code, and finally, (4) verify that the generated code satisfies the conditions of refinement calculus, thus guaranteeing the correctness of the code. We have implemented our tool using GPT4, Coq, and Coqhammer, and evaluated it on the HumanEval and EvalPlus datasets. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# 人工知能の文書化実践
Documentation Practices of Artificial Intelligence ( http://arxiv.org/abs/2406.18620v1 ) ライセンス: Link先を確認 | Stefan Arnold, Dilara Yesilbas, Rene Gröbner, Dominik Riedelbauch, Maik Horn, Sven Weinzierl, | (参考訳) 人工知能(AI)は、厳格なドキュメントを必要とする透明性と説明責任の観点から、永続的な課題に直面しています。
ドキュメントの実践に関する文献レビューを通じて、一般的な傾向、永続的な問題、そしてドキュメントに影響を与える要因の多面的相互作用の概要について説明する。
スコープ、ターゲットオーディエンス、マルチモーダリティのサポート、自動化レベルといった重要な特徴を調査した結果、ドキュメントのプラクティスのダイナミックな進化が強調され、より包括的な、エンゲージメント、自動化されたドキュメントへのシフトによって強調されます。
Artificial Intelligence (AI) faces persistent challenges in terms of transparency and accountability, which requires rigorous documentation. Through a literature review on documentation practices, we provide an overview of prevailing trends, persistent issues, and the multifaceted interplay of factors influencing the documentation. Our examination of key characteristics such as scope, target audiences, support for multimodality, and level of automation, highlights a dynamic evolution in documentation practices, underscored by a shift towards a more holistic, engaging, and automated documentation. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# 鳥類の生体音響学における深層能動学習に向けて
Towards Deep Active Learning in Avian Bioacoustics ( http://arxiv.org/abs/2406.18621v1 ) ライセンス: Link先を確認 | Lukas Rauch, Denis Huseljic, Moritz Wirth, Jens Decke, Bernhard Sick, Christoph Scholz, | (参考訳) 鳥類の生体音響学におけるパッシブ・アコースティック・モニタリング(PAM)は、自然生息地への最小限の障害を伴う費用対効果と広範囲なデータ収集を可能にする。
計算鳥類のバイオ音響学の進歩にもかかわらず、ディープラーニングモデルは実用的なPAMシナリオにおいて多様な環境に適応する際の課題に直面し続けている。
これは主に、人間の専門家による労働集約的な努力を必要とする注釈の不足によるものである。
アクティブラーニング(AL)はアノテーションのコストを削減し、ラベル付けの最も有益なインスタンスをクエリすることで、さまざまなシナリオへの適応を高速化する。
本稿では、ALのアプローチを概説し、重要な課題を紹介し、小規模のパイロットスタディを実施している。
Passive acoustic monitoring (PAM) in avian bioacoustics enables cost-effective and extensive data collection with minimal disruption to natural habitats. Despite advancements in computational avian bioacoustics, deep learning models continue to encounter challenges in adapting to diverse environments in practical PAM scenarios. This is primarily due to the scarcity of annotations, which requires labor-intensive efforts from human experts. Active learning (AL) reduces annotation cost and speed ups adaption to diverse scenarios by querying the most informative instances for labeling. This paper outlines a deep AL approach, introduces key challenges, and conducts a small-scale pilot study. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# 平均確率勾配勾配による不偏極最小二乗回帰
Unbiased least squares regression via averaged stochastic gradient descent ( http://arxiv.org/abs/2406.18623v1 ) ライセンス: Link先を確認 | Nabil Kahalé, | (参考訳) 最適解 $\theta^*$ および Hessian matrix H を用いたオンライン最小二乗回帰問題を考察し、平均的確率勾配勾配推定器 $\theta^*$ について検討する。
k\ge2$ に対して、平均時間推定器の修正である $\theta^*$ の偏りのない推定器を、O(1/k) が過剰なリスクを期待する順序 k の時間ステップ数で実行する。
我々は、平均値推定器の予想余剰リスクのバイアス付きおよび非バイアス付き推定器と、H または $\theta^*$ の知識を必要とせず、その非バイアス付き推定器を提供する。
同様の特性を持つ推定器の"平均開始"バージョンについて説明する。
我々のアプローチはランダム化されたマルチレベルモンテカルロに基づいている。
我々の数値実験は我々の理論的な発見を裏付けるものである。
We consider an on-line least squares regression problem with optimal solution $\theta^*$ and Hessian matrix H, and study a time-average stochastic gradient descent estimator of $\theta^*$. For $k\ge2$, we provide an unbiased estimator of $\theta^*$ that is a modification of the time-average estimator, runs with an expected number of time-steps of order k, with O(1/k) expected excess risk. The constant behind the O notation depends on parameters of the regression and is a poly-logarithmic function of the smallest eigenvalue of H. We provide both a biased and unbiased estimator of the expected excess risk of the time-average estimator and of its unbiased counterpart, without requiring knowledge of either H or $\theta^*$. We describe an "average-start" version of our estimators with similar properties. Our approach is based on randomized multilevel Monte Carlo. Our numerical experiments confirm our theoretical findings. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# 低SNR環境下でのロバストな低コストドローン検出と分類
Robust Low-Cost Drone Detection and Classification in Low SNR Environments ( http://arxiv.org/abs/2406.18624v1 ) ライセンス: Link先を確認 | Stefan Glüge, Matthias Nyfeler, Ahmad Aghaebrahimian, Nicola Ramagnano, Christof Schüpbach, | (参考訳) 無人航空機(UAV)の拡散は、スパイ活動、密輸、インフラ破壊などの活動で誤用される可能性があるため、重大な安全上の懸念を引き起こしている。
本稿では,UAV協力とは無関係に機能する効果的なドローン検知・分類システムの必要性について論じる。
信号成分の連続フーリエ変換から導かれるスペクトルデータを用いて、様々な畳み込みニューラルネットワーク(CNN)を検出・分類する能力について評価した。
その焦点は、SNR(low signal-to-noise ratio)環境におけるモデルロバスト性であり、これは現実世界のアプリケーションにとって重要なものである。
将来のモデル開発をサポートするために、包括的なデータセットが提供される。
さらに,ソフトウェア定義無線(SDR)とアンテナを用いた低コストなドローン検知システムを実世界のフィールドテストにより検証した。
開発データセットでは,SNR > -12dB で平均平衡分類精度 >= 85% を達成した。
フィールドテストでは、送信機距離とアンテナ方向に応じて平均バランス精度が80%まで向上した。
我々の貢献は、モデル開発のための公開データセット、低SNR条件下でのドローン検出のためのCNNの比較分析、実用的な低コスト検出システムの展開とフィールド評価である。
The proliferation of drones, or unmanned aerial vehicles (UAVs), has raised significant safety concerns due to their potential misuse in activities such as espionage, smuggling, and infrastructure disruption. This paper addresses the critical need for effective drone detection and classification systems that operate independently of UAV cooperation. We evaluate various convolutional neural networks (CNNs) for their ability to detect and classify drones using spectrogram data derived from consecutive Fourier transforms of signal components. The focus is on model robustness in low signal-to-noise ratio (SNR) environments, which is critical for real-world applications. A comprehensive dataset is provided to support future model development. In addition, we demonstrate a low-cost drone detection system using a standard computer, software-defined radio (SDR) and antenna, validated through real-world field testing. On our development dataset, all models consistently achieved an average balanced classification accuracy of >= 85% at SNR > -12dB. In the field test, these models achieved an average balance accuracy of > 80%, depending on transmitter distance and antenna direction. Our contributions include: a publicly available dataset for model development, a comparative analysis of CNN for drone detection under low SNR conditions, and the deployment and field evaluation of a practical, low-cost detection system. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# 縦型音声変換器を用いた筋萎縮性側索硬化進展の自動予測
Automatic Prediction of Amyotrophic Lateral Sclerosis Progression using Longitudinal Speech Transformer ( http://arxiv.org/abs/2406.18625v1 ) ライセンス: Link先を確認 | Liming Wang, Yuan Gong, Nauman Dawalatabad, Marco Vilela, Katerina Placek, Brian Tracey, Yishu Gong, Alan Premasiri, Fernando Vieira, James Glass, | (参考訳) 筋萎縮性側索硬化症(ALS)の進行を自動予測することは、手動によるアプローチよりも効率的で客観的な代替手段となる。
本稿では,ALS患者の経時的音声記録からALS病の進行を予測するニューラルネットワークを用いたALS長手音声変換器を提案する。
ALS TDIデータセットでは, 高品質な事前訓練音声特徴と長手情報を利用して, 91.0\% AUCを達成し, 従来の最善モデルを5.6\%改善した。
注意深い分析によると、ALSTはALS進行の細粒度で解釈可能な予測が可能であり、特に稀な症例と重篤な症例の区別が可能である。
コードは公開されている。
Automatic prediction of amyotrophic lateral sclerosis (ALS) disease progression provides a more efficient and objective alternative than manual approaches. We propose ALS longitudinal speech transformer (ALST), a neural network-based automatic predictor of ALS disease progression from longitudinal speech recordings of ALS patients. By taking advantage of high-quality pretrained speech features and longitudinal information in the recordings, our best model achieves 91.0\% AUC, improving upon the previous best model by 5.6\% relative on the ALS TDI dataset. Careful analysis reveals that ALST is capable of fine-grained and interpretable predictions of ALS progression, especially for distinguishing between rarer and more severe cases. Code is publicly available. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# LLMを用いたバイオメディカルディスカバリのための知識合成と科学的推論フレームワーク
An LLM-based Knowledge Synthesis and Scientific Reasoning Framework for Biomedical Discovery ( http://arxiv.org/abs/2406.18626v1 ) ライセンス: Link先を確認 | Oskar Wysocki, Magdalena Wysocka, Danilo Carvalho, Alex Teodor Bogatu, Danilo Miranda Gusicuma, Maxime Delmas, Harriet Unsworth, Andre Freitas, | (参考訳) 本稿では,生物解析を支援する手段としてLunarフレームワークを用いて開発されたBioLunarについて述べる。
このプラットフォームはLarge Language Models (LLM)を統合し、分散エビデンス空間における複雑な科学的推論を促進し、異種データソースの調和と推論能力を高める。
BioLunarは、がん研究における実用性を実証し、モジュラー設計、再利用可能なデータアクセスとデータ分析コンポーネント、低コードユーザーインターフェースを活用し、全てのプログラミングレベルの研究者がLLM対応の科学ワークフローを構築することができる。
異質な証拠からの自動的な科学的発見と推論を促進することで、BioLunarは、専門家レベルの知識合成と発見を支援するために、LSM、専門データベース、バイオメディカルツールの統合の可能性を実証している。
We present BioLunar, developed using the Lunar framework, as a tool for supporting biological analyses, with a particular emphasis on molecular-level evidence enrichment for biomarker discovery in oncology. The platform integrates Large Language Models (LLMs) to facilitate complex scientific reasoning across distributed evidence spaces, enhancing the capability for harmonizing and reasoning over heterogeneous data sources. Demonstrating its utility in cancer research, BioLunar leverages modular design, reusable data access and data analysis components, and a low-code user interface, enabling researchers of all programming levels to construct LLM-enabled scientific workflows. By facilitating automatic scientific discovery and inference from heterogeneous evidence, BioLunar exemplifies the potential of the integration between LLMs, specialised databases and biomedical tools to support expert-level knowledge synthesis and discovery. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# AssertionBench:Assertion生成のための大規模言語モデルの評価ベンチマーク
AssertionBench: A Benchmark to Evaluate Large-Language Models for Assertion Generation ( http://arxiv.org/abs/2406.18627v1 ) ライセンス: Link先を確認 | Vaishnavi Pulavarthi, Deeksha Nandal, Soham Dan, Debjit Pal, | (参考訳) Assertionsは10年以上にわたって、シミュレーションに基づくハードウェア設計の形式的検証の事実上の副産物である。
ハードウェア検証の品質,すなわちコーナーケース設計バグの検出と診断は,アサーションの品質に大きく依存する。
データ駆動統計分析と静的解析を組み合わせることで、ハードウェア設計ソースコードと設計実行トレースデータから高品質なアサーションを生成するために、かなりの量の研究がなされている。
このような協調的な努力にもかかわらず、以前のすべての研究は産業規模の大規模設計にスケールするのに苦労し、低品質なアサーションが多すぎること、微妙で非自明な設計機能の獲得に失敗すること、そして異なる下流検証タスクに対するアサーションの適合性を理解するために生成されたアサーションについて簡単には説明できないことなどが多かった。
近年,Large-Language Models (LLMs) の出現に伴い,アサーションを生成するためにプロンプトエンジニアリングを活用する取り組みが広く行われている。
しかし、アサーション生成に様々なLSMの有効性と適合性を定量的に確立する努力はほとんどない。
本稿では,アサーション生成に対するLCMの有効性を定量的に評価する新しいベンチマークであるAssertionBenchを提案する。
AssertioBenchにはOpenCoresから100のキュレートされたVerilogハードウェア設計が含まれており、GoldMineとHARMから生成された各設計について正式に承認されている。
我々はAssertionBenchを用いて最先端のLCMを比較し、ハードウェア設計に対して機能的に正しいアサーションを推測するの有効性を評価する。
実験では,LLMの相対的な性能,機能的に正しいアサーションを高頻度に生成する上でのコンテキスト内例によるメリット,LLMベースのアサーション生成装置の大幅な改善の余地などについて実証した。
Assertions have been the de facto collateral for simulation-based and formal verification of hardware designs for over a decade. The quality of hardware verification, \ie, detection and diagnosis of corner-case design bugs, is critically dependent on the quality of the assertions. There has been a considerable amount of research leveraging a blend of data-driven statistical analysis and static analysis to generate high-quality assertions from hardware design source code and design execution trace data. Despite such concerted effort, all prior research struggles to scale to industrial-scale large designs, generates too many low-quality assertions, often fails to capture subtle and non-trivial design functionality, and does not produce any easy-to-comprehend explanations of the generated assertions to understand assertions' suitability to different downstream validation tasks. Recently, with the advent of Large-Language Models (LLMs), there has been a widespread effort to leverage prompt engineering to generate assertions. However, there is little effort to quantitatively establish the effectiveness and suitability of various LLMs for assertion generation. In this paper, we present AssertionBench, a novel benchmark to evaluate LLMs' effectiveness for assertion generation quantitatively. AssertioBench contains 100 curated Verilog hardware designs from OpenCores and formally verified assertions for each design generated from GoldMine and HARM. We use AssertionBench to compare state-of-the-art LLMs to assess their effectiveness in inferring functionally correct assertions for hardware designs. Our experiments demonstrate how LLMs perform relative to each other, the benefits of using more in-context exemplars in generating a higher fraction of functionally correct assertions, and the significant room for improvement for LLM-based assertion generators. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# IDA-UIE:水中画像の強調を意識した深層ネットワークによる劣化の反復的フレームワーク
IDA-UIE: An Iterative Framework for Deep Network-based Degradation Aware Underwater Image Enhancement ( http://arxiv.org/abs/2406.18628v1 ) ライセンス: Link先を確認 | Pranjali Singh, Prithwijit Guha, | (参考訳) 水中画像の品質は蛍光、低照度、吸収、散乱の影響を受けている。
水中画像強調に関する最近の研究は、これらの問題に対処するための異なるディープネットワークアーキテクチャを提案している。
これらの作業の多くは、すべての課題に対処する単一のネットワークを提案している。
特定の条件でトレーニングされたディープネットワークは、すべての劣化事例から学んだ単一のネットワークよりも優れたパフォーマンスをもたらすと考えている。
したがって、この研究の最初の貢献は、単一の支配的な劣化条件を特定し、解決する反復的なフレームワークの提案にある。
この提案では、低照度、低コントラスト、ハジネス、ぼやけた画像、ノイズの有無、色の不均衡の8つの劣化条件について検討する。
ディープネットワークは、支配的な劣化状態を特定するように設計されている。
これにより、劣化条件特異的エンハンスメントのための適切なディープネットワークが選択される。
この研究の第2の貢献は、2つの標準データセット(UIEBとEUVP)の良質な画像から劣化条件特定データセットを構築することである。
このデータセットは、条件特定エンハンスメントネットワークの学習に使用される。
提案手法は、UIEBおよびEUVPデータセット上の9つのベースライン手法より優れている。
Underwater image quality is affected by fluorescence, low illumination, absorption, and scattering. Recent works in underwater image enhancement have proposed different deep network architectures to handle these problems. Most of these works have proposed a single network to handle all the challenges. We believe that deep networks trained for specific conditions deliver better performance than a single network learned from all degradation cases. Accordingly, the first contribution of this work lies in the proposal of an iterative framework where a single dominant degradation condition is identified and resolved. This proposal considers the following eight degradation conditions -- low illumination, low contrast, haziness, blurred image, presence of noise and color imbalance in three different channels. A deep network is designed to identify the dominant degradation condition. Accordingly, an appropriate deep network is selected for degradation condition-specific enhancement. The second contribution of this work is the construction of degradation condition specific datasets from good quality images of two standard datasets (UIEB and EUVP). This dataset is used to learn the condition specific enhancement networks. The proposed approach is found to outperform nine baseline methods on UIEB and EUVP datasets. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# Step-DPO:LLMの長鎖推論のためのステップワイズ推論最適化
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs ( http://arxiv.org/abs/2406.18629v1 ) ライセンス: Link先を確認 | Xin Lai, Zhuotao Tian, Yukang Chen, Senqiao Yang, Xiangru Peng, Jiaya Jia, | (参考訳) 数学的推論は、精度に要求される広範囲かつ正確な推論の連鎖のため、Large Language Models (LLMs) にとって重要な課題である。
それぞれの推論ステップの正確性を保証することが重要です。
そこで本研究では,人間のフィードバックから学習することで,LLMの堅牢性と現実性を高めることを目的とする。
しかし、DPO(Direct Preference Optimization)は、DPOを用いたモデルが誤解の詳細な誤りを特定するのに苦戦しているため、長鎖の数学的推論に限られた利点を示してきた。
この制限は、きめ細かいプロセスの監督の欠如に起因する。
本稿では,個人推論のステップを論理的に評価するのではなく,選好最適化の単位として扱う,シンプルで効果的でデータ効率のよいStep-DPOを提案する。
さらに、ステップ-DPOのためのデータ構築パイプラインを開発し、10Kステップの好みのペアを含む高品質なデータセットの作成を可能にした。
また,DPOでは,人やGPT-4が生成するデータよりも自己生成データの方が効率が高いことが観察された。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
特に、Qwen2-72B-Instructに適用されたStep-DPOは、GPT-4-1106、Claude-3-Opus、Gemini-1.5-Proといった一連のクローズドソースモデルを上回る、MATHとGSM8Kのテストセットで70.8%と94.0%のスコアを得る。
私たちのコード、データ、モデルはhttps://github.com/dvlab-research/Step-DPO.comで公開されています。
Mathematical reasoning presents a significant challenge for Large Language Models (LLMs) due to the extensive and precise chain of reasoning required for accuracy. Ensuring the correctness of each reasoning step is critical. To address this, we aim to enhance the robustness and factuality of LLMs by learning from human feedback. However, Direct Preference Optimization (DPO) has shown limited benefits for long-chain mathematical reasoning, as models employing DPO struggle to identify detailed errors in incorrect answers. This limitation stems from a lack of fine-grained process supervision. We propose a simple, effective, and data-efficient method called Step-DPO, which treats individual reasoning steps as units for preference optimization rather than evaluating answers holistically. Additionally, we have developed a data construction pipeline for Step-DPO, enabling the creation of a high-quality dataset containing 10K step-wise preference pairs. We also observe that in DPO, self-generated data is more effective than data generated by humans or GPT-4, due to the latter's out-of-distribution nature. Our findings demonstrate that as few as 10K preference data pairs and fewer than 500 Step-DPO training steps can yield a nearly 3% gain in accuracy on MATH for models with over 70B parameters. Notably, Step-DPO, when applied to Qwen2-72B-Instruct, achieves scores of 70.8% and 94.0% on the test sets of MATH and GSM8K, respectively, surpassing a series of closed-source models, including GPT-4-1106, Claude-3-Opus, and Gemini-1.5-Pro. Our code, data, and models are available at https://github.com/dvlab-research/Step-DPO. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# チェックポイントモデル重みによるハイパーパラメータ最適化の改善
Improving Hyperparameter Optimization with Checkpointed Model Weights ( http://arxiv.org/abs/2406.18630v1 ) ライセンス: Link先を確認 | Nikhil Mehta, Jonathan Lorraine, Steve Masson, Ramanathan Arunachalam, Zaid Pervaiz Bhat, James Lucas, Arun George Zachariah, | (参考訳) ディープラーニングモデルをトレーニングする場合、パフォーマンスは選択したハイパーパラメータに大きく依存する。
しかし、ハイパーパラメータ最適化(HPO)はモデル設計において最も高価な部分の一つであることが多い。
古典的なHPO法は、これをブラックボックス最適化問題として扱う。
しかし、より効率的な最適化のための有望な方向として、セットアップに関する情報を取り入れたグレーボックスHPO法が登場している。
例えば、中間損失評価を使用して悪い選択を終了する。
そこで本研究では,トレーニングされた重みの検点を用いたニューラルネットワークのためのHPO法を提案し,今後のハイパーパラメータ選択を導出する。
提案手法であるForecasting Model Search (FMS) では,重みをガウス過程の深層カーネルサロゲートモデルに埋め込む。
再現性とさらなる研究を容易にするため、私たちはhttps://github.com/NVlabs/forecasting-model-searchでコードをオープンソース化しました。
When training deep learning models, the performance depends largely on the selected hyperparameters. However, hyperparameter optimization (HPO) is often one of the most expensive parts of model design. Classical HPO methods treat this as a black-box optimization problem. However, gray-box HPO methods, which incorporate more information about the setup, have emerged as a promising direction for more efficient optimization. For example, using intermediate loss evaluations to terminate bad selections. In this work, we propose an HPO method for neural networks using logged checkpoints of the trained weights to guide future hyperparameter selections. Our method, Forecasting Model Search (FMS), embeds weights into a Gaussian process deep kernel surrogate model, using a permutation-invariant graph metanetwork to be data-efficient with the logged network weights. To facilitate reproducibility and further research, we open-source our code at https://github.com/NVlabs/forecasting-model-search. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# エネルギー保全を包含する量子ワーク変動フレームワークの改訂
Revising the quantum work fluctuation framework to encompass energy conservation ( http://arxiv.org/abs/2406.18632v1 ) ライセンス: Link先を確認 | Giulia Rubino, Karen V. Hovhannisyan, Paul Skrzypczyk, | (参考訳) 作業はプロセスベースの量であり、その測定は通常、測定装置と何回も対話する必要があります。
古典的なシステムでは非侵襲的で正確な測定が可能であるが、量子システムは測定装置が最終的な作業値に与える影響によってユニークな課題を提示する。
最近の研究が示すように、これらの課題はコヒーレント量子系のエネルギー保存を尊重し、ジャジンスキーの等式(平衡自由エネルギー差と非平衡運動を結び付けるゆらぎ関係)と互換性のある仕事の普遍的な定義を定式化できないことである。
ここでは、エネルギー保存を示唆するジャジンスキーの等式に真に量子的で正の補正を導入することで、この課題を克服する。
十分に大きいと、この補正により量子論は第二法則に違反することが多い。
さらに、コヒーレントな量子状態のエネルギー保存を保証し、量子補正されたゆらぎ関係と整合する作業のために、修正された2点測定(TPM)方式を構築した。
より詳細な回路実装を提供することにより、これらのスキームの実用性と有効性をさらに強調する。
Work is a process-based quantity, and its measurement typically requires interaction with a measuring device multiple times. While classical systems allow for non-invasive and accurate measurements, quantum systems present unique challenges due to the influence of the measuring device on the final value of work. As recent studies have shown, among these challenges is the impossibility of formulating a universal definition of work that respects energy conservation for coherent quantum systems and is compatible with the Jarzynski equality - a fluctuation relation linking the equilibrium free energy difference to the non-equilibrium work. Here we overcome this challenge by introducing a genuinely quantum, positive correction to the Jarzynski equality stemming from imposing energy conservation. When sufficiently large, this correction forces quantum work to violate the second law more often. Moreover, we construct modified two-point measurement (TPM) schemes for work that ensure energy conservation for coherent quantum states and align with our quantum-corrected fluctuation relation. We further underscore the practicality and effectiveness of these schemes by providing detailed circuit implementations for them. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# プライベート量子チャネルの収縮とプライベート量子仮説テスト
Contraction of Private Quantum Channels and Private Quantum Hypothesis Testing ( http://arxiv.org/abs/2406.18651v1 ) ライセンス: Link先を確認 | Theshani Nuradha, Mark M. Wilde, | (参考訳) 定義による量子一般化発散は、データ処理の不等式を満たすため、量子チャネルの作用によるそのような発散の相対的な減少は、少なくとも1つである。
この相対的な減少は、チャネルと分岐の収縮係数として正式に知られている。
興味深いことに、収縮係数が1以下であるチャネルと分岐の組み合わせが存在する。
さらに, 制約条件下での統計的タスクの研究には, 収縮係数の理解が不可欠である。
この目的のために、プライバシ制約の下でホッケースティックの分散に対する収縮係数の上限を確立し、プライバシを量子局所微分プライバシー(QLDP)フレームワークで定量化し、プライバシ制約下でのトレース距離の収縮係数を完全に特徴づける。
また,機械の開発により,正規化トレース距離に対するバーレス距離と量子相対エントロピーの両方の収縮の上限をQLDP制約の下で決定する。
次に、プライバシー制約下での量子仮説テストのサンプル複雑性の限界を確立するために、本研究の知見を適用した。
さらに,サンプルの複雑性境界がきつくなる様々なシナリオについて検討し,それらの境界を達成できる秩序最適量子チャネルを提供する。
最後に、プライベートな量子チャネルが量子学習環境における公平性とホレボ情報の安定性をどのように提供するかを示す。
A quantum generalized divergence by definition satisfies the data-processing inequality; as such, the relative decrease in such a divergence under the action of a quantum channel is at most one. This relative decrease is formally known as the contraction coefficient of the channel and the divergence. Interestingly, there exist combinations of channels and divergences for which the contraction coefficient is strictly less than one. Furthermore, understanding the contraction coefficient is fundamental for the study of statistical tasks under privacy constraints. To this end, here we establish upper bounds on contraction coefficients for the hockey-stick divergence under privacy constraints, where privacy is quantified with respect to the quantum local differential privacy (QLDP) framework, and we fully characterize the contraction coefficient for the trace distance under privacy constraints. With the machinery developed, we also determine an upper bound on the contraction of both the Bures distance and quantum relative entropy relative to the normalized trace distance, under QLDP constraints. Next, we apply our findings to establish bounds on the sample complexity of quantum hypothesis testing under privacy constraints. Furthermore, we study various scenarios in which the sample complexity bounds are tight, while providing order-optimal quantum channels that achieve those bounds. Lastly, we show how private quantum channels provide fairness and Holevo information stability in quantum learning settings. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# 局所統計復号法:量子低密度パリティチェック符号の並列復号法
Localized statistics decoding: A parallel decoding algorithm for quantum low-density parity-check codes ( http://arxiv.org/abs/2406.18655v1 ) ライセンス: Link先を確認 | Timo Hillmann, Lucas Berent, Armanda O. Quintavalle, Jens Eisert, Robert Wille, Joschka Roffe, | (参考訳) 量子低密度パリティチェックコードは、表面コードに比べてオーバーヘッドが大幅に減少するフォールトトレラント量子コンピューティングの候補として期待できる。
しかし、実用的な復号アルゴリズムが欠如していることは、実装の障壁となっている。
本研究では、高並列化が可能で、任意の量子低密度パリティチェック符号に適用可能な信頼性誘導型インバージョンデコーダであるローカライズされた統計復号法を導入する。
提案手法では, 並列行列分解手法を用いて, 復号グラフ上の局所復号領域の同定, 検証, 解決を行う。
数値シミュレーションにより,ローカライズされた統計復号法は最先端デコーダの性能と一致し,サブスレッショルド方式における演算のランタイム複雑性を低減できることを示した。
重要なことは、当社のデコーダは特殊なハードウェアの実装に適しており、実験からリアルタイムシンドロームをデコードするための有望な候補として位置づけられている。
Quantum low-density parity-check codes are a promising candidate for fault-tolerant quantum computing with considerably reduced overhead compared to the surface code. However, the lack of a practical decoding algorithm remains a barrier to their implementation. In this work, we introduce localized statistics decoding, a reliability-guided inversion decoder that is highly parallelizable and applicable to arbitrary quantum low-density parity-check codes. Our approach employs a parallel matrix factorization strategy, which we call on-the-fly elimination, to identify, validate, and solve local decoding regions on the decoding graph. Through numerical simulations, we show that localized statistics decoding matches the performance of state-of-the-art decoders while reducing the runtime complexity for operation in the sub-threshold regime. Importantly, our decoder is more amenable to implementation on specialized hardware, positioning it as a promising candidate for decoding real-time syndromes from experiments. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# 局所的分別量子仮説試験におけるサンプル複雑度
Sample Complexity of Locally Differentially Private Quantum Hypothesis Testing ( http://arxiv.org/abs/2406.18658v1 ) ライセンス: Link先を確認 | Hao-Chung Cheng, Christoph Hirche, Cambyse Rouzé, | (参考訳) 量子状態の識別は多くの情報処理タスクにおいて重要な問題である。
この研究では、状態が局所的に微分プライベートである必要がある量子チャネルによって前処理されるとき、最も可能なサンプルの複雑さを見つけることに関心がある。
そのために、異なる設定に対して達成可能性と逆バウンダリを提供します。
これには、様々なレジームにおける対称状態の識別と非対称ケースが含まれる。
その過程では、一般の制約のない設定に対して、新しいサンプル複雑性境界が証明される。
この取り組みにおける重要なツールは、私たちが独立した関心を持つと信じている新しいエントロピーの不平等である。
Quantum state discrimination is an important problem in many information processing tasks. In this work we are concerned with finding its best possible sample complexity when the states are preprocessed by a quantum channel that is required to be locally differentially private. To that end we provide achievability and converse bounds for different settings. This includes symmetric state discrimination in various regimes and the asymmetric case. On the way, we also prove new sample complexity bounds for the general unconstrained setting. An important tool in this endeavor are new entropy inequalities that we believe to be of independent interest. | 翻訳日:2024-06-28 18:17:19 公開日:2024-06-26 |
# ナノエレクトロニクスを用いた量子センシング:断熱摂動のための魚情報
Quantum Sensing with Nanoelectronics: Fisher Information for an Adiabatic Perturbation ( http://arxiv.org/abs/2406.18662v1 ) ライセンス: Link先を確認 | George Mihailescu, Anthony Kiely, Andrew K. Mitchell, | (参考訳) メロジカルな量子系は、古典的な量子系よりも精度の高い量子系を提供することができる。
理想的な測定のためのパラメータ推定の精度を特徴付ける量子フィッシャー情報(QFI)を最大化することにより、量子センサの設計を最適化することができる。
ここでは、量子系の応答を、ゆっくりと切り替えられた外部摂動の強さを推定する手段として考える。
QFIの一般的な式は導出され、有限温度における熱力学限界における多体系の相互作用を保ち、線形応答輸送係数と関連付けることができる。
量子ドットナノエレクトロニクスデバイスでは、電子相互作用がQFIの指数的スケーリングとシステムサイズにつながり、量子資源をフルフォック空間で活用できることが示される。
電圧と磁場の精度推定は、電流のような実用的な大域的な測定によっても達成でき、量子回路は気象学的な応用に適している。
Quantum systems used for metrology can offer enhanced precision over their classical counterparts. The design of quantum sensors can be optimized by maximizing the quantum Fisher information (QFI), which characterizes the precision of parameter estimation for an ideal measurement. Here we consider the response of a quantum system as a means to estimate the strength of an external perturbation that has been switched on slowly. General expressions for the QFI are derived, which also hold for interacting many-body systems in the thermodynamic limit at finite temperatures, and can be related to linear-response transport coefficients. For quantum dot nanoelectronics devices, we show that electron interactions can lead to exponential scaling of the QFI with system size, highlighting that quantum resources can be utilized in the full Fock space. The precision estimation of voltages and fields can also be achieved by practical global measurements, such as the electric current, making quantum circuits good candidates for metrological applications. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# 言語モデルにおける著作権削除手法の評価
Evaluating Copyright Takedown Methods for Language Models ( http://arxiv.org/abs/2406.18664v1 ) ライセンス: Link先を確認 | Boyi Wei, Weijia Shi, Yangsibo Huang, Noah A. Smith, Chiyuan Zhang, Luke Zettlemoyer, Kai Li, Peter Henderson, | (参考訳) 言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
これらのモデルはトレーニングデータと同様のコンテンツを記憶し、生成することができ、潜在的な懸念を呈する。
そのため、モデル作成者は、保護されたコンテンツの生成を防ぐための緩和手法を開発する動機がある。
本稿では,本手法を,DMCAの取扱いと概念的類似性(ただし法的な相違)に言及し,本手法をLMの著作権取下げの実施可能性と副作用の最初の評価として紹介する。
本稿では,著作権削除手法の有効性を評価するための評価フレームワークであるCoTaEvalを提案する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
以上の結果から,テスト手法が全指標に及ばないことが示唆され,この独特な課題について研究する余地が示され,生活政策提案の未解決課題の可能性も示唆された。
Language models (LMs) derive their capabilities from extensive training on diverse data, including potentially copyrighted material. These models can memorize and generate content similar to their training data, posing potential concerns. Therefore, model creators are motivated to develop mitigation methods that prevent generating protected content. We term this procedure as copyright takedowns for LMs, noting the conceptual similarity to (but legal distinction from) the DMCA takedown This paper introduces the first evaluation of the feasibility and side effects of copyright takedowns for LMs. We propose CoTaEval, an evaluation framework to assess the effectiveness of copyright takedown methods, the impact on the model's ability to retain uncopyrightable factual knowledge from the training data whose recitation is embargoed, and how well the model maintains its general utility and efficiency. We examine several strategies, including adding system prompts, decoding-time filtering interventions, and unlearning approaches. Our findings indicate that no tested method excels across all metrics, showing significant room for research in this unique problem setting and indicating potential unresolved challenges for live policy proposals. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# RouteLLM: 優先度データによるLLMの経路学習
RouteLLM: Learning to Route LLMs with Preference Data ( http://arxiv.org/abs/2406.18665v1 ) ライセンス: Link先を確認 | Isaac Ong, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E. Gonzalez, M Waleed Kadous, Ion Stoica, | (参考訳) 大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択には、パフォーマンスとコストのトレードオフが伴うことが多い。
より強力なモデルは効果的ではあるが、高いコストが伴うが、能力の低いモデルはよりコスト効率が良い。
このジレンマに対処するため,提案手法では,コストと応答品質のバランスを最適化することを目的として,推論中に強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
評価の結果,提案手法は応答の質を損なうことなく,特定のケースで2倍以上のコスト削減を実現していることがわかった。
興味深いことに、我々のルータモデルは、テスト時に強いモデルと弱いモデルが変更されても、大きな転送学習能力を示し、その性能を維持します。
このことは、これらのルータがLCMをデプロイするためのコスト効率は高く、高性能なソリューションを提供する可能性を強調している。
Large language models (LLMs) exhibit impressive capabilities across a wide range of tasks, yet the choice of which model to use often involves a trade-off between performance and cost. More powerful models, though effective, come with higher expenses, while less capable models are more cost-effective. To address this dilemma, we propose several efficient router models that dynamically select between a stronger and a weaker LLM during inference, aiming to optimize the balance between cost and response quality. We develop a training framework for these routers leveraging human preference data and data augmentation techniques to enhance performance. Our evaluation on widely-recognized benchmarks shows that our approach significantly reduces costs-by over 2 times in certain cases-without compromising the quality of responses. Interestingly, our router models also demonstrate significant transfer learning capabilities, maintaining their performance even when the strong and weak models are changed at test time. This highlights the potential of these routers to provide a cost-effective yet high-performance solution for deploying LLMs. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# 量子アニールを用いた等質Bethe-Salpeter方程式の解法
Solving the homogeneous Bethe-Salpeter equation with a quantum annealer ( http://arxiv.org/abs/2406.18669v1 ) ライセンス: Link先を確認 | Filippo Fornetti, Alex Gnech, Francesco Pederiva, Matteo Rinaldi, Alessandro Roggero, Giovanni Salme', Sergio Scopetta, Michele Viviani, | (参考訳) 実相対論的量子場理論フレームワークにおける有界系を記述する同質Bethe-Salpeter方程式(hBSE)は、D-Wave量子アニールを用いて初めて解かれた。
離散化の標準的な手法を適用すると、はしご近似におけるhBSEは、一般化固有値問題(GEVP)において形式的に変換される。
後者の行列は、量子アニールを用いて非対称GEVPを調べるための適切な形式的アプローチを得る、すなわち2次非制約バイナリ最適化問題として再キャストする、という課題を提起する。
シミュレーション・アニーリング・パッケージとD-Wave Advantage 4.1システムの両方を用いて,64次元の行列に適用したアルゴリズムの広範な数値解析を行った。
計算結果は、標準的な古典的アルゴリズムで得られたものと非常によく似ており、また興味深い拡張性も示している。
The homogeneous Bethe-Salpeter equation (hBSE), describing a bound system in a genuinely relativistic quantum-field theory framework, was solved for the first time by using a D-Wave quantum annealer. After applying standard techniques of discretization, the hBSE, in ladder approximation, can be formally transformed in a generalized eigenvalue problem (GEVP), with two square matrices: one symmetric and the other non symmetric. The latter matrix poses the challenge of obtaining a suitable formal approach for investigating the non symmetric GEVP by means of a quantum annealer, i.e to recast it as a quadratic unconstrained binary optimization problem. A broad numerical analysis of the proposed algorithms, applied to matrices of dimension up to 64, was carried out by using both the proprietary simulated-anneaing package and the D-Wave Advantage 4.1 system. The numerical results very nicely compare with those obtained with standard classical algorithms, and also show interesting scalability features. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# 集合的位置データに基づくゼロ補助的知識メンバーシップ推論攻撃
A Zero Auxiliary Knowledge Membership Inference Attack on Aggregate Location Data ( http://arxiv.org/abs/2406.18671v1 ) ライセンス: Link先を確認 | Vincent Guan, Florent Guépin, Ana-Maria Cretu, Yves-Alexandre de Montjoye, | (参考訳) 位置情報は人口から頻繁に収集され、政策や意思決定を導くために集合形式で共有される。
しかし、集約されたデータの頻度は、メンバーシップ推論攻撃(MIA)のプライバシー上の懸念も引き起こす。
MIAは、個人のデータが集合的なリリースに寄与したかどうかを推測する。
位置データを集約するために有効なMIAが開発されたが、これらは類似の個体群から収集された同一位置上の個々のトレースの広範な補助的データセットにアクセスする必要がある。
この仮定は、位置情報を取り巻く一般的なプライバシー慣行を考えると、現実的ではないことが多い。
現実的な敵が行うMIAのリスクを測定するため、我々は、実際のトレースの補助的データセットを不要とした、最初のZero Auxiliary Knowledge (ZK) MIAを開発した。
代わりに、我々は、放出された集合体から適切な合成痕跡が生成されるような、新しい合成アプローチを開発する。
また, バイアスやノイズを補正する手法を開発し, プライバシメカニズムがリリース前に適用されている場合に, 合成攻撃が適用可能であることを示す。
2つの大規模ロケーションデータセットを用いて、我々のZK MIAが最先端のKnock-Knock(KK) MIAと幅広い設定で一致していることを示す。
さらに,ZK MIAは,相手の位置履歴のごく一部(10%)しか知らない場合でも有効であることを示す。
このことは、現実的な敵によって効果的なMIAが実行可能であることを示し、強いDP保護の必要性を強調している。
Location data is frequently collected from populations and shared in aggregate form to guide policy and decision making. However, the prevalence of aggregated data also raises the privacy concern of membership inference attacks (MIAs). MIAs infer whether an individual's data contributed to the aggregate release. Although effective MIAs have been developed for aggregate location data, these require access to an extensive auxiliary dataset of individual traces over the same locations, which are collected from a similar population. This assumption is often impractical given common privacy practices surrounding location data. To measure the risk of an MIA performed by a realistic adversary, we develop the first Zero Auxiliary Knowledge (ZK) MIA on aggregate location data, which eliminates the need for an auxiliary dataset of real individual traces. Instead, we develop a novel synthetic approach, such that suitable synthetic traces are generated from the released aggregate. We also develop methods to correct for bias and noise, to show that our synthetic-based attack is still applicable when privacy mechanisms are applied prior to release. Using two large-scale location datasets, we demonstrate that our ZK MIA matches the state-of-the-art Knock-Knock (KK) MIA across a wide range of settings, including popular implementations of differential privacy (DP) and suppression of small counts. Furthermore, we show that ZK MIA remains highly effective even when the adversary only knows a small fraction (10%) of their target's location history. This demonstrates that effective MIAs can be performed by realistic adversaries, highlighting the need for strong DP protection. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# 雑音,凸,ゼロ次最適化のための単純で改良されたアルゴリズム
A simple and improved algorithm for noisy, convex, zeroth-order optimisation ( http://arxiv.org/abs/2406.18672v1 ) ライセンス: Link先を確認 | Alexandra Carpentier, | (参考訳) 本稿では、有界凸集合$\bar{\mathcal X}\subset \mathbb{R}^d$ 上の関数 $f$ の雑音、凸、ゼロ次最適化の問題を考察する。
f(\hat x)$ が可能な限り小さいような点 $\hat x\in \bar{\mathcal X}$ を返すアルゴリズムを構築するのが目的です。
本稿では,重み付け方式の教科書中心に着想を得た概念的簡便な手法を提案する。
この方法は、$f(\hat x) - \min_{x\in \bar{\mathcal X}} f(x)$ が、多対数項まで$d^2/\sqrt{n}$ より小さい順序であることを証明する。
我々は既存の文献をわずかに改善し、最もよく知られたことは[Lattimore, 2024]の順に$d^{2.5}/\sqrt{n}$である。
しかし、我々の主な貢献は概念的であり、我々のアルゴリズムとその分析は、新しいアイデアをもたらし、既存のアプローチよりもはるかに単純であると考えている。
In this paper, we study the problem of noisy, convex, zeroth order optimisation of a function $f$ over a bounded convex set $\bar{\mathcal X}\subset \mathbb{R}^d$. Given a budget $n$ of noisy queries to the function $f$ that can be allocated sequentially and adaptively, our aim is to construct an algorithm that returns a point $\hat x\in \bar{\mathcal X}$ such that $f(\hat x)$ is as small as possible. We provide a conceptually simple method inspired by the textbook center of gravity method, but adapted to the noisy and zeroth order setting. We prove that this method is such that the $f(\hat x) - \min_{x\in \bar{\mathcal X}} f(x)$ is of smaller order than $d^2/\sqrt{n}$ up to poly-logarithmic terms. We slightly improve upon existing literature, where to the best of our knowledge the best known rate is in [Lattimore, 2024] is of order $d^{2.5}/\sqrt{n}$, albeit for a more challenging problem. Our main contribution is however conceptual, as we believe that our algorithm and its analysis bring novel ideas and are significantly simpler than existing approaches. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# 人間-AI協調型分類体系の構築--専門的な書記アシスタントを事例として
Human-AI Collaborative Taxonomy Construction: A Case Study in Profession-Specific Writing Assistants ( http://arxiv.org/abs/2406.18675v1 ) ライセンス: Link先を確認 | Minhwa Lee, Zae Myung Kim, Vivek A. Khetan, Dongyeop Kang, | (参考訳) LLM(Large Language Models)は、テキストのリビジョンやストーリー生成など、複数の作業において人間を支援する。
しかし、ドメイン固有の記述、特にビジネスコンテキストにおけるサポートの有効性は、比較的調査されていない。
業界専門家とのフォーマティブな研究により、このようなドメイン固有の文章のニュアンスに対する現在のLLMの理解の限界が明らかになった。
このギャップに対処するため、我々は、ドメイン固有書記アシスタントのガイドラインとして機能する人間-AI協調分類開発手法を提案する。
この手法は、ドメインの専門家からの反復的なフィードバックと、これらの専門家とLSM間の複数の相互作用を統合し、分類学を洗練させる。
大規模な実験を通じて、我々はこの方法論を検証し、LCMを活用した筆記支援を改善することを目指しており、異なる利害関係者のニーズのユニークな要件を満たすように調整している。
Large Language Models (LLMs) have assisted humans in several writing tasks, including text revision and story generation. However, their effectiveness in supporting domain-specific writing, particularly in business contexts, is relatively less explored. Our formative study with industry professionals revealed the limitations in current LLMs' understanding of the nuances in such domain-specific writing. To address this gap, we propose an approach of human-AI collaborative taxonomy development to perform as a guideline for domain-specific writing assistants. This method integrates iterative feedback from domain experts and multiple interactions between these experts and LLMs to refine the taxonomy. Through larger-scale experiments, we aim to validate this methodology and thus improve LLM-powered writing assistance, tailoring it to meet the unique requirements of different stakeholder needs. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# LLMが必要とするものを理解する: 再検索型生成のための二元選好アライメント
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.18676v1 ) ライセンス: Link先を確認 | Guanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen, | (参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)の幻覚問題を緩和する効果を実証している。
しかし,レトリバーと多様なLLMの知識嗜好を整合させることの難しさは,信頼性の高いRAGシステムを開発する上で必然的な課題となる。
本稿では,RAGシステム内での多様な知識嗜好の整合を図った汎用フレームワークであるDPA-RAGを提案する。
具体的には、まず、嗜好知識構築のピップラインを導入し、嗜好データの不足を軽減するために、5つの新しいクエリ拡張戦略を取り入れる。
嗜好データに基づいて、DPA-RAGは、外部と内部の両方の嗜好アライメントを達成する。
1) ペアワイド,ポイントワイド,コントラスト優先アライメント能力とリランカを併用し,RAG成分間の外部優先アライメントを実現する。
2)バニラ・スーパーバイザード・ファインチューニング(SFT)の前に事前整列ステージを導入し,LLMの内部アライメントを達成することにより,LLMが推論の好みに沿った知識を暗黙的に取得することを可能にする。
4つの知識集約型QAデータセットに対する実験結果から、DPA-RAGはすべてのベースラインを上回り、ブラックボックスとオープンソースLLMリーダの両方をシームレスに統合することを示した。
さらに質的な分析と議論は、信頼性の高いRAGシステムを実現するための実証的なガイダンスを提供する。
私たちのコードはhttps://github.com/dongguanting/DPA-RAG.comで公開されています。
Retrieval-augmented generation (RAG) has demonstrated effectiveness in mitigating the hallucination problem of large language models (LLMs). However, the difficulty of aligning the retriever with the diverse LLMs' knowledge preferences inevitably poses an inevitable challenge in developing a reliable RAG system. To address this issue, we propose DPA-RAG, a universal framework designed to align diverse knowledge preferences within RAG systems. Specifically, we initially introduce a preference knowledge construction pipline and incorporate five novel query augmentation strategies to alleviate preference data scarcity. Based on preference data, DPA-RAG accomplishes both external and internal preference alignment: 1) It jointly integrate pair-wise, point-wise, and contrastive preference alignment abilities into the reranker, achieving external preference alignment among RAG components. 2) It further introduces a pre-aligned stage before vanilla Supervised Fine-tuning (SFT), enabling LLMs to implicitly capture knowledge aligned with their reasoning preferences, achieving LLMs' internal alignment. Experimental results across four knowledge-intensive QA datasets demonstrate that DPA-RAG outperforms all baselines and seamlessly integrates both black-box and open-sourced LLM readers. Further qualitative analysis and discussions also provide empirical guidance for achieving reliable RAG systems. Our code is publicly available at https://github.com/dongguanting/DPA-RAG. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# 散乱ニュートリノ, スピンモデル, 置換
Scattering Neutrinos, Spin Models, and Permutations ( http://arxiv.org/abs/2406.18677v1 ) ライセンス: Link先を確認 | Duff Neill, Hanqing Liu, Joshua Martin, Alessandro Roggero, | (参考訳) 我々は、超新星におけるニュートリノ相互作用にインスパイアされたハイゼンベルク全結合スピンモデルのクラスを$N$自由度で考える。
これらのモデルは、古典的なハイゼンベルクのスピングラスモデルと区別して、N$、非自明な固有値に対してわずかしか存在しないという意味で比較的単純な結合行列によって特徴づけられる。
ニュートリノのモータが一様かつランダムな方向にあるとき、量子ハイゼンベルクモデルに対する大きなN$分割関数を計算することができる。
特に、高温分割関数は非ガウス的な状態密度を予測し、量子スピンモデルの状態密度に関する一般定理の極限を示す興味深い反例を与える。
古典的ハイゼンベルクモデル(ローターモデルとしても知られる)についても同様の議論を繰り返すことができ、高温膨張はカップリング行列の固有値によって完全に制御され、固有値の数が$N$で線形にスケールしない限り、状態の密度に対する非ガウス的挙動を予測できる。
実際、これらの \emph{thermodynamic} 分割関数は本質的に高温状態における置換を数えるための生成関数である、という面白い事実を導出する。
最後に、超新星におけるニュートリノに関連する場合、低温相は、そのコヒーレント状態をフレーバー空間で決定するニュートリノのモーメントロック状態の方向と一意な状態であると同定する。
We consider a class of Heisenberg all-to-all coupled spin models inspired by neutrino interactions in a supernova with $N$ degrees of freedom. These models are characterized by a coupling matrix that is relatively simple in the sense that there are only a few, relative to $N$, non-trivial eigenvalues, in distinction to the classic Heisenberg spin-glass models, leading to distinct behavior in both the high-temperature and low-temperature regimes. When the momenta of the neutrinos are uniform and random in directions, we can calculate the large-$N$ partition function for the quantum Heisenberg model. In particular, the high-temperature partition function predicts a non-Gaussian density of states, providing interesting counter-examples showing the limits of general theorems on the density of states for quantum spin models. We can repeat the same argument for classical Heisenberg models, also known as rotor models, and we find the high-temperature expansion is completely controlled by the eigenvalues of the coupling matrix, and again predicts non-Gaussian behavior for the density of states as long as the number of eigenvalues does not scale linearly with $N$. Indeed, we derive the amusing fact that these \emph{thermodynamic} partition functions are essentially the generating function for counting permutations in the high-temperature regime. Finally, for the case relevant to neutrinos in a supernova, we identify the low-temperature phase as a unique state with the direction of the momenta of the neutrino dictating its coherent state in flavor-space, a state we dub the "flavor-momentum-locked" state. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# ミスアライン応答を有するLDMのファインショットパーソナライズ
Few-shot Personalization of LLMs with Mis-aligned Responses ( http://arxiv.org/abs/2406.18678v1 ) ライセンス: Link先を確認 | Jaehyung Kim, Yiming Yang, | (参考訳) ユーザの多様性が増すにつれて、大規模言語モデル(LLM)によるパーソナライズされた応答を提供する能力がますます重要になっている。
既存のアプローチは、パーソナライズされた学習の欠如や、共有された個人データへの依存のため、LLMパーソナライズにおいて限られた成功しか得られない。
本稿では,LLMを不一致応答(Fermi)でパーソナライズするための新しいアプローチを提案する。
私たちのキーとなるアイデアは、ユーザプロファイル(例えば、人口統計情報)と、以前の意見のいくつかの例に基づいて、LSMを用いてプロンプトを段階的に改善することで、各ユーザのパーソナライズされたプロンプトの集合を学習することである。
即時改善の反復過程において,LLMの効果的なパーソナライズには特に重要な,LLMによる不整合応答の文脈を取り入れた。
さらに,テストクエリとパーソナライズされたプロンプトのコンテキストをさらに活用するための効果的な推論手法を開発した。
我々の実験結果から,Fermiは,性能のよいベースラインと比較して,様々なベンチマークにおける性能を著しく向上することが示された。
As the diversity of users increases, the capability of providing personalized responses by large language models (LLMs) has become increasingly important. Existing approaches have only limited successes in LLM personalization, due to the absence of personalized learning or the reliance on shared personal data. This paper proposes a new approach for a few-shot personalization of LLMs with their mis-aligned responses (Fermi). Our key idea is to learn a set of personalized prompts for each user by progressively improving the prompts using LLMs, based on user profile (e.g., demographic information) and a few examples of previous opinions. During an iterative process of prompt improvement, we incorporate the contexts of mis-aligned responses by LLMs, which are especially crucial for the effective personalization of LLMs. In addition, we develop an effective inference method to further leverage the context of the test query and the personalized prompts. Our experimental results demonstrate that Fermi significantly improves performance across various benchmarks, compared to the best-performing baselines. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# 埋め込み型話者:長期型ニューラルダイアリゼーションへの埋め込み不要アプローチ
Speakers Unembedded: Embedding-free Approach to Long-form Neural Diarization ( http://arxiv.org/abs/2406.18679v1 ) ライセンス: Link先を確認 | Xiang Li, Vivek Govindan, Rohit Paturi, Sundararajan Srinivasan, | (参考訳) エンドツーエンドのニューラルダイアリゼーション(EEND)モデルでは、従来の埋め込みベースの話者ダイアリゼーション(SD)アプローチよりも大幅に改善されている。
EEND-vector-clusteringメソッドは、ローカルEENDとローカルウィンドウからの話者埋め込みのグローバルクラスタリングを組み合わせることでこれを緩和するが、EENDモジュールと並行して追加の話者埋め込みフレームワークが必要である。
本稿では,話者埋め込みを別途行うことなく,EENDを局所的かつグローバルに長大な音声に適用する新しいフレームワークを提案する。
このアプローチは、コールホーム・アメリカン・イングリッシュとRT03-CTSデータセットにおける従来の1パスEENDよりも13%と10%の大幅な削減を実現し、追加の話者埋め込みを必要としないEEND-vector-clusteringに対する限界改善を実現している。
さらに,提案するフレームワークの計算複雑性について考察し,処理時間を短縮するための戦略を検討する。
End-to-end neural diarization (EEND) models offer significant improvements over traditional embedding-based Speaker Diarization (SD) approaches but falls short on generalizing to long-form audio with large number of speakers. EEND-vector-clustering method mitigates this by combining local EEND with global clustering of speaker embeddings from local windows, but this requires an additional speaker embedding framework alongside the EEND module. In this paper, we propose a novel framework applying EEND both locally and globally for long-form audio without separate speaker embeddings. This approach achieves significant relative DER reduction of 13% and 10% over the conventional 1-pass EEND on Callhome American English and RT03-CTS datasets respectively and marginal improvements over EEND-vector-clustering without the need for additional speaker embeddings. Furthermore, we discuss the computational complexity of our proposed framework and explore strategies for reducing processing times. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# 多言語アライメントプリズム:ハーム低減のためのグローバルおよびローカルな選好の調整
The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm ( http://arxiv.org/abs/2406.18682v1 ) ライセンス: Link先を確認 | Aakanksha, Arash Ahmadian, Beyza Ermis, Seraphina Goldfarb-Tarrant, Julia Kreutzer, Marzieh Fadaee, Sara Hooker, | (参考訳) アライメント」の概念に関する重要な関心事は、「アライメントとは何か?」という暗黙の疑問である。
AIシステムは世界中でますます使われていますが、安全アライメントは均質なモノリンガル設定に重点を置いています。
さらに、好みのトレーニングや安全対策は、西洋中心のデータセットに共通する害に対して過度に適合することが多い。
ここでは,両目的のバランスをとる際の異なるアライメントアプローチの実現可能性について考察する。グローバルとローカルの両方の害を最小限に抑えつつ,同種でない言語や文化的な嗜好に対処し,最適化する。
我々は、グローバルとローカルの害を区別する異なる言語で、人間の注釈付きレッドチームプロンプトの最初のセットを収集し、地理的・言語にまたがる非定常的な好み分布に直面した際のアライメント手法の信頼性を理解する実験室として機能する。
この設定は、主に英語の害軽減に焦点を当てた、これまでの文献ではほとんどカバーされていないが、世界中のAIシステムとの現実世界のインタラクションを捉えている。
汎用性能の低下を最小限に抑えた6言語にまたがる最先端アライメント手法の新たな先例を確立した。
我々の研究は、グローバルな人口に対応するように設計されたAIシステムを保護するために、言語間移動と新しい最適化アプローチに関する重要な洞察を提供する。
A key concern with the concept of "alignment" is the implicit question of "alignment to what?". AI systems are increasingly used across the world, yet safety alignment is often focused on homogeneous monolingual settings. Additionally, preference training and safety measures often overfit to harms common in Western-centric datasets. Here, we explore the viability of different alignment approaches when balancing dual objectives: addressing and optimizing for a non-homogeneous set of languages and cultural preferences while minimizing both global and local harms. We collect the first set of human annotated red-teaming prompts in different languages distinguishing between global and local harm, which serve as a laboratory for understanding the reliability of alignment techniques when faced with preference distributions that are non-stationary across geographies and languages. While this setting is seldom covered by the literature to date, which primarily centers on English harm mitigation, it captures real-world interactions with AI systems around the world. We establish a new precedent for state-of-the-art alignment techniques across 6 languages with minimal degradation in general performance. Our work provides important insights into cross-lingual transfer and novel optimization approaches to safeguard AI systems designed to serve global populations. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# CSI4Free: ポース分類改善のためのGAN強化mmWave CSI
CSI4Free: GAN-Augmented mmWave CSI for Improved Pose Classification ( http://arxiv.org/abs/2406.18684v1 ) ライセンス: Link先を確認 | Nabeel Nisar Bhat, Rafael Berkvens Jeroen Famaey, | (参考訳) 近年、JC&S(Joint Communication and Sensing)は、特に、ローカライゼーション、ジェスチャー認識、ポーズ分類などの用途に、商用オフ・ザ・シェルフ(COTS)のWi-Fiデバイスを用いたサブ6GHzの周波数の利用において、大きな成功を収めている。
ディープラーニングと大規模な公開データセットの存在は、このような結果を達成する上で重要な役割を担っている。
しかし、より正確なセンシング性能を示すミリ波周波数(30-300GHz)では、COTS Wi-Fiセンシングの分野では顕著な研究の欠如がある。
研究ハードウェアの制限、大規模なデータセットの欠如、COTSハードウェアの機能の制限、データ収集の複雑さといった課題は、この分野を包括的に探究するための障害となっている。
本研究では,合成ミリ波チャネル状態情報(CSI)を生成できる手法を開発することにより,これらの課題に対処することを目的とする。
特に,既存のデータセット上にGAN(Generative Adversarial Network)を使用して,3万以上のCSIサンプルを生成する。
GAN-trainとGAN-testスコアで示されるように、強化されたサンプルは元のデータと顕著な整合性を示す。
さらに、ポーズ分類モデルのトレーニングに強化サンプルを統合する。
拡張サンプルが実際のデータを補完し、分類モデルの一般化を改善することを観察する。
In recent years, Joint Communication and Sensing (JC&S), has demonstrated significant success, particularly in utilizing sub-6 GHz frequencies with commercial-off-the-shelf (COTS) Wi-Fi devices for applications such as localization, gesture recognition, and pose classification. Deep learning and the existence of large public datasets has been pivotal in achieving such results. However, at mmWave frequencies (30-300 GHz), which has shown potential for more accurate sensing performance, there is a noticeable lack of research in the domain of COTS Wi-Fi sensing. Challenges such as limited research hardware, the absence of large datasets, limited functionality in COTS hardware, and the complexities of data collection present obstacles to a comprehensive exploration of this field. In this work, we aim to address these challenges by developing a method that can generate synthetic mmWave channel state information (CSI) samples. In particular, we use a generative adversarial network (GAN) on an existing dataset, to generate 30,000 additional CSI samples. The augmented samples exhibit a remarkable degree of consistency with the original data, as indicated by the notably high GAN-train and GAN-test scores. Furthermore, we integrate the augmented samples in training a pose classification model. We observe that the augmented samples complement the real data and improve the generalization of the classification model. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# Petal-X:心血管のリスクコミュニケーションを改善する人中心のビジュアル説明
Petal-X: Human-Centered Visual Explanations to Improve Cardiovascular Risk Communication ( http://arxiv.org/abs/2406.18690v1 ) ライセンス: Link先を確認 | Diego Rojo, Houda Lamqaddam, Lucija Gosak, Katrien Verbert, | (参考訳) 世界中の死因である心血管疾患(CVD)は、ほとんどの場合、行動介入によって予防できる。
したがって、CVDリスクの効果的なコミュニケーションとリスクファクター修正による予測リスク低減は、個人レベルでのCVDリスクの低減に重要な役割を果たす。
しかし、SCORE2などの予測モデルの改善によるリスク推定の精細化への関心にもかかわらず、これらのリスク推定を臨床実践に提示するためのガイドラインは、ここ数年は基本的に変化せず、グラフィカルスコアチャート(GSCs)は一般的なシステムの一つであり続けている。
本研究は,様々な要因のCVDリスクコントリビューションを解説し,その分析を容易にすることによって,臨床医が共有する意思決定を支援する新しいツールであるPetal-Xの設計と実装について述べる。
Petal-Xは、新しいビジュアライゼーション、Petal Product Plots、そしてSCORE2のテーラーメイドのグローバルサロゲートモデルに依存している。
介護学生88名を対象に,GSCと比較してPetal-Xの評価を行った。
その結果、Petal-Xは、患者が変更可能なリスクファクターの10年間のCVDリスクに対する貢献を、透明性、信頼、使用意図を著しく損なうことなく比較するなど、重要なタスクにおいてGSCよりも優れていた。
本研究は、そのモデルに依存しない性質により、次世代人工知能リスク評価モデルをサポートし続けることができる臨床実践におけるリスクの可視化と説明に革新的なアプローチを提供する。
Cardiovascular diseases (CVDs), the leading cause of death worldwide, can be prevented in most cases through behavioral interventions. Therefore, effective communication of CVD risk and projected risk reduction by risk factor modification plays a crucial role in reducing CVD risk at the individual level. However, despite interest in refining risk estimation with improved prediction models such as SCORE2, the guidelines for presenting these risk estimations in clinical practice remained essentially unchanged in the last few years, with graphical score charts (GSCs) continuing to be one of the prevalent systems. This work describes the design and implementation of Petal-X, a novel tool to support clinician-patient shared decision-making by explaining the CVD risk contributions of different factors and facilitating what-if analysis. Petal-X relies on a novel visualization, Petal Product Plots, and a tailor-made global surrogate model of SCORE2, whose fidelity is comparable to that of the GSCs used in clinical practice. We evaluated Petal-X compared to GSCs in a controlled experiment with 88 healthcare students, all but one with experience with chronic patients. The results show that Petal-X outperforms GSC in critical tasks, such as comparing the contribution to the patient's 10-year CVD risk of each modifiable risk factor, without a significant loss of perceived transparency, trust, or intent to use. Our study provides an innovative approach to the visualization and explanation of risk in clinical practice that, due to its model-agnostic nature, could continue to support next-generation artificial intelligence risk assessment models. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# 人-物体相互作用検出における幾何学的特徴
Geometric Features Enhanced Human-Object Interaction Detection ( http://arxiv.org/abs/2406.18691v1 ) ライセンス: Link先を確認 | Manli Zhu, Edmond S. L. Ho, Shuang Chen, Longzhi Yang, Hubert P. H. Shum, | (参考訳) カメラは、パターン検出と測定のために画像をキャプチャするために必要な視覚機器である。
ヒト・オブジェクト・インタラクション(HOI)検出は、キャプチャされた人間中心の視覚シーンにおいて最も一般的なパターン検出手法の1つである。
近年,トランスフォーマーをベースとしたモデルが,先進的なネットワークアーキテクチャによりHOI検出の主流となっている。
しかし、そのほとんどはバニラ変圧器の一段設計を踏襲しており、豊富な幾何学的先駆体が露出しておらず、特に閉塞が起こると性能が損なわれる。
幾何学的特徴が視覚的特徴よりも優れ,視覚的手がかりを補完する情報を提供する傾向があることを考慮し,幾何学的特徴強化HOI検出器(GeoHOI)と呼ばれる,新しいエンドツーエンドの変換器型HOI検出モデルを提案する。
このモデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法であり、それは、人間を含むさまざまなオブジェクトカテゴリで一貫したキーポイント表現のギャップを埋めるものである。
GeoHOIは、TransformerベースのHOI検出器を効果的にアップグレードし、人間とオブジェクトの相互作用の可能性を測定するキーポイント類似性、およびローカルキーポイントパッチを使用してインタラクションクエリ表現を強化し、HOI予測を向上する。
実験の結果,提案手法はV-COCO上での最先端モデルよりも優れ,HICO-DET上での競合性能を実現していることがわかった。
視覚系機器を用いた災害後救助の事例研究は、提案したGeoHOIを現実の応用に適用可能であることを示す。
Cameras are essential vision instruments to capture images for pattern detection and measurement. Human-object interaction (HOI) detection is one of the most popular pattern detection approaches for captured human-centric visual scenes. Recently, Transformer-based models have become the dominant approach for HOI detection due to their advanced network architectures and thus promising results. However, most of them follow the one-stage design of vanilla Transformer, leaving rich geometric priors under-exploited and leading to compromised performance especially when occlusion occurs. Given that geometric features tend to outperform visual ones in occluded scenarios and offer information that complements visual cues, we propose a novel end-to-end Transformer-style HOI detection model, i.e., geometric features enhanced HOI detector (GeoHOI). One key part of the model is a new unified self-supervised keypoint learning method named UniPointNet that bridges the gap of consistent keypoint representation across diverse object categories, including humans. GeoHOI effectively upgrades a Transformer-based HOI detector benefiting from the keypoints similarities measuring the likelihood of human-object interactions as well as local keypoint patches to enhance interaction query representation, so as to boost HOI predictions. Extensive experiments show that the proposed method outperforms the state-of-the-art models on V-COCO and achieves competitive performance on HICO-DET. Case study results on the post-disaster rescue with vision-based instruments showcase the applicability of the proposed GeoHOI in real-world applications. | 翻訳日:2024-06-28 18:07:31 公開日:2024-06-26 |
# 光物質量子系における最適制御による雑音低減
Noise reduction via optimal control in a light-matter quantum system ( http://arxiv.org/abs/2406.18693v1 ) ライセンス: Link先を確認 | Francisco Albarrán-Arriagada, Guillermo Romero, Enrique Solano, Juan Carlos Retamal, | (参考訳) ショットノイズ限界以下での量子ノイズの低減は、光とマッターの量子相互作用の兆候である。
ハーモニックモードと共鳴的に相互作用する2レベル系の過渡進化に沿って、限られた量のスクイーズが得られる。
本稿では,Jaynes-Cummingsモデルにより記述されたシステムにおいて,高調波モードにおける過渡雑音低減のための2レベルシステムに対する最適量子制御法を提案する。
具体的には、所定の時間窓にガウスパルス列を適用することを提案する。
パルス時間の正しい選択は、ショットノイズのかなり下方にある二次場モードのノイズを低減し、80$\%以上にまで低減できることがわかった。
Jaynes-Cummingsモデルでは、中心的な光マター量子系を記述しているため、ノイズ低減のための我々のアプローチは、現在の技術による非自明な量のスクイーズを生成するための実験的に実現可能なプロトコルを提供する。
Quantum noise reduction below the shot noise limit is a signature of light-matter quantum interaction. A limited amount of squeezing can be obtained along the transient evolution of a two-level system resonantly interacting with a harmonic mode. We propose the use of optimal quantum control over the two-level system to enhance the transient noise reduction in the harmonic mode in a system described by the Jaynes-Cummings model. Specifically, we propose the use of a sequence of Gaussian pulses in a given time window. We find that the correct choice of pulse times can reduce the noise in the quadrature field mode well below the shot noise, reaching reductions of over 80$\%$. As the Jaynes-Cummings model describes a pivotal light-matter quantum system, our approach for noise reduction provides an experimentally feasible protocol to produce a non-trivial amount of squeezing with current technology. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# 熱浴中における圧縮状態の非線形生成の解析解
Analytic solution to the nonlinear generation of squeezed states in a thermal bath ( http://arxiv.org/abs/2406.18694v1 ) ライセンス: Link先を確認 | Paul R. B. Hughes, Marc M. Dignam, | (参考訳) 我々は、リンドブラッドマスター方程式を用いて、熱浴の存在下での損失光学キャビティにおける圧縮状態の生成をモデル化した。
ここでは, 熱光子の損失と熱浴から生じる熱状態が, 厳密な解であることを示す。
共振器内におけるパルス縮退自発パラメトリックダウン変換から生じる二次不確かさの進化に対する正確な閉形式解を導出する。
この解を異なるポンプ条件下で適用し、熱環境が2次コヒーレンス関数と同様に2次スクイーズをいかに低減するかを詳細に示す。
We model squeezed state generation in a lossy optical cavity in the presence of a thermal bath using the Lindblad master equation. We show that the exact solution is a squeezed thermal state, where thermal photons arise both from loss and from the thermal bath. We derive an exact, closed-form solution for the evolution of the quadrature uncertainty arising from pulsed degenerate spontaneous parametric down conversion in the cavity. We apply this solution under different pump conditions and show in detail how the thermal environment reduces quadrature squeezing as well as the second order coherence function. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# ブラックボックスLLMによるQA推論の精度向上
Learning to Correct for QA Reasoning with Black-box LLMs ( http://arxiv.org/abs/2406.18695v1 ) ライセンス: Link先を確認 | Jaehyung Kim, Dongyoung Kim, Yiming Yang, | (参考訳) 最近の機械学習におけるオープンな課題は、大規模な言語モデル(LLM)のブラックボックス設定における推論能力、すなわち出力トークン確率のような詳細な情報にアクセスすることなく改善する方法である。
既存のアプローチはアクセシビリティ(多くの場合非現実的)に依存しているか、列車と推論時間のコストが大幅に増加するかのどちらかである。
本稿は,COBB (Correct for improve QA reasoning of Black-Box LLMs) という新しいアプローチを提案することによって,これらの制限や欠点に対処する。
トレーニングされた適応モデルを使用して、オリジナルのブラックボックスLSMのしばしば不完全な推論から正しい推論、または改善された推論へのセック2seqマッピングを実行する。
具体的には、適応モデルは比較的小さなオープンソース LLM で初期化され、サブサンプルのトレーニングペアのコレクションに適応する。
正誤推論の代表的なペアを選択するために、サンプルサブセットとコレクション全体の統計的ばらつきを最小限に抑える最適化問題としてデータセット構築を定式化し、遺伝的アルゴリズムを用いて解決した。
次に、正しい推論と誤った推論の可能性を対比して、サンプルペアよりも適応モデルを訓練する。
実験の結果, CoBB は, 最適適応ベースラインと比較して, 各種QA ベンチマークにおける推論精度を著しく向上することが示された。
An open challenge in recent machine learning is about how to improve the reasoning capability of large language models (LLMs) in a black-box setting, i.e., without access to detailed information such as output token probabilities. Existing approaches either rely on accessibility (which is often unrealistic) or involve significantly increased train- and inference-time costs. This paper addresses those limitations or shortcomings by proposing a novel approach, namely CoBB (Correct for improving QA reasoning of Black-Box LLMs). It uses a trained adaptation model to perform a seq2seq mapping from the often-imperfect reasonings of the original black-box LLM to the correct or improved reasonings. Specifically, the adaptation model is initialized with a relatively small open-source LLM and adapted over a collection of sub-sampled training pairs. To select the representative pairs of correct and incorrect reasonings, we formulated the dataset construction as an optimization problem that minimizes the statistical divergence between the sampled subset and the entire collection, and solved it via a genetic algorithm. We then train the adaptation model over the sampled pairs by contrasting the likelihoods of correct and incorrect reasonings. Our experimental results demonstrate that CoBB significantly improves reasoning accuracy across various QA benchmarks, compared to the best-performing adaptation baselines. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# オンライン議論分析のためのシーケンスグラフネットワーク
Sequence Graph Network for Online Debate Analysis ( http://arxiv.org/abs/2406.18696v1 ) ライセンス: Link先を確認 | Quan Mai, Susan Gauch, Douglas Adams, Miaoqing Huang, | (参考訳) オンラインの議論には時間とともにアイデアの動的交換が含まれており、参加者は相手の議論を積極的に検討し、反論に反応し、自身のポイントを強化し、議論が広がるにつれてより説得力のある議論を導入する必要がある。
このような複雑なプロセスのモデリングは、シーケンシャルな特性と相互作用を効果的に捉える能力の両方を組み込む必要があるため、単純なタスクではない。
この課題に対処するために、シーケンシャルグラフアプローチを用いる。
グラフとして会話を構築することで、有向エッジを通じて参加者間のインタラクションを効果的にモデル化することができます。
同時に、これらのエッジに沿って情報を逐次的に伝播することで、より包括的なコンテキスト表現をキャプチャすることができる。
また、提案した情報更新方式を説明するために、Sequence Graph Attention Layerを導入している。
実験の結果,オンライン討論において,シーケンスグラフネットワークは既存の手法よりも優れた結果が得られることが示された。
Online debates involve a dynamic exchange of ideas over time, where participants need to actively consider their opponents' arguments, respond with counterarguments, reinforce their own points, and introduce more compelling arguments as the discussion unfolds. Modeling such a complex process is not a simple task, as it necessitates the incorporation of both sequential characteristics and the capability to capture interactions effectively. To address this challenge, we employ a sequence-graph approach. Building the conversation as a graph allows us to effectively model interactions between participants through directed edges. Simultaneously, the propagation of information along these edges in a sequential manner enables us to capture a more comprehensive representation of context. We also introduce a Sequence Graph Attention layer to illustrate the proposed information update scheme. The experimental results show that sequence graph networks achieve superior results to existing methods in online debates. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# Fast Optimizer Benchmark
Fast Optimizer Benchmark ( http://arxiv.org/abs/2406.18701v1 ) ライセンス: Link先を確認 | Simon Blauth, Tobias Bürger, Zacharias Häringer, Jörg Franke, Frank Hutter, | (参考訳) 本稿では,Fast Optimizer Benchmark(FOB)について述べる。
このベンチマークは、コンピュータビジョン、自然言語処理、グラフ学習などの複数のドメインからのタスクをサポートする。
人間の読みやすいYAML構成、SLURM統合、プロットユーティリティなど、便利な使用方法に重点を置いている。
FOBは既存のハイパーパラメータ最適化(HPO)ツールと併用して、トレーニングと実行再開を処理できる。
モジュール化された設計は、単にタスクのコレクションとして使うだけで、カスタムパイプラインへの統合を可能にする。
ツールの使用例として,オプティマイザ比較を紹介する。
FOBはGitHubのhttps://github.com/automl/FOB.comで公開されている。
In this paper, we present the Fast Optimizer Benchmark (FOB), a tool designed for evaluating deep learning optimizers during their development. The benchmark supports tasks from multiple domains such as computer vision, natural language processing, and graph learning. The focus is on convenient usage, featuring human-readable YAML configurations, SLURM integration, and plotting utilities. FOB can be used together with existing hyperparameter optimization (HPO) tools as it handles training and resuming of runs. The modular design enables integration into custom pipelines, using it simply as a collection of tasks. We showcase an optimizer comparison as a usage example of our tool. FOB can be found on GitHub: https://github.com/automl/FOB. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# 上院のシミュレーション: 立法行動と二党主義をモデル化するための LLM-Driven Agent アプローチ
Simulating The U.S. Senate: An LLM-Driven Agent Approach to Modeling Legislative Behavior and Bipartisanship ( http://arxiv.org/abs/2406.18702v1 ) ライセンス: Link先を確認 | Zachary R. Baker, Zarif L. Azher, | (参考訳) 本研究は,米国上院情報委員会に焦点をあて,LSMによる仮想エージェントを用いた立法プロセスをシミュレーションするための新しいアプローチを紹介する。
我々は、各議員を代表するエージェントを開発し、シミュレートされた委員会ディスカッションに配置した。
エージェントは現実的な議論を行い、思慮深いリフレクションを提供し、特定の条件下で双党派の解決策を見つける能力を示した。
特に、シミュレーションは、外部の摂動に応答して、両党派へのモデリングシフトを約束している。
以上の結果から, LLMをベースとしたエージェントが現実現象のモデル化に有効であることを示す, より広範な知見のパターンを裏付ける, 立法プロセスの理解と改善のための貴重なツールとなる可能性が示唆された。
今後の作業は,エージェントの複雑性の向上,シミュレーション範囲の拡大,ポリシテストとネゴシエーションの応用を探求することに集中する。
This study introduces a novel approach to simulating legislative processes using LLM-driven virtual agents, focusing on the U.S. Senate Intelligence Committee. We developed agents representing individual senators and placed them in simulated committee discussions. The agents demonstrated the ability to engage in realistic debate, provide thoughtful reflections, and find bipartisan solutions under certain conditions. Notably, the simulation also showed promise in modeling shifts towards bipartisanship in response to external perturbations. Our results indicate that this LLM-driven approach could become a valuable tool for understanding and potentially improving legislative processes, supporting a broader pattern of findings highlighting how LLM-based agents can usefully model real-world phenomena. Future works will focus on enhancing agent complexity, expanding the simulation scope, and exploring applications in policy testing and negotiation. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# 学ぶか、残すか:継続的な学習のためのモジュール構成とプルーニング
Learn it or Leave it: Module Composition and Pruning for Continual Learning ( http://arxiv.org/abs/2406.18708v1 ) ライセンス: Link先を確認 | Mingyang Wang, Heike Adel, Lukas Lange, Jannik Strötgen, Hinrich Schütze, | (参考訳) 現実の環境では、機械学習モデルには継続的学習が不可欠である。
事前訓練された言語モデルは、様々な静的タスクにおいて印象的な能力を示してきたが、連続的な学習に適用することは、破滅的な忘れの回避、知識伝達の促進、パラメータ効率の維持など、重大な課題を生んでいる。
本稿では,これらの課題に同時に対処する軽量連続学習手法であるMoCL-Pを紹介する。
新しいタスクのパラメータを継続的に拡張する従来のアプローチとは異なり、MoCL-Pはタスク表現誘導モジュール合成と適応的なプルーニングを統合し、知識統合と計算オーバーヘッドを効果的にバランスさせる。
最大176タスクからなる3つの連続学習ベンチマークによる評価の結果、MoCL-Pは最先端性能を実現し、パラメータ効率を最大3倍改善し、リソース要求が制約された実用的なアプリケーションの可能性を示した。
In real-world environments, continual learning is essential for machine learning models, as they need to acquire new knowledge incrementally without forgetting what they have already learned. While pretrained language models have shown impressive capabilities on various static tasks, applying them to continual learning poses significant challenges, including avoiding catastrophic forgetting, facilitating knowledge transfer, and maintaining parameter efficiency. In this paper, we introduce MoCL-P, a novel lightweight continual learning method that addresses these challenges simultaneously. Unlike traditional approaches that continuously expand parameters for newly arriving tasks, MoCL-P integrates task representation-guided module composition with adaptive pruning, effectively balancing knowledge integration and computational overhead. Our evaluation across three continual learning benchmarks with up to 176 tasks shows that MoCL-P achieves state-of-the-art performance and improves parameter efficiency by up to three times, demonstrating its potential for practical applications where resource requirements are constrained. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# SpY: 宇宙機コンポーネント検出のためのコンテキストベースアプローチ
SpY: A Context-Based Approach to Spacecraft Component Detection ( http://arxiv.org/abs/2406.18709v1 ) ライセンス: Link先を確認 | Trupti Mahendrakar, Ryan T. White, Madhur Tiwari, | (参考訳) 本稿では, 無人軌道サービス(OOS)とアクティブデブリ除去を支援するために, カメラフィードを用いた未知の宇宙物体(RSO)のソーラーパネル, ボディーパネル, アンテナ, スラスタなどの部品を自律的に特徴付けることに焦点を当てる。
この領域では畳み込みニューラルネットワーク(CNN)を用いて重要な研究が行われている。
CNNはパターンを学習し、オブジェクト検出を行うのに優れていますが、トレーニングデータとは異なる環境で検出や誤分類を見逃すことに苦労しています。
加えて、CNNが示す失敗は、常識的推論と文脈的知識を使用して、人間が容易に修正できる。
このような推論を物体検出器に埋め込むことで、検出精度が向上する可能性がある。
この仮説を検証するために,従来のコンピュータビジョン技術を用いてコンテキスト知識を取り入れつつ,CNNの一般化性を活用する,SpaceYOLOv2(SpY)と呼ばれるエンドツーエンドオブジェクト検出器を提案する。
SpYは、形状検出器とSpaceYOLO分類器(SYC)の2つの主要コンポーネントで構成されている。
形状検出器はCNNを用いてRSOの原始的な形状を検知し、SYCはこれらの形状を色やテクスチャなどの文脈的知識と関連付け、検出された形状が不確かであれば宇宙船の構成要素や「未知」として分類する。
SpYのモジュラーアーキテクチャは、検出性能を改善するためにコンテキスト知識をカスタマイズすることができる。
モックアップ宇宙船のハードウェア・イン・ザ・ループ画像の性能評価は、SpYが正確であることを示し、衛星部品検出のために訓練されたYOLOv5とSpYのアンサンブルにより、リコール時の性能が23.4%向上し、視覚ベースのナビゲーションタスクの安全性が向上したことを示している。
This paper focuses on autonomously characterizing components such as solar panels, body panels, antennas, and thrusters of an unknown resident space object (RSO) using camera feed to aid autonomous on-orbit servicing (OOS) and active debris removal. Significant research has been conducted in this area using convolutional neural networks (CNNs). While CNNs are powerful at learning patterns and performing object detection, they struggle with missed detections and misclassifications in environments different from the training data, making them unreliable for safety in high-stakes missions like OOS. Additionally, failures exhibited by CNNs are often easily rectifiable by humans using commonsense reasoning and contextual knowledge. Embedding such reasoning in an object detector could improve detection accuracy. To validate this hypothesis, this paper presents an end-to-end object detector called SpaceYOLOv2 (SpY), which leverages the generalizability of CNNs while incorporating contextual knowledge using traditional computer vision techniques. SpY consists of two main components: a shape detector and the SpaceYOLO classifier (SYC). The shape detector uses CNNs to detect primitive shapes of RSOs and SYC associates these shapes with contextual knowledge, such as color and texture, to classify them as spacecraft components or "unknown" if the detected shape is uncertain. SpY's modular architecture allows customizable usage of contextual knowledge to improve detection performance, or SYC as a secondary fail-safe classifier with an existing spacecraft component detector. Performance evaluations on hardware-in-the-loop images of a mock-up spacecraft demonstrate that SpY is accurate and an ensemble of SpY with YOLOv5 trained for satellite component detection improved the performance by 23.4% in recall, demonstrating enhanced safety for vision-based navigation tasks. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# Casual Monocular Videoの新しいビュー合成のための動的ガウス大理石
Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos ( http://arxiv.org/abs/2406.18717v1 ) ライセンス: Link先を確認 | Colton Stearns, Adam Harley, Mikaela Uy, Florian Dubost, Federico Tombari, Gordon Wetzstein, Leonidas Guibas, | (参考訳) ガウスのスプラッティングは、効率性、光度品質、組成順応性の明確な強みを示すノベルビュー合成の一般的な表現となっている。
成功の後、多くの作品がガウスを4Dに拡張し、ダイナミックガウスがこれらの利点を維持しつつ、シーン幾何学を代替表現よりもはるかに良く追跡していることを示した。
しかし、これらの手法は、密集した多視点映像を監視対象としており、キャプチャ設定の制御に使用を制限している。
本研究では,ガウスシーン表現の能力を,カジュアルに捉えたモノクロビデオに拡張する。
既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。
そこで本研究では,DGマーブル (Dynamic Gaussian Marbles, DGマーブル) を提案する。
まず、DGMarblesは等方的ガウスの「大理石」を使い、各ガウスの自由度を減らし、局所的な形状よりも動きや外観に焦点を合わせるよう最適化を制約する。
第二に、DGMarblesは階層的な分母学習戦略を用いて、コヒーレントな動きを持つ解への最適化を導く。
最後に、DGMarblesは、最近のポイントトラッキングの進歩を生かしたトラッキング損失を含む、画像レベルと幾何学レベルの優先順位を最適化に追加する。
これらの方法で最適化を制約することにより、DGMarblesは、新しいビューレンダリングを可能にし、シーン要素の3Dモーションを正確にキャプチャするガウス軌跡を学習する。
DGMarblesはガウス的でない表現と同等であり,効率,構成性,編集性,およびガウス的メリットの維持を両立している。
Gaussian splatting has become a popular representation for novel-view synthesis, exhibiting clear strengths in efficiency, photometric quality, and compositional edibility. Following its success, many works have extended Gaussians to 4D, showing that dynamic Gaussians maintain these benefits while also tracking scene geometry far better than alternative representations. Yet, these methods assume dense multi-view videos as supervision, constraining their use to controlled capture settings. In this work, we extend the capability of Gaussian scene representations to casually captured monocular videos. We show that existing 4D Gaussian methods dramatically fail in this setup because the monocular setting is underconstrained. Building off this finding, we propose Dynamic Gaussian Marbles (DGMarbles), consisting of three core modifications that target the difficulties of the monocular setting. First, DGMarbles uses isotropic Gaussian "marbles", reducing the degrees of freedom of each Gaussian, and constraining the optimization to focus on motion and appearance over local shape. Second, DGMarbles employs a hierarchical divide-and-conquer learning strategy to guide the optimization towards solutions with coherent motion. Finally, DGMarbles adds image-level and geometry-level priors into the optimization, including a tracking loss that takes advantage of recent progress in point tracking. By constraining the optimization in these ways, DGMarbles learns Gaussian trajectories that enable novel-view rendering and accurately capture the 3D motion of the scene elements. We evaluate on the (monocular) Nvidia Dynamic Scenes dataset and the Dycheck iPhone dataset, and show that DGMarbles significantly outperforms other Gaussian baselines in quality, and is on-par with non-Gaussian representations, all while maintaining the efficiency, compositionality, editability, and tracking benefits of Gaussians. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# 強結合極限における格子QCDの量子計算資源
Quantum computational resources for lattice QCD in the strong-coupling limit ( http://arxiv.org/abs/2406.18721v1 ) ライセンス: Link先を確認 | Michael Fromm, Lucas Katschke, Owe Philipsen, Wolfgang Unger, | (参考訳) 格子QCDと無質量のスタガークォークとの強い結合限界を考察し、そのハミルトンの定式化で理論をシミュレートする量子の資源要求について検討する。
自由度自由度のボソニックヒルベルト空間はクォークのフレーバーの数によって急速に成長し、異なるプラットフォームにおける資源の考察に適した試験場となる。
特に、量子ビットを用いた計算の標準的なモデルに加えて、トラップイオン系とフォトニックデバイスでそれぞれ使用されるqudits$(d>2)$およびqumodesにこの理論をマッピングすることを検討する。
We consider the strong coupling limit of lattice QCD with massless staggered quarks and study the resource requirements for quantum simulating the theory in its Hamiltonian formulation. The bosonic Hilbert space of the color-singlet degrees of freedom grows quickly with the number of quark flavors, making it a suitable testing ground for resource considerations across different platforms. In particular, in addition to the standard model of computation with qubits, we consider mapping the theory to qudits $(d>2)$ and qumodes, as used on trapped-ion systems and photonic devices, respectively. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# 大規模ビジョンランゲージモデルによるオープンワールドグラッピングに向けて
Towards Open-World Grasping with Large Vision-Language Models ( http://arxiv.org/abs/2406.18722v1 ) ライセンス: Link先を確認 | Georgios Tziafas, Hamidreza Kasaei, | (参考訳) オープンエンド言語命令から対象物を把握する能力は、ロボット工学における根本的な課題である。
オープンワールドの把握システムは、任意のシナリオに適用するために、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
最近の研究は、大規模言語モデル(LLM)に固有のWebスケールの知識をロボットのコンテキストで計画と推論に利用しているが、そのような知識を環境に根ざし、動作をパラメータ化するために外部の視覚と行動モデルに依存している。
このセットアップには2つの大きなボトルネックがあります。
a) LLMの推論能力は、視覚的接地の品質に制約され、
b)LLMには世界に対する低レベルの空間的理解は含まれておらず、コンタクトリッチなシナリオの把握に不可欠である。
本研究は,現代視覚言語モデル(VLM)がこのような制約に対処できることを示すものである。
本稿では,VLMとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
本研究は,オープンエンド言語を基盤としたOWGのロバスト性を示すために,乱雑な屋内シーンデータセットを広範囲に評価すると共に,従来のLLM法やゼロショット法と比較して優れた性能を示すシミュレーションとハードウェアの両方において,オープンソースのロボットグルーピング実験を行う。
The ability to grasp objects in-the-wild from open-ended language instructions constitutes a fundamental challenge in robotics. An open-world grasping system should be able to combine high-level contextual with low-level physical-geometric reasoning in order to be applicable in arbitrary scenarios. Recent works exploit the web-scale knowledge inherent in large language models (LLMs) to plan and reason in robotic context, but rely on external vision and action models to ground such knowledge into the environment and parameterize actuation. This setup suffers from two major bottlenecks: a) the LLM's reasoning capacity is constrained by the quality of visual grounding, and b) LLMs do not contain low-level spatial understanding of the world, which is essential for grasping in contact-rich scenarios. In this work we demonstrate that modern vision-language models (VLMs) are capable of tackling such limitations, as they are implicitly grounded and can jointly reason about semantics and geometry. We propose OWG, an open-world grasping pipeline that combines VLMs with segmentation and grasp synthesis models to unlock grounded world understanding in three stages: open-ended referring segmentation, grounded grasp planning and grasp ranking via contact reasoning, all of which can be applied zero-shot via suitable visual prompting mechanisms. We conduct extensive evaluation in cluttered indoor scene datasets to showcase OWG's robustness in grounding from open-ended language, as well as open-world robotic grasping experiments in both simulation and hardware that demonstrate superior performance compared to previous supervised and zero-shot LLM-based methods. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# アラビア語の文字化とアラビジによるLLMのジェイルブレイク
Jailbreaking LLMs with Arabic Transliteration and Arabizi ( http://arxiv.org/abs/2406.18725v1 ) ライセンス: Link先を確認 | Mansour Al Ghanim, Saleh Almohaimeed, Mengxin Zheng, Yan Solihin, Qian Lou, | (参考訳) 本研究は,大規模言語モデル(LLM)の「ジェイルブレイク」攻撃に対する潜在的な脆弱性を明らかにし,アラビア語とその様々な形態に着目した。
ほとんどの研究は英語による迅速な操作に集中しているが、我々の調査はアラビア語の調査の範囲を広げている。
当初、私たちはAdvBenchベンチマークを標準アラビア語でテストし、プレフィックスインジェクションのような迅速な操作技術でも、LLMを刺激して安全でないコンテンツを生成するには不十分であることが分かりました。
しかし、アラビア文字とチャットスピーク(またはアラビジ)を使用すると、OpenAI GPT-4 や Anthropic Claude 3 Sonnet のようなプラットフォーム上で、安全でないコンテンツが生成できることが判明した。
我々の研究結果は、アラビア語とその様々な形態を用いることで、隠されたままの情報を公開し、脱獄攻撃のリスクを増大させる可能性があることを示唆している。
この露出は、モデルが特定の単語と学習した関連性によるものかもしれないと仮定し、すべての言語形式にわたるより包括的な安全トレーニングの必要性を強調します。
This study identifies the potential vulnerabilities of Large Language Models (LLMs) to 'jailbreak' attacks, specifically focusing on the Arabic language and its various forms. While most research has concentrated on English-based prompt manipulation, our investigation broadens the scope to investigate the Arabic language. We initially tested the AdvBench benchmark in Standardized Arabic, finding that even with prompt manipulation techniques like prefix injection, it was insufficient to provoke LLMs into generating unsafe content. However, when using Arabic transliteration and chatspeak (or arabizi), we found that unsafe content could be produced on platforms like OpenAI GPT-4 and Anthropic Claude 3 Sonnet. Our findings suggest that using Arabic and its various forms could expose information that might remain hidden, potentially increasing the risk of jailbreak attacks. We hypothesize that this exposure could be due to the model's learned connection to specific words, highlighting the need for more comprehensive safety training across all language forms. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# ガウス過程によるポート・ハミルトンDAEシステムのデータ駆動同定
Data-driven identification of port-Hamiltonian DAE systems by Gaussian processes ( http://arxiv.org/abs/2406.18726v1 ) ライセンス: Link先を確認 | Peter Zaspel, Michael Günther, | (参考訳) ポート・ハミルトン系(pHS)は力学系の構造保存モデリングを可能にする。
入力と出力の線形関係によるpHSの結合は、構造保存である全体のpHSを定義する。
しかし、多重物理学の応用においては、いくつかのサブシステムは物理的pHSの記述を許さない。
(a)これは利用できないか、または
(b)高すぎる。
ここでは、データ駆動アプローチを使用して、そのようなサブシステムに対してpHSを提供し、構造保存的な方法で他のサブシステムと結合することができる。
本研究では、ポート-ハミルトン微分代数方程式(DAE)系に対するデータ駆動型同定手法を導出する。
この手法は入力空間と状態空間のデータを用いてpH-DAEの非線形作業関数を推定する。
基礎となる技術として、私たち(マルチタスク)ガウス過程がある。
この研究は、ポート・ハミルトニアン常微分方程式系のみをガウス過程を通じて特定できる、現在の最先端技術に拡張される。
本稿では,ネットワーク設計と制約付き多体系力学の2つの応用に適用し,それぞれ1と3のpH-DAE系に基づく手法を提案する。
Port-Hamiltonian systems (pHS) allow for a structure-preserving modeling of dynamical systems. Coupling pHS via linear relations between input and output defines an overall pHS, which is structure preserving. However, in multiphysics applications, some subsystems do not allow for a physical pHS description, as (a) this is not available or (b) too expensive. Here, data-driven approaches can be used to deliver a pHS for such subsystems, which can then be coupled to the other subsystems in a structure-preserving way. In this work, we derive a data-driven identification approach for port-Hamiltonian differential algebraic equation (DAE) systems. The approach uses input and state space data to estimate nonlinear effort functions of pH-DAEs. As underlying technique, we us (multi-task) Gaussian processes. This work thereby extends over the current state of the art, in which only port-Hamiltonian ordinary differential equation systems could be identified via Gaussian processes. We apply this approach successfully to two applications from network design and constrained multibody system dynamics, based on pH-DAE system of index one and three, respectively. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# WavRx: 病原性、一般化可能、およびプライバシ保護型音声健康診断モデル
WavRx: a Disease-Agnostic, Generalizable, and Privacy-Preserving Speech Health Diagnostic Model ( http://arxiv.org/abs/2406.18731v1 ) ライセンス: Link先を確認 | Yi Zhu, Tiago Falk, | (参考訳) 音声は、遠隔および長期の健康モニタリングのための新しい場所として登場した健康関連属性を持つことが知られている。
しかしながら、既存のモデルは、通常特定の種類の疾患に合わせて調整されており、データセット間での一般化性が欠如していることが示されている。
さらに、健康な埋め込みから話者の身元が漏洩するという懸念も最近持ち上がっている。
これらの制約を緩和するために,普遍的な音声表現から呼吸・調音関連ダイナミクスを捉える音声健康診断モデルWavRxを提案する。
6つの病的音声データセットのドメイン内およびクロスドメイン実験は、新しい最先端の健康診断モデルとして、WavRxを実証している。
さらに,WavRxヘルス埋め込みにおける話者識別の量は,トレーニング中に追加指導を受けることなく有意に減少することを示した。
モデルの詳細分析を行い、その改良された一般化可能性とプライバシ保護能力の生理学的解釈を提供した。
Speech is known to carry health-related attributes, which has emerged as a novel venue for remote and long-term health monitoring. However, existing models are usually tailored for a specific type of disease, and have been shown to lack generalizability across datasets. Furthermore, concerns have been raised recently towards the leakage of speaker identity from health embeddings. To mitigate these limitations, we propose WavRx, a speech health diagnostics model that captures the respiration and articulation related dynamics from a universal speech representation. Our in-domain and cross-domain experiments on six pathological speech datasets demonstrate WavRx as a new state-of-the-art health diagnostic model. Furthermore, we show that the amount of speaker identity entailed in the WavRx health embeddings is significantly reduced without extra guidance during training. An in-depth analysis of the model was performed, thus providing physiological interpretation of its improved generalizability and privacy-preserving ability. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# GFlowNetsを用いたRetroGFNの多様性と有用性
RetroGFN: Diverse and Feasible Retrosynthesis using GFlowNets ( http://arxiv.org/abs/2406.18739v1 ) ライセンス: Link先を確認 | Piotr Gaiński, Michał Koziarski, Krzysztof Maziarz, Marwin Segler, Jacek Tabor, Marek Śmieja, | (参考訳) 単段階の逆合成は、分子発見において重要な課題である標的分子の生成につながる一連の反応を予測することを目的としている。
ターゲット分子は、しばしば複数の異なる反応で合成されるが、利用可能なデータセットは、可能な解のごく一部しかカバーしていないため、反応の実現可能性を検証する方法が明確ではない。
したがって、既存のモデルでは十分に反応可能な空間を探索することは推奨されない。
本稿では,限られたデータセットの外部を探索し,トレーニング中に実現可能なプロキシモデルを活用することで,多種多様な実行可能な反応を返却する,新しい単一ステップ逆合成モデルRetroGFNを提案する。
RetroGFNは,既存のラウンドトリップ精度の手法よりも高い性能を保ちながら,標準的なトップk精度で競合する結果が得られることを示す。
さらに,本論文では,標準のトポ-ク精度測定値に対する実現可能性の概念を拡大するラウンドトリップ精度の使用を優先して,実証的な議論を行う。
Single-step retrosynthesis aims to predict a set of reactions that lead to the creation of a target molecule, which is a crucial task in molecular discovery. Although a target molecule can often be synthesized with multiple different reactions, it is not clear how to verify the feasibility of a reaction, because the available datasets cover only a tiny fraction of the possible solutions. Consequently, the existing models are not encouraged to explore the space of possible reactions sufficiently. In this paper, we propose a novel single-step retrosynthesis model, RetroGFN, that can explore outside the limited dataset and return a diverse set of feasible reactions by leveraging a feasibility proxy model during the training. We show that RetroGFN achieves competitive results on standard top-k accuracy while outperforming existing methods on round-trip accuracy. Moreover, we provide empirical arguments in favor of using round-trip accuracy which expands the notion of feasibility with respect to the standard top-k accuracy metric. | 翻訳日:2024-06-28 16:06:39 公開日:2024-06-26 |
# ステップ・バイ・ステップ(ステップ・バイ・ステップ) - 大規模言語モデルによる再学習のための事前フィルタの検討
Re-Ranking Step by Step: Investigating Pre-Filtering for Re-Ranking with Large Language Models ( http://arxiv.org/abs/2406.18740v1 ) ライセンス: Link先を確認 | Baharan Nouriinanloo, Maxime Lamothe, | (参考訳) 大規模言語モデル(LLM)は、さまざまなゼロショット機能を備えた多種多様な自然言語処理タスクに革命をもたらしている。
実際、既存の研究は、情報検索(IR)や通過ランキングといった多くのタスクにLLMを用いることが可能であることを示した。
しかし、現在の最先端の成果はLLMの能力に大きく依存している。
現在、プロプライエタリであり、GPT-4のような非常に大きなLPMは、最も高い性能のパス再ランカである。
したがって、LLMやクローズドソースを利用するリソースのないユーザは不利です。
本稿では,IRの通過前におけるフィルター前ステップの使用について検討する。
実験の結果, 少数の人為的関連度スコアとLLM関連度スコアを併用することにより, 再ランク付け前に無関係な経路をフィルタリングすることが可能であることが示唆された。
また, この前処理により, LLM は再ランクタスクにおいて, 性能が大幅に向上することを示した。
実際,Mixtralのような小型モデルは,より大規模なプロプライエタリモデル(ChatGPT,GPT-4など)と競合する可能性がある。
Large Language Models (LLMs) have been revolutionizing a myriad of natural language processing tasks with their diverse zero-shot capabilities. Indeed, existing work has shown that LLMs can be used to great effect for many tasks, such as information retrieval (IR), and passage ranking. However, current state-of-the-art results heavily lean on the capabilities of the LLM being used. Currently, proprietary, and very large LLMs such as GPT-4 are the highest performing passage re-rankers. Hence, users without the resources to leverage top of the line LLMs, or ones that are closed source, are at a disadvantage. In this paper, we investigate the use of a pre-filtering step before passage re-ranking in IR. Our experiments show that by using a small number of human generated relevance scores, coupled with LLM relevance scoring, it is effectively possible to filter out irrelevant passages before re-ranking. Our experiments also show that this pre-filtering then allows the LLM to perform significantly better at the re-ranking task. Indeed, our results show that smaller models such as Mixtral can become competitive with much larger proprietary models (e.g., ChatGPT and GPT-4). | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# 動的道路ブロックのためのRLとDQNを用いたAVにおける分散型セマンティックトラヒック制御
Decentralized Semantic Traffic Control in AVs Using RL and DQN for Dynamic Roadblocks ( http://arxiv.org/abs/2406.18741v1 ) ライセンス: Link先を確認 | Emanuel Figetakis, Yahuza Bello, Ahmed Refaey, Abdallah Shami, | (参考訳) 自動運転車(AV)は、速度、加速度、正確な位置などの重要な車両のダイナミクスを捉えることができるセンサーを備えており、道路ブロックに接近することを期待して車線変更を含むインテリジェントな操作を実行する能力を持っている。
それでも、十分な量の感覚データと、情報に基づく決定を導き出すために必要な処理は、しばしば車両を圧倒し、それらを独立して処理することができない。
結果として、トラフィックシナリオにおける一般的なアプローチは、特にリアルタイム処理を必要とする状況において、課題を提起するプラクティスである、処理のためにデータをサーバに送信することである。
この課題に対して,本研究では,車両自体に責任を負う意味的エンコーディングを委譲する,DLに基づくセマンティックトラフィック制御システムを提案する。
このシステムは、強化学習(RL)エージェントから得られる意思決定を処理し、意思決定プロセスの合理化を行う。
具体的には,道路整備,事故,車両修理などの要因により急激な道路封鎖が成立するシナリオを想定する。
このシナリオを数学的に定式化するために,Markov Decision Process (MDP) を用い,Deep Q Learning (DQN) アルゴリズムを用いて実行可能な解を探索する。
Autonomous Vehicles (AVs), furnished with sensors capable of capturing essential vehicle dynamics such as speed, acceleration, and precise location, possess the capacity to execute intelligent maneuvers, including lane changes, in anticipation of approaching roadblocks. Nevertheless, the sheer volume of sensory data and the processing necessary to derive informed decisions can often overwhelm the vehicles, rendering them unable to handle the task independently. Consequently, a common approach in traffic scenarios involves transmitting the data to servers for processing, a practice that introduces challenges, particularly in situations demanding real-time processing. In response to this challenge, we present a novel DL-based semantic traffic control system that entrusts semantic encoding responsibilities to the vehicles themselves. This system processes driving decisions obtained from a Reinforcement Learning (RL) agent, streamlining the decision-making process. Specifically, our framework envisions scenarios where abrupt roadblocks materialize due to factors such as road maintenance, accidents, or vehicle repairs, necessitating vehicles to make determinations concerning lane-keeping or lane-changing actions to navigate past these obstacles. To formulate this scenario mathematically, we employ a Markov Decision Process (MDP) and harness the Deep Q Learning (DQN) algorithm to unearth viable solutions. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# 物体中心前駆体を用いた3次元特徴蒸留
3D Feature Distillation with Object-Centric Priors ( http://arxiv.org/abs/2406.18742v1 ) ライセンス: Link先を確認 | Georgios Tziafas, Yucheng Xu, Zhibin Li, Hamidreza Kasaei, | (参考訳) 物理世界への自然言語の接地は、コンピュータビジョンとロボティクスに幅広い応用があるユビキタスなトピックである。
近年、CLIPのような2次元視覚言語モデルが広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有で一般化されていないニューラルネットワークを学ぶか、複数のカメラビューへのアクセスを必要とする室内のスキャンデータに焦点を合わせるか、ロボット操作シナリオでは実用的ではない。
さらに、関連する手法は一般的にピクセルレベルで機能を融合させ、すべてのカメラビューが等しく有益であると仮定する。
本研究では, この手法が, 接地精度, セグメンテーションの両面において, 最適3次元特徴に繋がることを示す。
そこで本研究では,意味情報に基づく非形式的なビューを排除し,インスタンスセグメンテーションマスクを介してオブジェクトレベルでの機能を融合する,多視点機能融合戦略を提案する。
オブジェクト中心の3D特徴を抽出するために、乱雑なテーブルトップシーンの大規模合成マルチビューデータセットを生成し、3300以上のユニークなオブジェクトインスタンスから15kのシーンを生成し、公開しています。
提案手法は, 単視点のRGB-Dと併用しながら, 接地能力と空間的整合性を向上した3D CLIP機能を再構成し, テスト時の複数のカメラビューの仮定から逸脱することを示す。
最後に,本手法がテーブルトップ領域に一般化され,微調整なしで3次元インスタンスセグメンテーションに再利用可能であることを示すとともに,言語誘導型ロボットグルーピングにおける有用性を示す。
Grounding natural language to the physical world is a ubiquitous topic with a wide range of applications in computer vision and robotics. Recently, 2D vision-language models such as CLIP have been widely popularized, due to their impressive capabilities for open-vocabulary grounding in 2D images. Recent works aim to elevate 2D CLIP features to 3D via feature distillation, but either learn neural fields that are scene-specific and hence lack generalization, or focus on indoor room scan data that require access to multiple camera views, which is not practical in robot manipulation scenarios. Additionally, related methods typically fuse features at pixel-level and assume that all camera views are equally informative. In this work, we show that this approach leads to sub-optimal 3D features, both in terms of grounding accuracy, as well as segmentation crispness. To alleviate this, we propose a multi-view feature fusion strategy that employs object-centric priors to eliminate uninformative views based on semantic information, and fuse features at object-level via instance segmentation masks. To distill our object-centric 3D features, we generate a large-scale synthetic multi-view dataset of cluttered tabletop scenes, spawning 15k scenes from over 3300 unique object instances, which we make publicly available. We show that our method reconstructs 3D CLIP features with improved grounding capacity and spatial consistency, while doing so from single-view RGB-D, thus departing from the assumption of multiple camera views at test time. Finally, we show that our approach can generalize to novel tabletop domains and be re-purposed for 3D instance segmentation without fine-tuning, and demonstrate its utility for language-guided robotic grasping in clutter | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# アミロイドベータの結合親和性計算に必要な量子資源
Quantum Resources Required for Binding Affinity Calculations of Amyloid beta ( http://arxiv.org/abs/2406.18744v1 ) ライセンス: Link先を確認 | Matthew Otten, Thomas W. Watts, Samuel D. Johnson, Rashmi Sundareswara, Zhihui Wang, Tarini S. Hardikar, Kenneth Heitritter, James Brown, Kanav Setia, Adam Holmes, | (参考訳) アミロイドベータ(英: Amyloid beta)は、アルツハイマー病のような神経変性疾患において重要な役割を担っているが、十分に理解されていない。
アミロイドベータの鍵となる特徴は、鉄や銅のような特定の金属中心への結合親和性である。
このような結合親和性の数値計算は、強く相関する金属中心を含む計算上の課題である。
結合親和性を理解する上で重要なボトルネックは、基底状態エネルギーの推定値を取得することである。
量子コンピュータはそのような計算を加速する可能性があるが、必要な量子資源を理解することが重要である。
本稿では,量子アルゴリズムを用いたアミロイドベータのアフィニティ計算のための計算ワークフローについて述べる。
Amyloid beta, an intrinsically disordered protein, plays a seemingly important but not well-understood role in neurodegenerative diseases like Alzheimer's disease. A key feature of amyloid beta, which could lead to potential therapeutic intervention pathways, is its binding affinity to certain metal centers, like iron and copper. Numerically calculating such binding affinities is a computationally challenging task, involving strongly correlated metal centers. A key bottleneck in understanding the binding affinity is obtaining estimates of the ground state energy. Quantum computers have the potential to accelerate such calculations but it is important to understand the quantum resources required. In this work, we detail a computational workflow for binding affinity calculations for amyloid beta utilizing quantum algorithms, providing estimated quantum resources required, at both the logical and hardware level. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# QBI: フェデレーション学習における効率的なプライベートデータ再構成のための量子ベースのバイアス初期化
QBI: Quantile-based Bias Initialization for Efficient Private Data Reconstruction in Federated Learning ( http://arxiv.org/abs/2406.18745v1 ) ライセンス: Link先を確認 | Micha V. Nowak, Tim P. Bott, David Khachaturov, Frank Puppe, Adrian Krenzer, Amar Hekalo, | (参考訳) フェデレーション学習は、個人デバイスにデータが残り、勾配のようなモデル更新だけが中央コーディネータと共有されるため、ユーザのプライバシを損なうことなく、分散データ上で機械学習モデルのトレーニングを可能にする。
しかし,近年の研究では,モデルパラメータを悪質に初期化することにより,共有モデル更新からプライベートデータを完全に再構築できることが示されている。
本稿では,再建能力を大幅に向上させる新しいバイアス初期化手法であるQBIを提案する。
これは、スパースアクティベーションパターンをもたらすバイアス値を直接解決することで達成される。
さらに,QBIに基づくアルゴリズムであるPAIRSを提案する。
PAIRSは、ターゲットドメインから別のデータセットが利用可能になったときにデプロイでき、完全回復可能なデータの割合をさらに増やすことができる。
様々なサイズのバッチから完全に再構成できるサンプルの割合で測定し,ImageNetで最大50%,IMDB感情分析テキストデータセットで最大60%の精度で,従来の手法よりも大幅な改善を実現した。
さらに,確率勾配空間を利用した攻撃の理論的限界を確立し,これらの攻撃の基本的な制約を理解する基盤となる。
合成データセットを用いて,これらの限界を実験的に評価する。
最後に,よりセキュアでプライベートなフェデレーション学習システムの開発に寄与する,勾配空間攻撃を防止するための防御フレームワーク AGGP を提案し,評価する。
Federated learning enables the training of machine learning models on distributed data without compromising user privacy, as data remains on personal devices and only model updates, such as gradients, are shared with a central coordinator. However, recent research has shown that the central entity can perfectly reconstruct private data from shared model updates by maliciously initializing the model's parameters. In this paper, we propose QBI, a novel bias initialization method that significantly enhances reconstruction capabilities. This is accomplished by directly solving for bias values yielding sparse activation patterns. Further, we propose PAIRS, an algorithm that builds on QBI. PAIRS can be deployed when a separate dataset from the target domain is available to further increase the percentage of data that can be fully recovered. Measured by the percentage of samples that can be perfectly reconstructed from batches of various sizes, our approach achieves significant improvements over previous methods with gains of up to 50% on ImageNet and up to 60% on the IMDB sentiment analysis text dataset. Furthermore, we establish theoretical limits for attacks leveraging stochastic gradient sparsity, providing a foundation for understanding the fundamental constraints of these attacks. We empirically assess these limits using synthetic datasets. Finally, we propose and evaluate AGGP, a defensive framework designed to prevent gradient sparsity attacks, contributing to the development of more secure and private federated learning systems. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# 4つのステムを超える音源分離のためのステム非依存シングルデコーダシステム
A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems ( http://arxiv.org/abs/2406.18747v1 ) ライセンス: Link先を確認 | Karn N. Watcharasupat, Alexander Lerch, | (参考訳) オーディオソース分離の複数のサブタスクにまたがる最近の進歩にもかかわらず、4つのステムボーカル、ドラム、ベース、その他の(VDBO)設定以外の分離をサポートする音源分離システムはほとんどない。
このセットアップ以外のソース分離をサポートする現在のシステムの中で、ほとんどのシステムは、固定された定義済みのステムセットしかサポートできない、柔軟性のないデコーダのセットアップに依存している。
これらの非フレキシブルシステムにおけるステムサポートの増大は、計算複雑性の増大を必要とし、これらのシステムの拡張は、ロングテール機器では計算不可能である。
本研究では,1つのデコーダを用いて複数の幹のソース分離を可能にするシステムであるBanquetを提案する。
バンドスプリットソース分離モデルは、楽器認識PaSSTモデルと共にタンデムでクエリベースのセットアップで動作するように拡張される。
MoisesDBのデータセットでは、わずか24.9Mのトレーニング可能なパラメータで、VDBOステム上のより複雑な6ステムのハイブリッドトランスフォーマーデモークのパフォーマンスレベルにアプローチし、ギターとピアノでパフォーマンスを向上した。
クエリベースの設定により、クリーンなアコースティックギターのような細い楽器のクラスを分離することができ、リードやオルガンのようなあまり一般的でない茎の抽出にうまく適用することができる。
実装はhttps://github.com/kwatcharasupat/query-bandit.comで公開されている。
Despite significant recent progress across multiple subtasks of audio source separation, few music source separation systems support separation beyond the four-stem vocals, drums, bass, and other (VDBO) setup. Of the very few current systems that support source separation beyond this setup, most continue to rely on an inflexible decoder setup that can only support a fixed pre-defined set of stems. Increasing stem support in these inflexible systems correspondingly requires increasing computational complexity, rendering extensions of these systems computationally infeasible for long-tail instruments. In this work, we propose Banquet, a system that allows source separation of multiple stems using just one decoder. A bandsplit source separation model is extended to work in a query-based setup in tandem with a music instrument recognition PaSST model. On the MoisesDB dataset, Banquet, at only 24.9 M trainable parameters, approached the performance level of the significantly more complex 6-stem Hybrid Transformer Demucs on VDBO stems and outperformed it on guitar and piano. The query-based setup allows for the separation of narrow instrument classes such as clean acoustic guitars, and can be successfully applied to the extraction of less common stems such as reeds and organs. Implementation is available at https://github.com/kwatcharasupat/query-bandit. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# 量子コンピュータにおける計算流体力学
Computational Fluid Dynamics on Quantum Computers ( http://arxiv.org/abs/2406.18749v1 ) ライセンス: Link先を確認 | Madhava Syamlal, Carter Copen, Masashi Takahashi, Benjamin Hall, | (参考訳) QubitSolveは計算流体力学(CFD)のための量子解に取り組んでいる。
我々は、変分量子CFD(VQCFD)アルゴリズムとそれに基づく2Dソフトウェアプロトタイプを作成しました。
量子シミュレータ上でSoftware Prototypeをテストすることにより、CFDの根底にある偏微分方程式を量子コンピュータで解くことができることを示す。
量子アドバンテージがVQCFDで達成できるかどうかを判断することを目的としている。
そこで本研究では,VQCFDの性能と従来のCFDの性能を性能モデルを用いて比較する。
量子性能モデルは、量子コンピュータ上で動作するVQCFD回路のデータを使用する。
産業シミュレーションに関係のあるサイズの量子と古典的シミュレーション時間の比率であるキーパフォーマンスパラメータ Q_{5E7} を定義する。
ソフトウェアプロトタイプの現在の状態と利用可能な限られた計算資源を考えると、我々はQ_{5E7}の上限を見積もることができる。
推定されたQ_{5E7} はアルゴリズムの実装が大幅に改善する必要があることを示しているが、量子的優位性を達成するのに十分削減できる革新的な技術がいくつか見出されている。
開発の次のフェーズでは、3Dの最小限の製品を開発し、それらの技術を実装します。
QubitSolve is working on a quantum solution for computational fluid dynamics (CFD). We have created a variational quantum CFD (VQCFD) algorithm and a 2D Software Prototype based on it. By testing the Software Prototype on a quantum simulator, we demonstrate that the partial differential equations that underlie CFD can be solved using quantum computers. We aim to determine whether a quantum advantage can be achieved with VQCFD. To do this, we compare the performance of VQCFD with classical CFD using performance models. The quantum performance model uses data from VQCFD circuits run on quantum computers. We define a key performance parameter Q_{5E7}, the ratio of quantum to classical simulation time for a size relevant to industrial simulations. Given the current state of the Software Prototype and the limited computing resources available, we can only estimate an upper bound for Q_{5E7}. While the estimated Q_{5E7} shows that the algorithm's implementation must improve significantly, we have identified several innovative techniques that could reduce it sufficiently to achieve a quantum advantage. In the next phase of development, we will develop a 3D minimum-viable product and implement those techniques. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# アクセント予測を用いたオンラインクナップサックの競合アルゴリズム
Competitive Algorithms for Online Knapsack with Succinct Predictions ( http://arxiv.org/abs/2406.18752v1 ) ライセンス: Link先を確認 | Mohammadreza Daneshvaramoli, Helia Karisani, Adam Lechowicz, Bo Sun, Cameron Musco, Mohammad Hajiesmaili, | (参考訳) オンラインのknapsack問題では、異なる値と重みを持つオンラインで到着するアイテムをキャパシティ限定のknapsackにまとめて、受け入れられたアイテムの総価値を最大化する。
本稿では,機械学習による予測を用いて,悲観的な最悪のケースの保証を超えることを目的とした,この問題に対する‘textit{learning-augmented’アルゴリズムについて検討する。
既存のオンラインknapsackの学習強化アルゴリズムは、各値におけるアイテムの総重量など、入力に関する実質的な情報を与えるアルゴリズムを与える比較的複雑な予測モデルを考える。
実際には、そのような予測は誤りに敏感であり、学習が困難である。
この制限により、オンラインのknapsackに「emph{succinct predictions}」を用いた学習強化アルゴリズムのファミリーを導入する。
特に、アルゴリズムに与えられた機械学習予測は、オフライン最適解によって受け入れられる任意のアイテムの最小値を推定する単一の値またはインターバルである。
オンライン「emph{fractional} knapsack」への緩和を利用して、信頼された設定(つまり完璧な予測)と信頼できない設定の両方でそのような簡潔な予測を活用できるアルゴリズムを設計する。
経験的に、我々のアルゴリズムは予測を使わないベースラインを著しく上回り、より複雑な予測モデルに基づいてアルゴリズムを上回ります。
In the online knapsack problem, the goal is to pack items arriving online with different values and weights into a capacity-limited knapsack to maximize the total value of the accepted items. We study \textit{learning-augmented} algorithms for this problem, which aim to use machine-learned predictions to move beyond pessimistic worst-case guarantees. Existing learning-augmented algorithms for online knapsack consider relatively complicated prediction models that give an algorithm substantial information about the input, such as the total weight of items at each value. In practice, such predictions can be error-sensitive and difficult to learn. Motivated by this limitation, we introduce a family of learning-augmented algorithms for online knapsack that use \emph{succinct predictions}. In particular, the machine-learned prediction given to the algorithm is just a single value or interval that estimates the minimum value of any item accepted by an offline optimal solution. By leveraging a relaxation to online \emph{fractional} knapsack, we design algorithms that can leverage such succinct predictions in both the trusted setting (i.e., with perfect prediction) and the untrusted setting, where we prove that a simple meta-algorithm achieves a nearly optimal consistency-robustness trade-off. Empirically, we show that our algorithms significantly outperform baselines that do not use predictions and often outperform algorithms based on more complex prediction models. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# 特徴表現がフォトニックニューラルネットワークの精度に及ぼす影響
The Impact of Feature Representation on the Accuracy of Photonic Neural Networks ( http://arxiv.org/abs/2406.18757v1 ) ライセンス: Link先を確認 | Mauricio Gomes de Queiroz, Paul Jimenez, Raphael Cardoso, Mateus Vidaletti da Costa, Mohab Abdalla, Ian O'Connor, Alberto Bosio, Fabio Pavanello, | (参考訳) フォトニックニューラルネットワーク(PNN)は、高並列化、低レイテンシ、エネルギー効率といった可能性から、研究コミュニティにおいて大きな関心を集めている。
PNNは光を用いて計算し、電子回路と比較して実装にいくつかの違いをもたらす。
この符号化プロセスでは、複数の特徴を単一の入力に組み合わせて入力や関連機器の数を減らし、より小さくエネルギー効率の良いPNNを生み出すことが一般的である。
これにより入力データの処理が変更されるが、PNNへの影響は未検討のままである。
本稿では、PNNの性能と学習能力に共通して用いられる符号化戦略が及ぼす影響について考察する。
ここでは,特徴の重要度の概念を用いて,特徴の組み合わせを解析するための数学的枠組みを開発する。
このフレームワークを通じて、複数の機能を1つの入力にまとめて符号化することで、相対的な重要性が決定され、ネットワークがデータから学習する能力が制限されることを実証する。
しかし、データに関するいくつかの事前の知識を考えると、高い精度で利用することもできる。
最適な符号化手法を選択することで、IrisデータセットでトレーニングされたPNNの精度を12.3倍に向上させ、特徴が組み合わさらないネットワークの性能を上回ります。
これらの知見は、特にサイズや電力制約のあるアプリケーションにおいて、PNNの精度と意思決定戦略に対するエンコーディングを慎重に選択することの重要性を強調している。
Photonic Neural Networks (PNNs) are gaining significant interest in the research community due to their potential for high parallelization, low latency, and energy efficiency. PNNs compute using light, which leads to several differences in implementation when compared to electronics, such as the need to represent input features in the photonic domain before feeding them into the network. In this encoding process, it is common to combine multiple features into a single input to reduce the number of inputs and associated devices, leading to smaller and more energy-efficient PNNs. Although this alters the network's handling of input data, its impact on PNNs remains understudied. This paper addresses this open question, investigating the effect of commonly used encoding strategies that combine features on the performance and learning capabilities of PNNs. Here, using the concept of feature importance, we develop a mathematical framework for analyzing feature combination. Through this framework, we demonstrate that encoding multiple features together in a single input determines their relative importance, thus limiting the network's ability to learn from the data. Given some prior knowledge of the data, however, this can also be leveraged for higher accuracy. By selecting an optimal encoding method, we achieve up to a 12.3\% improvement in accuracy of PNNs trained on the Iris dataset compared to other encoding techniques, surpassing the performance of networks where features are not combined. These findings highlight the importance of carefully choosing the encoding to the accuracy and decision-making strategies of PNNs, particularly in size or power constrained applications. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# 耐食性材料の量子計算と防食コーティング設計
Quantum computing for corrosion-resistant materials and anti-corrosive coatings design ( http://arxiv.org/abs/2406.18759v1 ) ライセンス: Link先を確認 | Nam Nguyen, Thomas W. Watts, Benjamin Link, Kristen S. Williams, Yuval R. Sanders, Samuel J. Elman, Maria Kieferova, Michael J. Bremner, Kaitlyn J. Morrell, Justin Elenewski, Eric B. Isaacs, Samuel D. Johnson, Luke Mathieson, Kevin M. Obenland, Matthew Otten, Rashmi Sundareswara, Adam Holmes, | (参考訳) 最近の推計では、アメリカ国防総省は腐食関連の維持に年間200億ドル以上を費やしている。
この支出には10%から30%の資産準備能力の大幅な損失が伴っている。
さらに、腐食損傷に伴う世界的なコストは、2016年の世界のGDPの約3.4%である年間2.5兆米ドルという驚くべき額と見積もられている。
このプロジェクトは、物質発見、選択、設計のために物質と環境の相互作用をモデル化する方法を根本的に変えるために量子コンピュータをどのように活用するかを説明することを目的としている。
このプロジェクトはまた、古典的なコンピューティングワークフローの一部を量子コンピューティングハードウェアに最適化されたアルゴリズムに置き換えることの妥当性と有用性を理解することを目指している。
1) 水溶液環境下でのマグネシウム合金の腐食特性と, (2) 1500K以上の温度での耐食性を有する安定なニオブ含有合金の識別である。
本稿では、アプリケーションワークフローで使用される古典的および量子的アルゴリズムの複雑さをエンドツーエンドで解析する。
リソース推定は、qubitized Quantum Phase Estimation (QPE)アルゴリズムに基づいて、カスタムソフトウェアパッケージ pyLIQTR を用いて生成される。
上記の2つの応用の見積もりによると、商業用途を提供する可能性を持つ産業関連計算モデルは、数千から数十万の論理量子ビットを持つ量子コンピュータを必要とし、10^{13}$ 10^{19}$ T-gatesを実行する能力を持っている。
これらの推定は上界を示し、改良された量子アルゴリズムと資源削減技術に関する継続的な研究を動機付けている。
Recent estimates indicate that the U.S. Department of Defense spends over \$20 billion USD annually on corrosion-related maintenance. This expenditure is accompanied by a substantial loss in asset readiness, ranging from 10% to 30%. Moreover, the global costs associated with corrosion damage have been estimated at an astonishing \$2.5 trillion USD per year, or approximately 3.4% of global GDP in 2016. This project aims to describe how quantum computers might be leveraged to fundamentally change the way material-environment interactions are modeled for material discovery, selection, and design. This project also seeks to understand the plausibility and utility of replacing portions of classical computing workflows with algorithms optimized for quantum computing hardware. The utility of quantum computers is explored through the lens of two industrially relevant problems: (1) characterizing magnesium alloy corrosion properties in aqueous environments and (2) identifying stable niobium-rich alloys with corrosion resistance at temperatures above 1500K. This paper presents an end-to-end analysis of the complexity of both classical and quantum algorithms used in application workflows. Resource estimates are produced using a custom software package, pyLIQTR, based on the qubitized Quantum Phase Estimation (QPE) algorithm. Estimates for the two aforementioned applications show that industrially-relevant computational models that have the potential to deliver commercial utility require quantum computers with thousands to hundreds of thousands of logical qubits and the ability to execute $10^{13}$ to $10^{19}$ T-gates. These estimates represent an upper bound and motivate continued research into improved quantum algorithms and resource reduction techniques. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# なぜ自分の時間で量子を教えるのか:量子技術教育とアウトリーチに関わる草の根組織の価値
Why Teach Quantum In Your Own Time: The Values of Grassroots Organizations Involved in Quantum Technologies Education and Outreach ( http://arxiv.org/abs/2406.18761v1 ) ライセンス: Link先を確認 | Ulrike Genenz, Neelanjana Anne, Zeynep Kılıç, Daniel Matthews, Oya Ok, Adrian Schmidt, Zeki Can Seskir, | (参考訳) 本稿では,量子技術(QT)教育の領域で活動する草の根組織における目標と価値の交わりについて検討する。
これは、教育を提供する目的と、インクリシティ、アクセシビリティ、多様性の原則を通じて学習を民主化する動機とを根本的に区別している。
この分析は、これらの組織が、QTの高度専門分野における持続的な成長と発展を目標にしながら、基礎的価値に固執するという2つの課題に対処して、初期段階の段階をいかにナビゲートするかを明らかにしている。
この研究は、これらの団体が採用する戦略的アプローチを明らかにする。
この研究は、これらの草の根組織の潜在的な脆弱性、特に量子セクター内の専門的な役割にメンバーが移るにつれて、そのイニシアチブの長寿と進化に関連している。
本研究は,QT分野の新興教育組織が,実践的成長を考慮したイデオロギー的コミットメントを両立させ,その軌道や影響に影響を及ぼす重要な要因を浮き彫りにしている。
This paper examines the intersection of goals and values within grassroots organizations operating in the realm of quantum technologies (QT) education. It delineates a fundamental distinction between the objective to provide education and the drive to democratize learning through principles of inclusivity, accessibility, and diversity. The analysis reveals how these organizations navigate their nascent stages, grappling with the dual challenge of adhering to their foundational values while aspiring for sustainable growth and development in the highly specialized field of QT. The study uncovers the strategic approaches adopted by these entities, including efforts to create educational ecosystems and foster community engagement. The research underscores the potential vulnerabilities of these grassroots organizations, particularly in relation to the longevity and evolution of their initiatives as members transition into professional roles within the quantum sector. Through this investigation, the paper contributes to a nuanced understanding of how emerging educational organizations in the QT field balance their ideological commitments with practical growth considerations, highlighting the critical factors that influence their trajectory and impact. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# カテゴリー的シロジズムの再考:カテゴリー的シロジズムの分析のためのLCMの論理的推論能力について
Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism ( http://arxiv.org/abs/2406.18762v1 ) ライセンス: Link先を確認 | Shi Zong, Jimmy Lin, | (参考訳) 大規模言語モデル(LLM)が論理推論タスクに対してどのように振る舞うかを評価するためのベンチマークが多数提案されている。
しかし、この能力をどのように適切に評価するかには疑問が残る。
本稿では, LLMの論理的推論能力に関する先行研究の系統的概要について述べる。
まず、純粋に論理的な観点から分類的シロジズムの可能なすべてのバリエーションを調査し、その後、既存のデータセットによってテストされた基本的な構成(ムードとフィギュア)を調べる。
以上の結果から,テンプレートベースの合成データセットと比較すると,クラウドソーシングアプローチでは,分類的シロジズムの構成(ムードとフィギュア)のカバレッジを犠牲にすることで,異なる状況下でLLMを完全にテストする上での課題が生じることが示唆された。
そこで本研究では,LLMの性能に関する知見と観察を要約して,現在の文献からシロジズムの妥当性を推定する。
誤り率の分解分析は、量子化器の解釈が現在のボトルネックであり、LLMの性能を制限し、より多くの注意を払う価値があることを示唆している。
最後に、分類シロジズムデータセットの今後のリリースについて、研究者が検討する価値のあるいくつかのポイントについて論じる。
我々の研究は、分類的シロジズムに関する現在の文献のタイムリーなレビューを提供するだけでなく、コミュニティ、特に計算言語学者と論理学者の間でより学際的な研究を動機付けることを願っている。
There have been a huge number of benchmarks proposed to evaluate how large language models (LLMs) behave for logic inference tasks. However, it remains an open question how to properly evaluate this ability. In this paper, we provide a systematic overview of prior works on the logical reasoning ability of LLMs for analyzing categorical syllogisms. We first investigate all the possible variations for the categorical syllogisms from a purely logical perspective and then examine the underlying configurations (i.e., mood and figure) tested by the existing datasets. Our results indicate that compared to template-based synthetic datasets, crowdsourcing approaches normally sacrifice the coverage of configurations (i.e., mood and figure) of categorical syllogisms for more language variations, thus bringing challenges to fully testing LLMs under different situations. We then proceed to summarize the findings and observations for the performances of LLMs to infer the validity of syllogisms from the current literature. The error rate breakdown analyses suggest that the interpretation of the quantifiers seems to be the current bottleneck that limits the performances of the LLMs and is thus worth more attention. Finally, we discuss several points that might be worth considering when researchers plan on the future release of categorical syllogism datasets. We hope our work will not only provide a timely review of the current literature regarding categorical syllogisms, but also motivate more interdisciplinary research between communities, specifically computational linguists and logicians. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# グラフニューラルネットワークにおける等角化リンク予測
Conformalized Link Prediction on Graph Neural Networks ( http://arxiv.org/abs/2406.18763v1 ) ライセンス: Link先を確認 | Tianyi Zhao, Jian Kang, Lu Cheng, | (参考訳) グラフニューラルネットワーク(GNN)は様々なタスクに優れていますが、高い領域でのその応用は信頼性の低い予測によって妨げられます。
この制限に対処するために多くの不確実な定量化法が提案されているが、それらはしばしば 'textit{rigorous} の不確実性推定を欠いている。
この研究は、GNNベースのリンク予測の統計的保証を伴う予測区間を構築するために、分布のない、モデルに依存しない不確実性定量化アプローチを導入する最初の試みである。
我々はそれを \textit{conformalized link prediction と呼ぶ。
これは統計的に堅牢な予測セットや間隔を構築することを約束するフレームワークである。
まず,CP をリンク予測タスクに適用するための置換不変条件と,正確なテスト時間カバレッジを理論的かつ実験的に確立する。
グラフにおける重要な構造情報を活用することで、グラフがパワー法則分布に忠実であることとCPの効率性の間に、新しくて重要な接続が特定される。
この知見は、標準CP手順に先立って、グラフ構造を電力法則分布に整合させる、単純で効果的なサンプリングベース手法の開発に繋がる。
共形リンク予測において,提案手法は提案手法に比べてCPの効率を著しく向上させつつ,所望の限界範囲範囲を達成できることが実証された。
Graph Neural Networks (GNNs) excel in diverse tasks, yet their applications in high-stakes domains are often hampered by unreliable predictions. Although numerous uncertainty quantification methods have been proposed to address this limitation, they often lack \textit{rigorous} uncertainty estimates. This work makes the first attempt to introduce a distribution-free and model-agnostic uncertainty quantification approach to construct a predictive interval with a statistical guarantee for GNN-based link prediction. We term it as \textit{conformalized link prediction.} Our approach builds upon conformal prediction (CP), a framework that promises to construct statistically robust prediction sets or intervals. We first theoretically and empirically establish a permutation invariance condition for the application of CP in link prediction tasks, along with an exact test-time coverage. Leveraging the important structural information in graphs, we then identify a novel and crucial connection between a graph's adherence to the power law distribution and the efficiency of CP. This insight leads to the development of a simple yet effective sampling-based method to align the graph structure with a power law distribution prior to the standard CP procedure. Extensive experiments demonstrate that for conformalized link prediction, our approach achieves the desired marginal coverage while significantly improving the efficiency of CP compared to baseline methods. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# トラップイオン格子手術における資源オーバーヘッドと到達率
Resource overheads and attainable rates for trapped-ion lattice surgery ( http://arxiv.org/abs/2406.18764v1 ) ライセンス: Link先を確認 | Hudson Leone, Thinh Le, S. Srikara, Simon Devitt, | (参考訳) 本研究では,空間的に分離されたイオン表面符号間の耐故障性格子手術に必要なイオン数の推定を行う。
さらに、論理量子ビット当たりの「通信イオン」を多数与えて、達成可能な格子手術率を決定する。
我々の分析は、症候群抽出サイクルの発生率に大きく依存するため、技術の現状を調査し、特定の技術的マイルストーンが満たされた場合、合理的に実現できる10ドルから1000ドルまでの3つのサイクルタイムを提案する。
その結果,最も低速な症例では数百個の資源イオンが必要であり,最速の場合では数十万近い資源イオンが必要であることが示唆された。
これらの禁止的な見積もりに寄与する主な要因は、イオンがトラップ間で結合できる制限速度である。
以上の結果から,トラップイオン量子コンピュータをスケールさせるためには,光カップリングの改善が急務であることが示唆された。
We present estimates for the number of ions needed to implement fault-tolerant lattice surgery between spatially separated trapped-ion surface codes. Additionally, we determine attainable lattice surgery rates given a number of dedicated "communication ions" per logical qubit. Because our analysis depends heavily on the rate that syndrome extraction cycles take place, we survey the state-of the art and propose three possible cycle times between $10$ and $1000 \mu s$ that we could reasonably see realised provided certain technological milestones are met. Consequently, our numerical results indicate that hundreds of resource ions will be needed for lattice surgery in the slowest case, while close to a hundred thousand will be needed in the fastest case. The main factor contributing to these prohibitive estimates is the limited rate that ions can be coupled across traps. Our results therefore indicate an urgent need for improved optical coupling in order for trapped-ion quantum computers to scale. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# WV-Net:1000万枚の画像に対するコントラスト学習を用いたSAR WVモード衛星画像の基礎モデル
WV-Net: A foundation model for SAR WV-mode satellite imagery trained using contrastive self-supervised learning on 10 million images ( http://arxiv.org/abs/2406.18765v1 ) ライセンス: Link先を確認 | Yannik Glaser, Justin E. Stopa, Linnea M. Wolniewicz, Ralph Foster, Doug Vandemark, Alexis Mouche, Bertrand Chapron, Peter Sadowski, | (参考訳) 欧州宇宙機関のCopernicus Sentinel-1(S-1)ミッションは、Cバンド合成開口レーダー(SAR)衛星のコンステレーションであり、世界の海洋を前例のない方法で観測する。
S-1の波動モード(WV)は、20×20kmの画像パッチを5mの解像度でキャプチャし、雲のカバーや日時の影響を受けない。
ミッションのオープンデータポリシにより、さまざまなアプリケーションで簡単にSARデータにアクセスできるようになるが、手動イメージアノテーションの必要性は、機械学習メソッドの使用を妨げるボトルネックである。
本研究では,1000万近いWVモード画像とコントラスト型自己教師型学習を用いて,WV-Netと呼ばれるセマンティック埋め込みモデルを訓練する。
複数の下流タスクにおいて、WV-Netは、教師あり学習を伴う自然画像(ImageNet)で事前訓練された同等のモデルより優れている。
実験では、波高の推定(線形探査による0.50対0.60 RMSE)、地表面温度の推定(0.90対0.97 RMSE)、物理現象と大気現象の多重分類(0.96対0.95マイクロ平均AUROC)の改善が示されている。
WV-Net埋め込みは教師なしのイメージ検索タスクでは優れており、データスパース設定ではスケールが優れている。
これらの結果は、WV-Net埋め込みが、様々なデータ分析および探索タスクに便利な基礎モデルを提供することで、地球物理学研究を支援することを実証している。
The European Space Agency's Copernicus Sentinel-1 (S-1) mission is a constellation of C-band synthetic aperture radar (SAR) satellites that provide unprecedented monitoring of the world's oceans. S-1's wave mode (WV) captures 20x20 km image patches at 5 m pixel resolution and is unaffected by cloud cover or time-of-day. The mission's open data policy has made SAR data easily accessible for a range of applications, but the need for manual image annotations is a bottleneck that hinders the use of machine learning methods. This study uses nearly 10 million WV-mode images and contrastive self-supervised learning to train a semantic embedding model called WV-Net. In multiple downstream tasks, WV-Net outperforms a comparable model that was pre-trained on natural images (ImageNet) with supervised learning. Experiments show improvements for estimating wave height (0.50 vs 0.60 RMSE using linear probing), estimating near-surface air temperature (0.90 vs 0.97 RMSE), and performing multilabel-classification of geophysical and atmospheric phenomena (0.96 vs 0.95 micro-averaged AUROC). WV-Net embeddings are also superior in an unsupervised image-retrieval task and scale better in data-sparse settings. Together, these results demonstrate that WV-Net embeddings can support geophysical research by providing a convenient foundation model for a variety of data analysis and exploration tasks. | 翻訳日:2024-06-28 15:56:54 公開日:2024-06-26 |
# 位相量子ウォークによる定時間探索アルゴリズム
Constant search time algorithm via topological quantum walks ( http://arxiv.org/abs/2406.18768v1 ) ライセンス: Link先を確認 | D. O. Oriekhov, Guliuxin Jin, Eliska Greplova, | (参考訳) グロバーのような量子アルゴリズムが、構造化されていない探索問題に対して4次高速化を提供できることはよく知られている。
探索問題に位相構造を加えることで、古典的な探索よりも探索確率を一定に改善した定時探索量子アルゴリズムを実現することができることを示す。
具体的には、位相的に非自明な位相を実現する2次元分割型量子ランダムウォークによって実現された空間探索アルゴリズムについて検討し、漸近探索挙動がシステムサイズの増加とともに一定であることを示す。
解析的および数値計算を用いて、量子ウォーカーのパラメータ空間における効率的な探索領域を決定する。
これらの領域は格子欠陥の近くで形成された一対の閉じ込められた状態に対応する。
離散時間進化演算子のスペクトル特性を研究することにより、これらの捕捉状態が初期状態と大きく重なることを示す。
この対応は、境界状態の構成的干渉による局所化に類似しており、最高の探索時間漸近状態に到達し、量子ランダムウォークにおいて障害に保護された高速探索を生成することができる。
It is well-known that quantum algorithms such as Grover's can provide a quadradic speed-up for unstructured search problems. By adding topological structure to a search problem, we show that it is possible to achieve a constant search-time quantum algorithm with a constant improvement of the search probability over classical search. Specifically, we study the spatial search algorithm implemented by a two-dimensional split-step quantum random walks that realize topologically nontrivial phases and show the asymptotic search behavior is constant with growing system size. Using analytical and numerical calculations, we determine the efficient search regions in the parameter space of the quantum walker. These regions correspond to pairs of trapped states formed near a lattice defect. By studying the spectral properties of the discrete time-evolution-operators, we show that these trapped states have large overlap with the initial state. This correspondence, which is analogous to localization by constructive interference of bound states, makes it possible to reach the best possible search-time asymptotic and produce a disorder-protected fast search in quantum random walks. | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# ADO-LLM:大規模言語モデルの文脈学習によるアナログ設計ベイズ最適化
ADO-LLM: Analog Design Bayesian Optimization with In-Context Learning of Large Language Models ( http://arxiv.org/abs/2406.18770v1 ) ライセンス: Link先を確認 | Yuxuan Yin, Yu Wang, Boxun Xu, Peng Li, | (参考訳) アナログ回路設計には人間の専門知識と関与がかなり必要であり、これは生産性を設計するための重要な障害である。
一般的な機械学習ベースの最適化戦略であるBayesian Optimization (BO)は、様々な回路トポロジや技術で適用可能なアナログ設計を自動化するために利用されてきた。
従来のBOメソッドではブラックボックスのガウシアンプロセスサロゲートモデルとラベル付きデータクエリを最適化し、探索とエクスプロイトのトレードオフによって最適化ソリューションを見つける。
しかし、BOにおける最適設計ソリューションの探索は、特に高次元最適化問題において、計算およびデータ利用の観点から、コストがかかる可能性がある。
本稿では,大規模言語モデル(LLM)とベイジアン最適化を統合したアナログ設計最適化手法であるADO-LLMを提案する。
ADO-LLM は LLM のドメイン知識を注入して実行可能な設計ポイントを迅速に生成する能力を活用し、BO の確率的サロゲートモデルの限られた設計空間で高価値な設計領域を見つけるのに、BO の非効率性を改善する。
一方、反復BOプロセスで評価された設計点のサンプリングは、LLMが注入された幅広い設計知識を活用しながら高品質な設計点を生成するための品質実証を提供する。
さらに、BOの探索によってもたらされる多様性は、LLMの文脈的理解を豊かにし、デザイン空間をより広く探索し、反復的かつ冗長な提案を防ぐことができる。
提案手法を2種類のアナログ回路上で評価し,設計効率と性能の顕著な向上を実証した。
Analog circuit design requires substantial human expertise and involvement, which is a significant roadblock to design productivity. Bayesian Optimization (BO), a popular machine learning based optimization strategy, has been leveraged to automate analog design given its applicability across various circuit topologies and technologies. Traditional BO methods employ black box Gaussian Process surrogate models and optimized labeled data queries to find optimization solutions by trading off between exploration and exploitation. However, the search for the optimal design solution in BO can be expensive from both a computational and data usage point of view, particularly for high dimensional optimization problems. This paper presents ADO-LLM, the first work integrating large language models (LLMs) with Bayesian Optimization for analog design optimization. ADO-LLM leverages the LLM's ability to infuse domain knowledge to rapidly generate viable design points to remedy BO's inefficiency in finding high value design areas specifically under the limited design space coverage of the BO's probabilistic surrogate model. In the meantime, sampling of design points evaluated in the iterative BO process provides quality demonstrations for the LLM to generate high quality design points while leveraging infused broad design knowledge. Furthermore, the diversity brought by BO's exploration enriches the contextual understanding of the LLM and allows it to more broadly search in the design space and prevent repetitive and redundant suggestions. We evaluate the proposed framework on two different types of analog circuits and demonstrate notable improvements in design efficiency and effectiveness. | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# ナイジェリアのピジンにおける暗黙の談話関係分類
Implicit Discourse Relation Classification For Nigerian Pidgin ( http://arxiv.org/abs/2406.18776v1 ) ライセンス: Link先を確認 | Muhammed Saeed, Peter Bourgonje, Vera Demberg, | (参考訳) 大規模言語モデルを多言語化しようとする試みにもかかわらず、世界の言語の多くはいまだに過大なリソースが不足している。
これにより、NLPとAIアプリケーション間のパフォーマンスギャップが拡大し、十分に洗練され、低リソースの言語を対象とするものとなる。
本稿では,ナイジェリア・ピジン(NP)に着目し,約1億人が話すが,比較的少ないNLP資源とコーパスを有する。
Inlicit Discourse Relation Classification (IDRC) の課題に対処し、NPデータを英語に翻訳し、十分なリソースのIDRCツールを使用してラベルをバックプロジェクションし、NPのための合成談話コーパスを作成し、PDTBとプロジェクトPDTBラベルを翻訳し、NP IDR分類器を訓練する手法を体系的に比較する。
ネイティブ」NP分類器を学習する後者のアプローチは、それぞれ4ウェイと11ウェイの分類において、f$_{1}$スコアの13.27\%と33.98\%でベースラインを上回ります。
Despite attempts to make Large Language Models multi-lingual, many of the world's languages are still severely under-resourced. This widens the performance gap between NLP and AI applications aimed at well-financed, and those aimed at less-resourced languages. In this paper, we focus on Nigerian Pidgin (NP), which is spoken by nearly 100 million people, but has comparatively very few NLP resources and corpora. We address the task of Implicit Discourse Relation Classification (IDRC) and systematically compare an approach translating NP data to English and then using a well-resourced IDRC tool and back-projecting the labels versus creating a synthetic discourse corpus for NP, in which we translate PDTB and project PDTB labels, and then train an NP IDR classifier. The latter approach of learning a "native" NP classifier outperforms our baseline by 13.27\% and 33.98\% in f$_{1}$ score for 4-way and 11-way classification, respectively. | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# コンフォーマルリスク制御によるモデル特性の調整
Aligning Model Properties via Conformal Risk Control ( http://arxiv.org/abs/2406.18777v1 ) ライセンス: Link先を確認 | William Overman, Jacqueline Jil Vallon, Mohsen Bayati, | (参考訳) AIモデルのアライメントは、トレーニングデータの不注意なバイアスと、優れたテストセットのメトリクスを持つ多数のモデルを生成できる現代の機械学習において、不特定パイプラインによって重要であるが、エンドユーザの要求を満たすことはできない。
最近の進歩は、人間のフィードバックによるトレーニング後のモデルアライメントがこれらの課題のいくつかに対処できることを示している。
しかしながら、これらの手法は、人間がモデル出力を解釈し、フィードバックを提供することができる設定(生成AIなど)に限られることが多い。
モデル出力が数値値やクラスである従来の非生成的設定では、単一サンプル出力によるミスアライメントの検出は非常に困難である。
本稿では,代替戦略について考察する。
プロパティテストを通じてモデルアライメントを解釈し、アライメントモデル$f$を、特定の望ましい振る舞いを示す関数のサブセット$\mathcal{P}$に属するものとして定義する。
我々は、共形リスク制御を用いて、事前訓練されたモデル$f$を$\mathcal{P}$に適合させるために後処理することに集中する。
具体的には、所定のプロパティに対して$\mathcal{P}$のクエリを、共形リスク制御アルゴリズムでの使用に適した損失関数の集合に変換するための一般的な手順を開発する。
我々は、$f$ の共形区間が $\mathcal{P}$ をほぼ満足する関数を含むという確率的保証を証明する。
広範なパラメータとトレーニングデータを備えた現代のAIモデルの能力を考えると、アライメントの問題が自然に解決すると仮定される。
しかし、ランダムな特徴モデルにおけるトレーニングデータやパラメータの増加は、事前トレーニングデータがバイアスを受けたときにアライメントテクニックの必要性を排除しない。
単調性や凹凸性などの特性に対する教師付き学習データセットのアライメント手法を実証する。
我々の柔軟な手順は、様々な望ましい性質に適用できる。
AI model alignment is crucial due to inadvertent biases in training data and the underspecified pipeline in modern machine learning, where numerous models with excellent test set metrics can be produced, yet they may not meet end-user requirements. Recent advances demonstrate that post-training model alignment via human feedback can address some of these challenges. However, these methods are often confined to settings (such as generative AI) where humans can interpret model outputs and provide feedback. In traditional non-generative settings, where model outputs are numerical values or classes, detecting misalignment through single-sample outputs is highly challenging. In this paper we consider an alternative strategy. We propose interpreting model alignment through property testing, defining an aligned model $f$ as one belonging to a subset $\mathcal{P}$ of functions that exhibit specific desired behaviors. We focus on post-processing a pre-trained model $f$ to better align with $\mathcal{P}$ using conformal risk control. Specifically, we develop a general procedure for converting queries for a given property $\mathcal{P}$ to a collection of loss functions suitable for use in a conformal risk control algorithm. We prove a probabilistic guarantee that the resulting conformal interval around $f$ contains a function approximately satisfying $\mathcal{P}$. Given the capabilities of modern AI models with extensive parameters and training data, one might assume alignment issues will resolve naturally. However, increasing training data or parameters in a random feature model doesn't eliminate the need for alignment techniques when pre-training data is biased. We demonstrate our alignment methodology on supervised learning datasets for properties like monotonicity and concavity. Our flexible procedure can be applied to various desired properties. | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# 整数線形プログラミングにおけるカット除去の学習
Learning to Remove Cuts in Integer Linear Programming ( http://arxiv.org/abs/2406.18781v1 ) ライセンス: Link先を確認 | Pol Puigdemont, Stratis Skoulakis, Grigorios Chrysos, Volkan Cevher, | (参考訳) カット平面法は整数線形プログラム(ILP)を解くための基本的な手法である。
このような手法の各反復において、最適整数解に影響を与えることなく、前の分数的最適解を除外する目的で、制約セットに追加線形制約(カット)が導入される。
そこで本研究では,新しいカットを付加する代わりに,学習可能なパラメトリック基準の下で,前回の反復で導入したカットの除去についても検討する。
基本組合せ最適化設定において、カット削除ポリシーは、単純なモデルで実装しても、人間ベースおよび機械学習誘導のカット追加ポリシーよりも大幅に改善されることを示した。
Cutting plane methods are a fundamental approach for solving integer linear programs (ILPs). In each iteration of such methods, additional linear constraints (cuts) are introduced to the constraint set with the aim of excluding the previous fractional optimal solution while not affecting the optimal integer solution. In this work, we explore a novel approach within cutting plane methods: instead of only adding new cuts, we also consider the removal of previous cuts introduced at any of the preceding iterations of the method under a learnable parametric criteria. We demonstrate that in fundamental combinatorial optimization settings such cut removal policies can lead to significant improvements over both human-based and machine learning-guided cut addition policies even when implemented with simple models. | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# サイバーセキュリティにおける心理学的プロファイリング : LLMと心理学的特徴について
Psychological Profiling in Cybersecurity: A Look at LLMs and Psycholinguistic Features ( http://arxiv.org/abs/2406.18783v1 ) ライセンス: Link先を確認 | Jean Marie Tshimula, D'Jeff K. Nkashama, Jean Tshibangu Muabila, René Manassé Galekwa, Hugues Kanda, Maximilien V. Dialufuma, Mbuyi Mukendi Didier, Kalala Kalonji, Serge Mundele, Patience Kinshie Lenye, Tighana Wenge Basele, Aristarque Ilunga, Christian N. Mayemba, Nathanaël M. Kasoro, Selain K. Kasereka, Hardy Mikese, Pierre-Martin Tardif, Marc Frappier, Froduald Kabanza, Belkacem Chikhaoui, Shengrui Wang, Ali Mulenda Sumbu, Xavier Ndona, Raoul Kienge-Kienge Intudi, | (参考訳) サイバー脅威の高度化は、サイバーセキュリティに対する革新的なアプローチを必要とする。
本稿では,心理学的プロファイリング手法の可能性,特にLLM(Large Language Models)と心理言語学的特徴の活用に焦点をあてる。
心理学とサイバーセキュリティの交わりについて検討し,脅威アクターの心理的特徴を識別するためのテキストデータ分析にLLMをどのように使用できるかについて議論した。
我々は,言語パターンや感情的手がかりなどの心理言語学的特徴をサイバーセキュリティフレームワークに組み入れることを検討する。
困難 ケーススタディと実験を通して,脅威検出および緩和戦略の強化におけるこれらの手法の有効性について論じる。
われわれの研究は、サイバーセキュリティの実践に心理学的視点を統合することが、進化する脅威に対する防御メカニズムを強化することの重要性を強調している。
The increasing sophistication of cyber threats necessitates innovative approaches to cybersecurity. In this paper, we explore the potential of psychological profiling techniques, particularly focusing on the utilization of Large Language Models (LLMs) and psycholinguistic features. We investigate the intersection of psychology and cybersecurity, discussing how LLMs can be employed to analyze textual data for identifying psychological traits of threat actors. We explore the incorporation of psycholinguistic features, such as linguistic patterns and emotional cues, into cybersecurity frameworks. \iffalse Through case studies and experiments, we discuss the effectiveness of these methods in enhancing threat detection and mitigation strategies.\fi Our research underscores the importance of integrating psychological perspectives into cybersecurity practices to bolster defense mechanisms against evolving threats. | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# 統一不確かさ:入力、データ、モデル不確かさを1つの定式化に組み合わせる
Unified Uncertainties: Combining Input, Data and Model Uncertainty into a Single Formulation ( http://arxiv.org/abs/2406.18787v1 ) ライセンス: Link先を確認 | Matias Valdenegro-Toro, Ivo Pascal de Jong, Marco Zullich, | (参考訳) 機械学習モデルにおける不確実性をモデル化することは、安全で信頼性の高い予測を達成するために不可欠である。
不確実性に関するほとんどの研究は出力の不確実性(予測)に焦点を当てているが、入力における不確実性に対して最小限の注意が払われる。
本稿では,入力,データ,モデル不確実性を同時に推定できるニューラルネットワークを用いて,入力の不確実性を伝播する手法を提案する。
以上の結果から,入力不確かさの伝播はモンテカルロサンプリングよりも大量の入力ノイズの下でもより安定な決定境界をもたらすことが示唆された。
さらに、入力の不確実性がモデルを通して伝播すると、出力におけるモデルの不確実性が発生することを議論し、実証する。
入力不確実性の明示的な取り込みは、入力不確実性の量が知られている状況では有益であるが、それでも良いデータセットが必要である。
Modelling uncertainty in Machine Learning models is essential for achieving safe and reliable predictions. Most research on uncertainty focuses on output uncertainty (predictions), but minimal attention is paid to uncertainty at inputs. We propose a method for propagating uncertainty in the inputs through a Neural Network that is simultaneously able to estimate input, data, and model uncertainty. Our results show that this propagation of input uncertainty results in a more stable decision boundary even under large amounts of input noise than comparatively simple Monte Carlo sampling. Additionally, we discuss and demonstrate that input uncertainty, when propagated through the model, results in model uncertainty at the outputs. The explicit incorporation of input uncertainty may be beneficial in situations where the amount of input uncertainty is known, though good datasets for this are still needed. | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# 非線形および量子フォトニクス応用のためのInGaP-on-Insulatorのウェハスケール作製
Wafer-Scale Fabrication of InGaP-on-Insulator for Nonlinear and Quantum Photonic Applications ( http://arxiv.org/abs/2406.18788v1 ) ライセンス: Link先を確認 | Lillian Thiel, Joshua E. Castro, Trevor J. Steiner, Catherine L. Nguyen, Audrey Pechilis, Liao Duan, Nicholas Lewis, Garrett D. Cole, John E. Bowers, Galan Moody, | (参考訳) 製造可能でスケーラブルな非線形フォトニック材料の開発は、高速通信、信号処理、センシング、量子情報といった様々な分野において重要な技術となっている。
ここでは、可視光通信波長$\chi^{\left(2\right)}$非線形光学プロセスに最適化された新しい非線形プラットフォーム、InGaP-on-insulatorを実演する。
本稿では, ウェハ接合, 光リソグラフィ, ドライエッチング技術により実現した100mmウエハスケールInGaP-on-insulator製造プロセスについて述べる。
得られたウェーハは製造サイクルごとに1000個の部品を生産し、初期設計にはチップ・ツー・ファイバ・カプラ、12.5cmのネスト・スパイラル・導波管、400-900GHzの自由スペクトル範囲を持つマイクロリング共振器が配置された。
我々は1.56dB cm$^{-1}$(1.22dB cm$^{-1}$)の伝搬損失に対応する1550nm付近の単共振モードにおいて、固有共振器品質係数を最大324,000 (440,000) まで示す。
導波路幅と共振器半径の損失を解析し、最適775〜1550nm位相マッチングの動作条件を確立する。
高い$\chi^{\left(2\right)$と$\chi^{\left(3\right)$の光非線形性とウェハスケールの加工と低伝搬損失を組み合わせることで、この結果は絡み合った光子、多重光子、圧縮光発生の可能性を開く。
The development of manufacturable and scalable integrated nonlinear photonic materials is driving key technologies in diverse areas such as high-speed communications, signal processing, sensing, and quantum information. Here, we demonstrate a novel nonlinear platform -- InGaP-on-insulator -- optimized for visible-to-telecommunication wavelength $\chi^{\left(2\right)}$ nonlinear optical processes. In this work, we detail our 100-mm wafer-scale InGaP-on-insulator fabrication process realized via wafer bonding, optical lithography, and dry-etching techniques. The resulting wafers yield 1000s of components in each fabrication cycle, with initial designs that include chip-to-fiber couplers, 12.5-cm-long nested spiral waveguides, and arrays of microring resonators with free-spectral ranges spanning 400-900 GHz. We demonstrate intrinsic resonator quality factors as high as 324,000 (440,000) for single-resonance (split-resonance) modes near 1550 nm corresponding to 1.56 dB cm$^{-1}$ (1.22 dB cm$^{-1}$) propagation loss. We analyze the loss versus waveguide width and resonator radius to establish the operating regime for optimal 775-to-1550 nm phase matching. By combining the high $\chi^{\left(2\right)}$ and $\chi^{\left(3\right)}$ optical nonlinearity of InGaP with wafer-scale fabrication and low propagation loss, these results open promising possibilities for entangled-photon, multi-photon, and squeezed light generation. | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# MUMU:テキストから画像データへのマルチモーダル画像生成のブートストラップ
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data ( http://arxiv.org/abs/2406.18790v1 ) ライセンス: Link先を確認 | William Berman, Alexander Peysakhovich, | (参考訳) 我々は, インターリーブされたテキストのマルチモーダルなプロンプトから画像を生成するためにモデルを訓練し, 「人間と犬の写真」のような画像を生成する。
合成画像および公開画像データの画像キャプション中の単語に対応する意味論的意味のある画像作物を抽出し、マルチモーダルデータセットをブートストラップする。
我々のモデルMUMUは拡散復号器を備えた視覚言語モデルエンコーダで構成されており、単一の8xH100 GPUノードで訓練されている。
MUMUは、同じ画像からの作物についてのみ訓練されているにもかかわらず、異なる画像からの入力をコヒーレントな出力に合成することを学ぶ。
例えば、現実的な人物と漫画の入力は、同一人物を漫画スタイルで出力し、立像とスクーターの入力は、スクーターに乗る被験者を出力する。
その結果,本モデルはスタイル伝達や文字の一貫性といったタスクに一般化される。
この結果から,画像生成のための汎用コントローラとしてマルチモーダルモデルを用いることが期待できることを示す。
We train a model to generate images from multimodal prompts of interleaved text and images such as "a <picture of a man> man and his <picture of a dog> dog in an <picture of a cartoon> animated style." We bootstrap a multimodal dataset by extracting semantically meaningful image crops corresponding to words in the image captions of synthetically generated and publicly available text-image data. Our model, MUMU, is composed of a vision-language model encoder with a diffusion decoder and is trained on a single 8xH100 GPU node. Despite being only trained on crops from the same image, MUMU learns to compose inputs from different images into a coherent output. For example, an input of a realistic person and a cartoon will output the same person in the cartoon style, and an input of a standing subject and a scooter will output the subject riding the scooter. As a result, our model generalizes to tasks such as style transfer and character consistency. Our results show the promise of using multimodal models as general purpose controllers for image generation. | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# リプシッツ演算子の演算子学習 : 情報理論の視点から
Operator Learning of Lipschitz Operators: An Information-Theoretic Perspective ( http://arxiv.org/abs/2406.18794v1 ) ライセンス: Link先を確認 | Samuel Lanthaler, | (参考訳) ニューラル演算子に基づく演算子学習は、無限次元バナッハ空間間の写像である演算子のデータ駆動近似の有望なパラダイムとして登場した。
経験的進歩にもかかわらず、これらの近似の効率に関する理論的理解はいまだに不完全である。
この研究は、リプシッツ連続作用素の一般クラスに対するニューラル作用素近似のパラメトリック複雑性に対処する。
パラメトリック複雑性の呪いという,特定のアーキテクチャの限界に関する最近の知見に触発され,情報理論の視点を取り入れた。
我々の主な貢献は、2つの近似設定におけるリプシッツ作用素の計量エントロピーの下位境界、すなわち、コンパクトな入力関数の集合に対する一様近似と、確率測度から引き出された入力関数による期待の近似である。
これらのエントロピー境界は、使用されるアクティベーション関数に関係なく、近似精度$\epsilon$に達するニューラル作用素アーキテクチャは、$\epsilon^{-1}$で指数関数的に大きいサイズでなければならないことを示唆している。
アーキテクチャのサイズは、与えられたモデルを計算メモリに格納するのに必要な符号化ビットの数を数えることによって測定される。
この研究の結果は、基本的なトレードオフと制限を解明する。
Operator learning based on neural operators has emerged as a promising paradigm for the data-driven approximation of operators, mapping between infinite-dimensional Banach spaces. Despite significant empirical progress, our theoretical understanding regarding the efficiency of these approximations remains incomplete. This work addresses the parametric complexity of neural operator approximations for the general class of Lipschitz continuous operators. Motivated by recent findings on the limitations of specific architectures, termed curse of parametric complexity, we here adopt an information-theoretic perspective. Our main contribution establishes lower bounds on the metric entropy of Lipschitz operators in two approximation settings; uniform approximation over a compact set of input functions, and approximation in expectation, with input functions drawn from a probability measure. It is shown that these entropy bounds imply that, regardless of the activation function used, neural operator architectures attaining an approximation accuracy $\epsilon$ must have a size that is exponentially large in $\epsilon^{-1}$. The size of architectures is here measured by counting the number of encoded bits necessary to store the given model in computational memory. The results of this work elucidate fundamental trade-offs and limitations in | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# 相関振幅減衰流路からの3次元絡みの保護
Protecting three-dimensional entanglement from correlated amplitude damping channel ( http://arxiv.org/abs/2406.18796v1 ) ライセンス: Link先を確認 | Xing Xiao, Wen-Rui Huang, Tian-Xiang Lu, Yan-Ling Li, | (参考訳) 量子絡み合いは量子情報処理において重要な資源であり、ノイズからそれを保護することは大きな課題である。
本稿では,QMR(quantum Measurement Reversal)とWM(Frot Measurement)とEAM(Environment-Assisted Measurement)の2つの手法を提案する。
三次元交絡状態の2つの原型クラスについて検討した。
その結果, WM+QMR法は絡み合いを部分的に保持できるが, EAM+QMR法は絡み合いの保護や成功確率の向上, 特に特定の四重項四重項絡み合い状態において有効であることがわかった。
さらに,相関効果が絡み合いの保護や成功確率の増大に与える影響についても深く論じる。
本結果はCADノイズから高次元の絡み合いを守るための貴重な洞察を与え,量子情報技術の進歩のための実用的な解決策を提供する。
Quantum entanglement is a crucial resource in quantum information processing, and protecting it against noise poses a significant challenge. This paper introduces two strategies for preserving qutrit-qutrit entanglement in the presence of correlated amplitude damping (CAD) noise: weak measurement (WM) and environment-assisted measurement (EAM), both combined with quantum measurement reversal (QMR). Two prototypical classes of three-dimensional entangled states are examined. The findings demonstrate that while the WM+QMR method can partially retain entanglement, the EAM+QMR approach is more effective at protecting entanglement as well as enhancing success probabilities, particularly for specific qutrit-qutrit entangled states. Additionally, we thoroughly discuss the impact of correlation effects on entanglement protection and the enhancement of success probability. Our results provide valuable insights into defending high-dimensional entanglement from CAD noise, thus offering practical solutions for the advancement of quantum information technologies. | 翻訳日:2024-06-28 15:47:01 公開日:2024-06-26 |
# ソフトウェアモデル補完のための大規模言語モデルを活用する:産業用および公共用データセットの結果
Leveraging Large Language Models for Software Model Completion: Results from Industrial and Public Datasets ( http://arxiv.org/abs/2406.17651v2 ) ライセンス: Link先を確認 | Christof Tinnes, Alisa Welter, Sven Apel, | (参考訳) ソフトウェアシステムの構造と振舞いのモデリングは、ソフトウェア工学の産業実践において重要な役割を果たす。
他のソフトウェアエンジニアリングアーティファクトと同様に、ソフトウェアモデルは進化の対象となる。
しかし、モデル完了を推奨するソフトウェアモデルの進化におけるモデラーのサポートは、まだ未解決の問題である。
本稿では,この課題に対する大規模言語モデルの可能性について検討する。
特に,大規模言語モデル,モデル履歴,検索拡張生成をモデル補完に活用した検索拡張生成を提案する。
産業アプリケーション,オープンソースコミュニティデータセット,シミュレートされたモデルリポジトリの1つの制御されたコレクションを含む3つのデータセットの実験を通じて,検索拡張生成によるモデル補完のための大規模言語モデルの可能性を評価する。
大規模な言語モデルは、ソフトウェアモデルの進化をサポートするための有望な技術であることがわかった(62.30%が実世界の産業データに対して意味論的に正しい完成であり、86.19%の型正しい完成である)。
大規模言語モデルの一般的な推論能力は、ほとんど、うるさい、あるいは全く例のない概念を扱う際に特に有用である。
Modeling structure and behavior of software systems plays a crucial role in the industrial practice of software engineering. As with other software engineering artifacts, software models are subject to evolution. Supporting modelers in evolving software models with recommendations for model completions is still an open problem, though. In this paper, we explore the potential of large language models for this task. In particular, we propose an approach, retrieval-augmented generation, leveraging large language models, model histories, and retrieval-augmented generation for model completion. Through experiments on three datasets, including an industrial application, one public open-source community dataset, and one controlled collection of simulated model repositories, we evaluate the potential of large language models for model completion with retrieval-augmented generation. We found that large language models are indeed a promising technology for supporting software model evolution (62.30% semantically correct completions on real-world industrial data and up to 86.19% type-correct completions). The general inference capabilities of large language models are particularly useful when dealing with concepts for which there are few, noisy, or no examples at all. | 翻訳日:2024-06-28 12:59:10 公開日:2024-06-26 |
# ディープQラーニングによる最適停止問題の解法
Solving optimal stopping problems with Deep Q-Learning ( http://arxiv.org/abs/2101.09682v2 ) ライセンス: Link先を確認 | John Ery, Loris Michel, | (参考訳) 本稿では,オプションタイプの製品に対して最適なエクササイズ戦略をモデル化するための強化学習(RL)手法を提案する。
本稿では,根底にある停止問題の最適作用値関数を学習するために,RL経路を追求する。
任意のステップで最適なQ-関数を取得することに加えて、開始時に契約価格を設定できる。
まず1つのエクササイズで標準設定について議論し、その後、制約がある場合の複数の停止機会にこのフレームワークを拡張します。
我々は,最小二乗モンテカルロフレームワークのような基底関数の仕様を必要とせず,高次元にスケーラブルなQ関数とディープニューラルネットワークを近似することを提案する。
我々は、トレーニングされたニューラルネットワークから得られるオプション価格と、停止問題の双対な定式化から得られる上限を低くし、Q-関数の観点からも表現できる。
提案手法は,スウィングオプションの価格を例に示す。
We propose a reinforcement learning (RL) approach to model optimal exercise strategies for option-type products. We pursue the RL avenue in order to learn the optimal action-value function of the underlying stopping problem. In addition to retrieving the optimal Q-function at any time step, one can also price the contract at inception. We first discuss the standard setting with one exercise right, and later extend this framework to the case of multiple stopping opportunities in the presence of constraints. We propose to approximate the Q-function with a deep neural network, which does not require the specification of basis functions as in the least-squares Monte Carlo framework and is scalable to higher dimensions. We derive a lower bound on the option price obtained from the trained neural network and an upper bound from the dual formulation of the stopping problem, which can also be expressed in terms of the Q-function. Our methodology is illustrated with examples covering the pricing of swing options. | 翻訳日:2024-06-27 20:13:23 公開日:2024-06-26 |
# 量子ドットシミュレータにおけるスターク多体局在による環境からのコヒーレンス保護
Protecting coherence from the environment via Stark many-body localization in a Quantum-Dot Simulator ( http://arxiv.org/abs/2204.13354v4 ) ライセンス: Link先を確認 | Subhajit Sarkar, Berislav Buča, | (参考訳) 半導体プラットフォームは量子ドットスピン量子ビットに量子情報を保存し、処理するための有望なアーキテクチャとして登場しつつある。
しかし、電子間の相互作用から生じる電荷ノイズは、量子コンピュータの多くの量子ビットのスケーラビリティとともに、大きな制限要因である。
半導体量子ドットアレイに磁場勾配を実装すれば、局所量子コヒーレント力学の$\ell-$bitを誘導し、論理量子ビットとして使用可能なポテンシャルを示すことを示す。
これらの動的$\ell-$bitsは、モデルが多体ローカライズされる原因である。
電子-フォノン相互作用が非局所的でない場合、これらの動的$\ell-$bitsとそれに対応する多体局在はフォノンを含む全てのノイズから十分に長期にわたって保護されることを示す。
さらに、熱化に基づく自己補正論理ゲートの実装について述べる。
この熱化に基づく誤差補正は、デコヒーレンスフリーおよびノイズレスサブシステムの標準パラダイムを超えている。
我々の研究は、半導体ベースの量子コンピュータにおいて、受動的量子誤り訂正のための新たな場所を開く。
Semiconductor platforms are emerging as a promising architecture for storing and processing quantum information, e.g., in quantum dot spin qubits. However, charge noise coming from interactions between the electrons is a major limiting factor, along with the scalability of many qubits, for a quantum computer. We show that a magnetic field gradient can be implemented in a semiconductor quantum dot array to induce a local quantum coherent dynamical $\ell-$bit exhibiting the potential to be used as logical qubits. These dynamical $\ell-$bits are responsible for the model being many-body localized. We show that these dynamical $\ell-$bits and the corresponding many-body localization are protected from all noises, including phonons, for sufficiently long times if electron-phonon interaction is not non-local. We further show the implementation of thermalization-based self-correcting logical gates. This thermalization-based error correction goes beyond the standard paradigm of decoherence-free and noiseless subsystems. Our work thus opens a new venue for passive quantum error correction in semiconductor-based quantum computers. | 翻訳日:2024-06-27 20:13:23 公開日:2024-06-26 |
# ES-GNN:エッジ分割によるホモフィリーを越えたグラフニューラルネットワークの一般化
ES-GNN: Generalizing Graph Neural Networks Beyond Homophily with Edge Splitting ( http://arxiv.org/abs/2205.13700v4 ) ライセンス: Link先を確認 | Jingwei Guo, Kaizhu Huang, Rui Zhang, Xinping Yi, | (参考訳) グラフニューラルネットワーク(GNN)は、複数のグラフ解析タスクにおいて大きな成功を収めてきたが、現代の変種は、主にホモフィリーの強い帰納バイアスに依存している。
しかし、現実世界のネットワークは通常、ホモ親和性およびヘテロ親和性リンクパターンの両方を示しており、隣接ノードは異種属性と異なるラベルを共有することができる。
したがって、ノード近接を均等に平滑化するGNNは、タスク関連情報と非有害な情報の両方を集約し、ヘテロ親和性グラフに一般化する能力を制限し、非破壊性を引き起こす可能性がある。
本研究では,学習タスクに関係のないグラフエッジを適応的に識別する新しいエッジ分割GNN(ES-GNN)フレームワークを提案する。
これは本質的に、元のグラフを同じノードセットを持つ2つの部分グラフに変換するが、相補的なエッジセットは動的である。
これを踏まえ、これらのサブグラフとエッジ分割を別々に行うことで、タスク関連・無関係な特徴を解消する。
理論的には、我々のES-GNNは、そのモチベーションをさらに具現化し、ホモフィリーを超えて改良された一般化を解釈する非交叉グラフデノナイジング問題の解とみなすことができる。
11のベンチマークと1の合成データセットに対する大規模な実験は、ES-GNNの効果的な性能を示すだけでなく、逆グラフに対する頑健さと過度に滑らかな問題の緩和を強調している。
While Graph Neural Networks (GNNs) have achieved enormous success in multiple graph analytical tasks, modern variants mostly rely on the strong inductive bias of homophily. However, real-world networks typically exhibit both homophilic and heterophilic linking patterns, wherein adjacent nodes may share dissimilar attributes and distinct labels. Therefore, GNNs smoothing node proximity holistically may aggregate both task-relevant and irrelevant (even harmful) information, limiting their ability to generalize to heterophilic graphs and potentially causing non-robustness. In this work, we propose a novel Edge Splitting GNN (ES-GNN) framework to adaptively distinguish between graph edges either relevant or irrelevant to learning tasks. This essentially transfers the original graph into two subgraphs with the same node set but complementary edge sets dynamically. Given that, information propagation separately on these subgraphs and edge splitting are alternatively conducted, thus disentangling the task-relevant and irrelevant features. Theoretically, we show that our ES-GNN can be regarded as a solution to a disentangled graph denoising problem, which further illustrates our motivations and interprets the improved generalization beyond homophily. Extensive experiments over 11 benchmark and 1 synthetic datasets not only demonstrate the effective performance of ES-GNN but also highlight its robustness to adversarial graphs and mitigation of the over-smoothing problem. | 翻訳日:2024-06-27 20:13:23 公開日:2024-06-26 |
# Dynamics-Agnostic Discriminator Ensemble によるトランスファタブル・リワード学習
Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble ( http://arxiv.org/abs/2206.00238v2 ) ライセンス: Link先を確認 | Fan-Ming Luo, Xingchen Cao, Rong-Jun Qin, Yang Yu, | (参考訳) 専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。
回復した報酬関数は、専門家のモチベーションを捉えます。
エージェントは、彼らの環境でこれらの報酬関数に従うことで専門家を模倣することができる。
しかし、エージェントはデモとは異なる環境に直面し、従って、移動可能な報酬関数を欲しがる。
逆強化学習(IRL)や対人模倣学習(AIL)のような古典的な報酬学習手法は、伝達が難しい訓練力学と結合した報酬関数を回復する。
従来の力学に依存しない報酬学習法は、報酬関数が状態のみでなければならないという仮定に依存し、適用性を制限する。
本研究では, AIL フレームワーク内の動的非依存型識別器・アンサンブル報酬学習法 (DARL) について述べる。
DARLは、報酬関数をトレーニング力学から切り離し、元の状態-作用空間から派生した潜在空間上の動的非依存判別器を使用する。
この潜在空間は、ダイナミクスに関する情報を最小限に抑えるために最適化されている。
さらに、転送可能性を低減するAILフレームワークのポリシー依存性の問題も発見します。
DARLは、報酬関数を、政策依存を取り除くための訓練中の差別者の集まりとして表現する。
MuJoCoタスクの動的変更による実証的研究は、DARLが報酬関数をよりよく回復し、転送された環境における模倣性能が向上し、状態のみの報酬シナリオと状態アクションの報酬シナリオの両方を扱うことを示している。
Recovering reward function from expert demonstrations is a fundamental problem in reinforcement learning. The recovered reward function captures the motivation of the expert. Agents can imitate experts by following these reward functions in their environment, which is known as apprentice learning. However, the agents may face environments different from the demonstrations, and therefore, desire transferable reward functions. Classical reward learning methods such as inverse reinforcement learning (IRL) or, equivalently, adversarial imitation learning (AIL), recover reward functions coupled with training dynamics, which are hard to be transferable. Previous dynamics-agnostic reward learning methods rely on assumptions such as that the reward function has to be state-only, restricting their applicability. In this work, we present a dynamics-agnostic discriminator-ensemble reward learning method (DARL) within the AIL framework, capable of learning both state-action and state-only reward functions. DARL achieves this by decoupling the reward function from training dynamics, employing a dynamics-agnostic discriminator on a latent space derived from the original state-action space. This latent space is optimized to minimize information on the dynamics. We moreover discover the policy-dependency issue of the AIL framework that reduces the transferability. DARL represents the reward function as an ensemble of discriminators during training to eliminate policy dependencies. Empirical studies on MuJoCo tasks with changed dynamics show that DARL better recovers the reward function and results in better imitation performance in transferred environments, handling both state-only and state-action reward scenarios. | 翻訳日:2024-06-27 20:13:23 公開日:2024-06-26 |
# 共振器ネットワークを用いたニューロモルフィック視覚シーン理解
Neuromorphic Visual Scene Understanding with Resonator Networks ( http://arxiv.org/abs/2208.12880v4 ) ライセンス: Link先を確認 | Alpha Renner, Lazar Supic, Andreea Danielescu, Giacomo Indiveri, Bruno A. Olshausen, Yulia Sandamirskaya, Friedrich T. Sommer, E. Paxon Frady, | (参考訳) 生成モデルの構成を推定することで視覚的シーンを分析することは、シーン理解における最も柔軟で一般化可能なアプローチであると考えられている。
しかし、一つの大きな問題は推論手順の計算上の課題であり、対象のアイデンティティやポーズを総合的に探索することである。
本稿では,(1)ベクトル記号アーキテクチャ(VSA)と複素値ベクトルを用いた計算フレームワーク,(2)非可換変換と視覚シーンの回転を分解する階層型共振器ネットワーク(HRN)の設計,(3)複合値共振器ネットワークを神経型ハードウェア上に実装するためのマルチコンパートメントスパイキング・ファサーニューロンモデルの設計,の3つの主要な概念を利用するニューロモルフィック・ソリューションを提案する。
VSAフレームワークはベクトル結合演算を用いて、幾何学変換の同変演算としてバインドが作用する生成画像モデルを形成する。
したがって、シーンはベクトル積の和として記述することができ、それによって共振器ネットワークによって効率よく分解され、オブジェクトとそのポーズを推測することができる。
HRNは、ベクトル結合が1つのパーティション内の水平および垂直の変換と、他のパーティション内の回転とスケーリングに等しくなる分割アーキテクチャを備えている。
スパイクニューロンモデルにより、共振器ネットワークを効率的で低消費電力のニューロモルフィックハードウェアにマッピングすることができる。
本手法は, 立体形状変換と色変化を行う単純な2次元形状からなる合成シーンで実証される。
機械ビジョンとロボット工学の現実的な応用シナリオにおいて、同種のアプローチを実証する。
Analyzing a visual scene by inferring the configuration of a generative model is widely considered the most flexible and generalizable approach to scene understanding. Yet, one major problem is the computational challenge of the inference procedure, involving a combinatorial search across object identities and poses. Here we propose a neuromorphic solution exploiting three key concepts: (1) a computational framework based on Vector Symbolic Architectures (VSA) with complex-valued vectors; (2) the design of Hierarchical Resonator Networks (HRN) to factorize the non-commutative transforms translation and rotation in visual scenes; (3) the design of a multi-compartment spiking phasor neuron model for implementing complex-valued resonator networks on neuromorphic hardware. The VSA framework uses vector binding operations to form a generative image model in which binding acts as the equivariant operation for geometric transformations. A scene can, therefore, be described as a sum of vector products, which can then be efficiently factorized by a resonator network to infer objects and their poses. The HRN features a partitioned architecture in which vector binding is equivariant for horizontal and vertical translation within one partition and for rotation and scaling within the other partition. The spiking neuron model allows mapping the resonator network onto efficient and low-power neuromorphic hardware. Our approach is demonstrated on synthetic scenes composed of simple 2D shapes undergoing rigid geometric transformations and color changes. A companion paper demonstrates the same approach in real-world application scenarios for machine vision and robotics. | 翻訳日:2024-06-27 20:13:23 公開日:2024-06-26 |
# ニューロモルフィック共振器ネットワークを用いた視覚計測
Visual Odometry with Neuromorphic Resonator Networks ( http://arxiv.org/abs/2209.02000v3 ) ライセンス: Link先を確認 | Alpha Renner, Lazar Supic, Andreea Danielescu, Giacomo Indiveri, E. Paxon Frady, Friedrich T. Sommer, Yulia Sandamirskaya, | (参考訳) 視覚オドメトリー(英語: Visual Odometry, VO)は、視覚センサを用いた移動ロボットの自走を推定する手法である。
慣性センサーやホイールエンコーダなどの誤差を蓄積できる差分測定の統合に基づくオドメトリーとは異なり、視覚的オドメトリーはドリフトによって損なわれない。
しかし、画像ベースのVOは計算的に要求されており、低レイテンシ、メモリ、エネルギー要求のあるユースケースでの利用を制限する。
ニューロモルフィックハードウェアは多くのビジョンやAI問題に対して低消費電力のソリューションを提供するが、そのようなソリューションの設計は複雑で、しばしばゼロから組み立てる必要がある。
本稿では,ニューロモルフィックハードウェアと互換性のあるアルゴリズムを設計するための抽象化レイヤとしてベクトル記号アーキテクチャ(VSA)を提案する。
シーン解析のためのVSAモデルを構築し,2次元VOタスクにおける最先端性能を実現するモジュール型ニューロモルフィックアルゴリズムを提案する。
具体的には、提案アルゴリズムは、提示された視覚環境の動作メモリを格納し、更新する。
この動作メモリに基づいて、共振器ネットワークは、カメラの位置と向きの変化を推定する。
ロボット作業を伴う動的シーンにおいて,イベントカメラデータセットをベースとした2つのベンチマークを用いて,ニューロモルフィックVSAベースのVOに対するアプローチを実験的に検証した。
Visual Odometry (VO) is a method to estimate self-motion of a mobile robot using visual sensors. Unlike odometry based on integrating differential measurements that can accumulate errors, such as inertial sensors or wheel encoders, visual odometry is not compromised by drift. However, image-based VO is computationally demanding, limiting its application in use cases with low-latency, -memory, and -energy requirements. Neuromorphic hardware offers low-power solutions to many vision and AI problems, but designing such solutions is complicated and often has to be assembled from scratch. Here we propose to use Vector Symbolic Architecture (VSA) as an abstraction layer to design algorithms compatible with neuromorphic hardware. Building from a VSA model for scene analysis, described in our companion paper, we present a modular neuromorphic algorithm that achieves state-of-the-art performance on two-dimensional VO tasks. Specifically, the proposed algorithm stores and updates a working memory of the presented visual environment. Based on this working memory, a resonator network estimates the changing location and orientation of the camera. We experimentally validate the neuromorphic VSA-based approach to VO with two benchmarks: one based on an event camera dataset and the other in a dynamic scene with a robotic task. | 翻訳日:2024-06-27 20:13:23 公開日:2024-06-26 |
# RKHMでの学習:カーネルマシンのための$C^*$-代数的ツイスト
Learning in RKHM: a $C^*$-Algebraic Twist for Kernel Machines ( http://arxiv.org/abs/2210.11855v3 ) ライセンス: Link先を確認 | Yuka Hashimoto, Masahiro Ikeda, Hachem Kadri, | (参考訳) カーネルヒルベルト空間(RKHS)とベクトル値RKHS(vvRKHS)の再現学習は30年以上にわたって研究されてきた。
本稿では、RKHSとvvRKHSの教師付き学習をカーネルHilbert $C^*$-module (RKHM)に一般化することで、このリッチな文献に新たなひねりを与えるとともに、$C^*$-algebraの観点から、有効正定値カーネルを構築する方法を示す。
RKHS や vvRKHS とは異なり、表現空間を拡大するために$C^*$-代数を使うことができる。
これにより、RKHS、vvRKHS、畳み込みニューラルネットワークのような既存の手法を超える表現力を持つRKHMを構築することができる。
私たちのフレームワークは、例えば、フーリエ成分の相互作用を許容することにより、画像データを効果的に分析するのに適しています。
Supervised learning in reproducing kernel Hilbert space (RKHS) and vector-valued RKHS (vvRKHS) has been investigated for more than 30 years. In this paper, we provide a new twist to this rich literature by generalizing supervised learning in RKHS and vvRKHS to reproducing kernel Hilbert $C^*$-module (RKHM), and show how to construct effective positive-definite kernels by considering the perspective of $C^*$-algebra. Unlike the cases of RKHS and vvRKHS, we can use $C^*$-algebras to enlarge representation spaces. This enables us to construct RKHMs whose representation power goes beyond RKHSs, vvRKHSs, and existing methods such as convolutional neural networks. Our framework is suitable, for example, for effectively analyzing image data by allowing the interaction of Fourier components. | 翻訳日:2024-06-27 20:13:23 公開日:2024-06-26 |
# 創発的世界表現:合成課題に基づくシーケンスモデルの探索
Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task ( http://arxiv.org/abs/2210.13382v5 ) ライセンス: Link先を確認 | Kenneth Li, Aspen K. Hopkins, David Bau, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg, | (参考訳) 言語モデルは驚くべき範囲の能力を示しているが、その明らかな能力の源泉は不明である。
これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか?
簡単なボードゲームOthelloにおける法的な動きを予測するタスクに,GPTモデルの変種を適用して検討する。
ネットワークはゲームやルールについて事前知識を持っていないが、ボード状態の突発的な非線形内部表現の証拠を明らかにする。
インターベンショナル実験は、この表現がネットワークの出力を制御し、人間の言葉で予測を説明するのに役立つ「ラテント・サリエンシ・マップ」を作成するために使用できることを示している。
Language models show a surprising range of capabilities, but the source of their apparent competence is unclear. Do these networks just memorize a collection of surface statistics, or do they rely on internal representations of the process that generates the sequences they see? We investigate this question by applying a variant of the GPT model to the task of predicting legal moves in a simple board game, Othello. Although the network has no a priori knowledge of the game or its rules, we uncover evidence of an emergent nonlinear internal representation of the board state. Interventional experiments indicate this representation can be used to control the output of the network and create "latent saliency maps" that can help explain predictions in human terms. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# ハードウェア効率の良いアンザッツの実用性について
On the practical usefulness of the Hardware Efficient Ansatz ( http://arxiv.org/abs/2211.01477v2 ) ライセンス: Link先を確認 | Lorenzo Leone, Salvatore F. E. Oliviero, Lukasz Cincio, M. Cerezo, | (参考訳) 変分量子アルゴリズム(VQA)と量子機械学習(QML)モデルは、与えられた学習タスクを解決するためにパラメタライズされた量子回路を訓練する。
これらのアルゴリズムの成功は、量子回路のアンサッツを適切に選択することに大きな意味を持つ。
おそらく最も有名なアンサーゼの1つは1次元の層状ハードウェア効率アンサーツ(HEA)であり、ネイティブゲートと接続体を用いてハードウェアノイズの影響を最小限に抑えることを目的としている。
このHEAの使用は、長い深さで不毛の台地に苦しむ一方で、浅い場所では避けられるという事実から、ある程度の曖昧さを生み出している。
本研究では,HEAを使用するべきか,使用すべきでないのかを判断する。
浅いHEAを回避すべきシナリオを厳格に特定する(例えば、VQAやQMLタスクは、エンタングルメントのボリューム法則を満たすデータである)。
さらに重要なことは、浅いHEAが量子スピードアップを達成することができるGoldilocksシナリオを特定することだ。
このようなシナリオ(例えばガウス対角角アンサンブルランダムハミルトン微分)の例を示し、これらの場合、浅いHEAは常に訓練可能であり、損失関数値の反集中が存在することを示す。
我々の研究は、入力状態がパラメタライズド量子回路のトレーニング可能性において重要な役割を担っていることを強調している。
Variational Quantum Algorithms (VQAs) and Quantum Machine Learning (QML) models train a parametrized quantum circuit to solve a given learning task. The success of these algorithms greatly hinges on appropriately choosing an ansatz for the quantum circuit. Perhaps one of the most famous ansatzes is the one-dimensional layered Hardware Efficient Ansatz (HEA), which seeks to minimize the effect of hardware noise by using native gates and connectives. The use of this HEA has generated a certain ambivalence arising from the fact that while it suffers from barren plateaus at long depths, it can also avoid them at shallow ones. In this work, we attempt to determine whether one should, or should not, use a HEA. We rigorously identify scenarios where shallow HEAs should likely be avoided (e.g., VQA or QML tasks with data satisfying a volume law of entanglement). More importantly, we identify a Goldilocks scenario where shallow HEAs could achieve a quantum speedup: QML tasks with data satisfying an area law of entanglement. We provide examples for such scenario (such as Gaussian diagonal ensemble random Hamiltonian discrimination), and we show that in these cases a shallow HEA is always trainable and that there exists an anti-concentration of loss function values. Our work highlights the crucial role that input states play in the trainability of a parametrized quantum circuit, a phenomenon that is verified in our numerics. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# InstantGroup:脳MRI登録のスケーラブルなグループのためのインスタントテンプレート生成
InstantGroup: Instant Template Generation for Scalable Group of Brain MRI Registration ( http://arxiv.org/abs/2211.05622v2 ) ライセンス: Link先を確認 | Ziyi He, Albert C. S. Chung, | (参考訳) テンプレート生成は、被験者のグループを共通の空間に整列させることを含む、グループワイド画像登録における重要なステップである。
既存の手法では、高品質なテンプレート画像を生成することができるが、時間的コストがかなり高い場合や、固定されたグループスケールによって制限される場合が多い。
本稿では,変分オートエンコーダ(VAE)モデルに基づく効率的なグループワイドテンプレート生成フレームワークであるInstantGroupを提案する。
InstantGroupは、共通のツインネットワークを持つデュアルVAEのバックボーンを備えており、テンプレートの不偏性を維持するためにDIM(Displacement Inversion Module)と、テンプレートの品質と登録精度を改善するためにSTAM(Subject-Template Alignment Module)が組み込まれている。
OASISとADNIデータセットからの3D脳MRIスキャンの実験によると、InstantGroupはランタイムを劇的に減らし、さまざまなグループサイズのテンプレートを生成すると同時に、不偏性や登録精度を含む定量的メトリクスに関する最先端のベースラインよりも優れたパフォーマンスを維持している。
Template generation is a critical step in groupwise image registration, which involves aligning a group of subjects into a common space. While existing methods can generate high-quality template images, they often incur substantial time costs or are limited by fixed group scales. In this paper, we present InstantGroup, an efficient groupwise template generation framework based on variational autoencoder (VAE) models that leverage latent representations' arithmetic properties, enabling scalability to groups of any size. InstantGroup features a Dual VAEs backbone with shared-weight twin networks to handle pairs of inputs and incorporates a Displacement Inversion Module (DIM) to maintain template unbiasedness and a Subject-Template Alignment Module (STAM) to improve template quality and registration accuracy. Experiments on 3D brain MRI scans from the OASIS and ADNI datasets reveal that InstantGroup dramatically reduces runtime, generating templates within seconds for various group sizes while maintaining superior performance compared to state-of-the-art baselines on quantitative metrics, including unbiasedness and registration accuracy. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# 絵画スタイルのスケーリング
Scaling Painting Style Transfer ( http://arxiv.org/abs/2212.13459v2 ) ライセンス: Link先を確認 | Bruno Galerne, Lara Raad, José Lezama, Jean-Michel Morel, | (参考訳) ニューラルスタイル転送(Neural Style Transfer, NST)は、スタイルイメージからコンテンツイメージへの、前例のないほどリッチなスタイル転送を生成するディープラーニング技術である。
絵画から画像にスタイルを移すという点では特に印象的だ。
NSTは、コンテンツ画像の局所的な幾何学的特徴を保ちながら、スタイル画像のグローバルな統計に適合する最適化問題を解くことで、もともと達成された。
この元来のアプローチの主な欠点は、計算コストが高く、出力画像の解像度が高いGPUメモリ要求によって制限されていることである。
NSTを加速し、より大きなサイズで画像を生成するための多くのソリューションが提案されている。
しかし,本研究では,これらの高速化手法が,絵画スタイルの転写の文脈における生成画像の品質を損なうことを示唆している。
実際、絵画のスタイルを移すことは、カラーパレットや作曲スタイルから細かなブラシストローク、キャンバスのテクスチャに至るまで、様々なスケールの特徴を含む複雑な作業である。
本稿では,超高解像度(UHR)画像に対する元のグローバル最適化を解き,前例のない画像サイズでのマルチスケールNSTを実現する。
これは、VGGネットワークを介して各前方および後方の計算を空間的に局所化することで達成される。
広汎な質的,定量的な比較,および『textcolor{coverletter}{perceptual study}』は,このような高精細な絵画スタイルに対して,不整合品質のスタイル転送が可能であることを示す。
慎重に比較すると、最先端のファストメソッドが依然としてアーティファクトの傾向にあることが示され、高速塗装スタイルの転送は未解決の問題のままである。
ソースコードはhttps://github.com/bgalerne/scaling_painting_style_transferで公開されている。
Neural style transfer (NST) is a deep learning technique that produces an unprecedentedly rich style transfer from a style image to a content image. It is particularly impressive when it comes to transferring style from a painting to an image. NST was originally achieved by solving an optimization problem to match the global statistics of the style image while preserving the local geometric features of the content image. The two main drawbacks of this original approach is that it is computationally expensive and that the resolution of the output images is limited by high GPU memory requirements. Many solutions have been proposed to both accelerate NST and produce images with larger size. However, our investigation shows that these accelerated methods all compromise the quality of the produced images in the context of painting style transfer. Indeed, transferring the style of a painting is a complex task involving features at different scales, from the color palette and compositional style to the fine brushstrokes and texture of the canvas. This paper provides a solution to solve the original global optimization for ultra-high resolution (UHR) images, enabling multiscale NST at unprecedented image sizes. This is achieved by spatially localizing the computation of each forward and backward passes through the VGG network. Extensive qualitative and quantitative comparisons, as well as a \textcolor{coverletter}{perceptual study}, show that our method produces style transfer of unmatched quality for such high-resolution painting styles. By a careful comparison, we show that state-of-the-art fast methods are still prone to artifacts, thus suggesting that fast painting style transfer remains an open problem. Source code is available at https://github.com/bgalerne/scaling_painting_style_transfer. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# 6-DOFカメラの同時追跡とマッピングのためのイベントベースアルゴリズム
An Event-based Algorithm for Simultaneous 6-DOF Camera Pose Tracking and Mapping ( http://arxiv.org/abs/2301.00618v3 ) ライセンス: Link先を確認 | Masoud Dayani Najafabadi, Mohammad Reza Ahmadzadeh, | (参考訳) 通常のカメラと比較して、ダイナミックビジョンセンサーやイベントカメラは、各ピクセル位置の強度の変化に基づいて、非同期にコンパクトな視覚データを出力することができる。
本稿では,これらの新しいセンサに対する現在の画像ベースSLAM技術の応用について検討する。
この目的のために、適応的に選択されたイベントウィンドウ内の情報を処理して、モーション補償画像を形成する。
これらの画像はシーンを再構築し、カメラの6-DOFのポーズを推定するために使用される。
また、その機能を評価するために、イベントのみのパイプラインの慣性バージョンを提案する。
提案アルゴリズムの異なる構成の結果と、2つの公開イベントデータセットのシーケンスの基底真理を比較した。
また、提案したイベント慣性パイプラインの結果を最先端のパイプラインと比較し、マップ推定が信頼できるならば、同等またはより正確な結果が得られることを示す。
Compared to regular cameras, Dynamic Vision Sensors or Event Cameras can output compact visual data based on a change in the intensity in each pixel location asynchronously. In this paper, we study the application of current image-based SLAM techniques to these novel sensors. To this end, the information in adaptively selected event windows is processed to form motion-compensated images. These images are then used to reconstruct the scene and estimate the 6-DOF pose of the camera. We also propose an inertial version of the event-only pipeline to assess its capabilities. We compare the results of different configurations of the proposed algorithm against the ground truth for sequences of two publicly available event datasets. We also compare the results of the proposed event-inertial pipeline with the state-of-the-art and show it can produce comparable or more accurate results provided the map estimate is reliable. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# STEEL:特異性を考慮した強化学習
STEEL: Singularity-aware Reinforcement Learning ( http://arxiv.org/abs/2301.13152v5 ) ライセンス: Link先を確認 | Xiaohong Chen, Zhengling Qi, Runzhe Wan, | (参考訳) バッチ強化学習(RL)は、事前に収集したデータを利用して、動的な環境において期待される全報酬を最大化する最適なポリシーを見つけることを目的としている。
既存の手法では、状態またはアクションまたはその両方に関するデータ分布に関して、ターゲットポリシーによって誘導される分布に対して、絶対的に連続的な仮定(例えば、重複しない領域は存在しない)を必要とする。
連続状態と動作を伴う無限水平マルコフ決定プロセスの設定において、状態空間と行動空間の両方の特異性(例えば、オフラインデータ分布とターゲットポリシーによって誘導される分布との間に重複しない領域の存在)を実現する新しいバッチRLアルゴリズムを提案する。
我々はアルゴリズムをSTEEL: SingulariTy-awarE rEinforcement Learningと呼んでいる。
このアルゴリズムは, 最大平均誤差と, 分散的に頑健な最適化を併用して, 特異点による外部評価の誤差を特徴付けるとともに, モデル外挿を可能にする。
悲観主義の考え方といくつかの技術的条件を活用することで、提案したアルゴリズムを特異性の下で最初の有限サンプルの後悔保証を導出する。
既存のアルゴリズムと比較して、STEELは最小限のデータカバレッジ仮定しか必要とせず、バッチRLの適用性と堅牢性を改善している。
さらに,チューニング不要に近い2段階適応STEELを提案する。
大規模シミュレーションとパーソナライズされた価格に関する1つの(半)実実験は,バッチRLにおける特異点の扱いにおいて,本手法の優れた性能を示す。
Batch reinforcement learning (RL) aims at leveraging pre-collected data to find an optimal policy that maximizes the expected total rewards in a dynamic environment. The existing methods require absolutely continuous assumption (e.g., there do not exist non-overlapping regions) on the distribution induced by target policies with respect to the data distribution over either the state or action or both. We propose a new batch RL algorithm that allows for singularity for both state and action spaces (e.g., existence of non-overlapping regions between offline data distribution and the distribution induced by the target policies) in the setting of an infinite-horizon Markov decision process with continuous states and actions. We call our algorithm STEEL: SingulariTy-awarE rEinforcement Learning. Our algorithm is motivated by a new error analysis on off-policy evaluation, where we use maximum mean discrepancy, together with distributionally robust optimization, to characterize the error of off-policy evaluation caused by the possible singularity and to enable model extrapolation. By leveraging the idea of pessimism and under some technical conditions, we derive a first finite-sample regret guarantee for our proposed algorithm under singularity. Compared with existing algorithms,by requiring only minimal data-coverage assumption, STEEL improves the applicability and robustness of batch RL. In addition, a two-step adaptive STEEL, which is nearly tuning-free, is proposed. Extensive simulation studies and one (semi)-real experiment on personalized pricing demonstrate the superior performance of our methods in dealing with possible singularity in batch RL. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# 最適勾配と低ランク近似を用いた結合非負のテンソル分解の高速学習
Fast Learnings of Coupled Nonnegative Tensor Decomposition Using Optimal Gradient and Low-rank Approximation ( http://arxiv.org/abs/2302.05119v2 ) ライセンス: Link先を確認 | Xiulin Wang, Jing Liu, Fengyu Cong, | (参考訳) テンソル分解は、信号処理、機械学習、その他の様々な分野に広く応用されている基礎技術である。
しかし、従来のテンソル分解法は、テンソル間の共有情報を効果的に探索するのにしばしば苦労するため、マルチブロックテンソルを共同で解析する際に制限に遭遇する。
本研究では,交互近位勾配法(CoNCPD-APG)により最適化された新しい非負のCANDECOMP/PARAFAC分解アルゴリズムを提案する。
このアルゴリズムは、部分的にあるいは完全にリンクされた異なるテンソルを同時に分解し、共通のコンポーネント、個々のコンポーネント、コアテンソルを抽出するという課題に対処するために特別に設計されている。
高次元テンソルデータ上での非負制約の最適化に固有の計算課題を認識し,LraCoNCPD-APGアルゴリズムを提案する。
提案手法は,低ランク近似をCONCPD-APG法と組み合わせることで,特にマルチブロック大規模テンソルにおいて,分解品質を損なうことなく計算負担を大幅に削減することができる。
合成データ,実世界の顔画像データ,および2種類の脳波データを用いたシミュレーション実験により,非負のテンソル分解問題に対する提案アルゴリズムの実用性と優位性を示した。
本研究は,複雑なマルチブロックテンソルデータから有意義なパターンや構造を明らかにする手法の有効性を実証し,今後の応用に有用な知見を提供する。
Tensor decomposition is a fundamental technique widely applied in signal processing, machine learning, and various other fields. However, traditional tensor decomposition methods encounter limitations when jointly analyzing multi-block tensors, as they often struggle to effectively explore shared information among tensors. In this study, we first introduce a novel coupled nonnegative CANDECOMP/PARAFAC decomposition algorithm optimized by the alternating proximal gradient method (CoNCPD-APG). This algorithm is specially designed to address the challenges of jointly decomposing different tensors that are partially or fully linked, while simultaneously extracting common components, individual components and, core tensors. Recognizing the computational challenges inherent in optimizing nonnegative constraints over high-dimensional tensor data, we further propose the lraCoNCPD-APG algorithm. By integrating low-rank approximation with the proposed CoNCPD-APG method, the proposed algorithm can significantly decrease the computational burden without compromising decomposition quality, particularly for multi-block large-scale tensors. Simulation experiments conducted on synthetic data, real-world face image data, and two kinds of electroencephalography (EEG) data demonstrate the practicality and superiority of the proposed algorithms for coupled nonnegative tensor decomposition problems. Our results underscore the efficacy of our methods in uncovering meaningful patterns and structures from complex multi-block tensor data, thereby offering valuable insights for future applications. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# RLにおけるマルチモーダル表現の再構成とコントラスト法の組み合わせ
Combining Reconstruction and Contrastive Methods for Multimodal Representations in RL ( http://arxiv.org/abs/2302.05342v4 ) ライセンス: Link先を確認 | Philipp Becker, Sebastian Mossburger, Fabian Otto, Gerhard Neumann, | (参考訳) 再構成や対照的な損失を用いた自己教師型表現の学習は、画像ベースおよびマルチモーダル強化学習(RL)の性能とサンプルの複雑さを向上させる。
ここでは、異なる自己教師付き損失関数は、基礎となるセンサのモジュラリティの情報密度によって異なる利点と制限を有する。
レコンストラクションは強力な学習信号を提供するが、気晴らしや刺激的な情報に影響を受けやすい。
対照的なアプローチはそれらを無視することができるが、関連するすべての詳細を捕捉できず、表現の崩壊につながる可能性がある。
マルチモーダルRLの場合、信号の歪み量に基づいて異なるモダリティを別々に扱う必要があることが示唆される。
コントラスト的再構成集約表現学習(CoRAL)を提案する。このフレームワークは,各センサのモダリティに対して,最も適切な自己監督的損失を選択でき,表現が関連する側面により焦点を合わせることができる。
我々はCoralの幅広いタスクに対するメリットを、注意散らしや閉塞を含むイメージ、新しい移動スイート、視覚的に現実的な注意散らしを伴う困難な操作スイートで評価する。
コントラストと再構成に基づく損失を組み合わせたマルチモーダル表現の学習は,より簡単な表現学習アプローチや近年のベースラインに到達できないタスクを著しく改善し,課題を解決できることを示す。
Learning self-supervised representations using reconstruction or contrastive losses improves performance and sample complexity of image-based and multimodal reinforcement learning (RL). Here, different self-supervised loss functions have distinct advantages and limitations depending on the information density of the underlying sensor modality. Reconstruction provides strong learning signals but is susceptible to distractions and spurious information. While contrastive approaches can ignore those, they may fail to capture all relevant details and can lead to representation collapse. For multimodal RL, this suggests that different modalities should be treated differently based on the amount of distractions in the signal. We propose Contrastive Reconstructive Aggregated representation Learning (CoRAL), a unified framework enabling us to choose the most appropriate self-supervised loss for each sensor modality and allowing the representation to better focus on relevant aspects. We evaluate CoRAL's benefits on a wide range of tasks with images containing distractions or occlusions, a new locomotion suite, and a challenging manipulation suite with visually realistic distractions. Our results show that learning a multimodal representation by combining contrastive and reconstruction-based losses can significantly improve performance and solve tasks that are out of reach for more naive representation learning approaches and other recent baselines. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# 音声の匿名化が音声診断に与える影響について : COVID-19検出を事例として
On the Impact of Voice Anonymization on Speech Diagnostic Applications: a Case Study on COVID-19 Detection ( http://arxiv.org/abs/2304.02181v2 ) ライセンス: Link先を確認 | Yi Zhu, Mohamed Imoussaïne-Aïkous, Carolyn Côté-Lussier, Tiago H. Falk, | (参考訳) ディープラーニングの進歩により、音声ベースのアプリケーションは、パーソナルアシスタント、感情コンピューティング、リモート病の診断など、急速に進歩している。
音声は言語情報とパラ言語情報の両方(例えば、声のピッチ、イントネーション、発話速度、大声)を含んでいるため、話者のプライバシーとアイデンティティを維持するために、音声匿名化への関心が高まっている。
音声によるプライバシーの問題はここ数年で浮上し、言語的コンテンツをそのまま維持しながら話者のアイデンティティを削除することに焦点が当てられている。
しかし、感情コンピューティングや疾患モニタリングのアプリケーションにとって、パラ言語的コンテンツはより重要かもしれない。
残念ながら、匿名化がこれらのシステムに与える影響は、いまだに不明である。
本稿では、このギャップを埋め、特定の健康モニタリングアプリケーション、すなわち音声による新型コロナウイルスの診断に焦点を当てる。
我々は,3つの匿名化手法と,その3つの公開データセットを用いた5種類の最先端の新型コロナウイルス診断システムへの影響を検証した。
匿名化手法の有効性を検証し、それらの計算複雑性を比較し、データ内およびデータ間条件の異なるテストシナリオにおける影響を定量化する。
さらに、診断における異なる音声側面の重要性を包括的に評価し、それらが異なる種類の匿名化要因にどのように影響されているかを示した。
最後に、匿名化された外部データをデータ拡張ツールとして使用することにより、匿名化に伴う新型コロナウイルスの診断精度の低下を回復する利点を示す。
With advances seen in deep learning, voice-based applications are burgeoning, ranging from personal assistants, affective computing, to remote disease diagnostics. As the voice contains both linguistic and para-linguistic information (e.g., vocal pitch, intonation, speech rate, loudness), there is growing interest in voice anonymization to preserve speaker privacy and identity. Voice privacy challenges have emerged over the last few years and focus has been placed on removing speaker identity while keeping linguistic content intact. For affective computing and disease monitoring applications, however, the para-linguistic content may be more critical. Unfortunately, the effects that anonymization may have on these systems are still largely unknown. In this paper, we fill this gap and focus on one particular health monitoring application: speech-based COVID-19 diagnosis. We test three anonymization methods and their impact on five different state-of-the-art COVID-19 diagnostic systems using three public datasets. We validate the effectiveness of the anonymization methods, compare their computational complexity, and quantify the impact across different testing scenarios for both within- and across-dataset conditions. Additionally, we provided a comprehensive evaluation of the importance of different speech aspects for diagnostics and showed how they are affected by different types of anonymizers. Lastly, we show the benefits of using anonymized external data as a data augmentation tool to help recover some of the COVID-19 diagnostic accuracy loss seen with anonymization. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# SALUDA: 表面をベースとした自動車用ライダー
SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation ( http://arxiv.org/abs/2304.03251v4 ) ライセンス: Link先を確認 | Björn Michele, Alexandre Boulch, Gilles Puy, Tuan-Hung Vu, Renaud Marlet, Nicolas Courty, | (参考訳) あるラベル付きデータセット上で、別のドメインでうまく一般化するモデルを学ぶことは、データドメイン間でいくつかのシフトが発生する可能性があるため、難しい作業である。
これはライダーデータにおいて特に顕著であり、例えば、異なるライダーパターンや取得条件の変化により、モデルが大きなパフォーマンスの相違を示すことができる。
本稿では,意味的セグメンテーションのためのUnsupervised Domain Adaptation (UDA)タスクについて述べる。
この問題を軽減するために、ソースデータとターゲットデータに基づいて暗黙的な表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
この新しい戦略は、統計的分岐の古典的な最小化やライダー固有のドメイン適応技術とは異なる。
本実験により,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実
Learning models on one labeled dataset that generalize well on another domain is a difficult task, as several shifts might happen between the data domains. This is notably the case for lidar data, for which models can exhibit large performance discrepancies due for instance to different lidar patterns or changes in acquisition conditions. This paper addresses the corresponding Unsupervised Domain Adaptation (UDA) task for semantic segmentation. To mitigate this problem, we introduce an unsupervised auxiliary task of learning an implicit underlying surface representation simultaneously on source and target data. As both domains share the same latent representation, the model is forced to accommodate discrepancies between the two sources of data. This novel strategy differs from classical minimization of statistical divergences or lidar-specific domain adaptation techniques. Our experiments demonstrate that our method achieves a better performance than the current state of the art, both in real-to-real and synthetic-to-real scenarios. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# d次元球のインジケータ関数に対するフーリエ級数とディープニューラルネットワークの点収束
Pointwise convergence of Fourier series and deep neural network for the indicator function of d-dimensional ball ( http://arxiv.org/abs/2304.08172v5 ) ライセンス: Link先を確認 | Ryota Kawasumi, Tsuyoshi Yoneda, | (参考訳) 本稿では,ディープニューラルネットワークとフーリエ級数との重大な違いを明らかにする。
$\mathbb{R}^d$ 上のいくつかのラジアル関数の周期化の多重フーリエ級数に対して、クラツボ (2010) は球面部分和の挙動を調査し、よく知られたギブス・ウィルブラハムとピンスキーの現象以外の3番目の現象を発見した。
特に第3のものは、点収束の防止を示す。
それとは対照的に、特定のディープニューラルネットワークを与え、ポイントワイド収束を証明します。
In this paper, we clarify the crucial difference between a deep neural network and the Fourier series. For the multiple Fourier series of periodization of some radial functions on $\mathbb{R}^d$, Kuratsubo (2010) investigated the behavior of the spherical partial sum and discovered the third phenomenon other than the well-known Gibbs-Wilbraham and Pinsky phenomena. In particular, the third one exhibits prevention of pointwise convergence. In contrast to it, we give a specific deep neural network and prove pointwise convergence. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# 線形層を持つReLUニューラルネットワークは、単一および複数インデックスモデルに向けてバイアスされる
ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models ( http://arxiv.org/abs/2305.15598v3 ) ライセンス: Link先を確認 | Suzanna Parkinson, Greg Ongie, Rebecca Willett, | (参考訳) ニューラルネットワークは、トレーニングサンプルよりもはるかに多くのパラメータがあり、トレーニングデータが完全に適合する、過度にパラメータ化された状態で運用されることが多い。
すなわち、ネットワークのトレーニングは、補間関数を効果的に学習し、補間関数の特性は、ネットワークが新しいサンプルで行う予測に影響を及ぼす。
この原稿は、2層以上の深さのニューラルネットワークによって学習されたそのような関数の性質について考察する。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
ニューラルネットワークアーキテクチャによって誘導される関数の表現コストは、関数を表現するのに必要な2乗重みの最小和である。
この結果から,浅いReLUネットワークの入力側に線形層を追加することにより,低次元部分空間に直交する方向が限定的であり,一次元あるいは多次元のモデルでよく近似できるという,混合変動の少ない関数を優先する表現コストが得られることがわかった。
そのような関数は、低二層表現コストと低ランク線形作用素の合成によって表される。
我々の実験は、標準的なネットワークトレーニングシステムにおいて、この挙動を確認した。
さらに、線形層は一般化を改善することができ、学習されたネットワークは、マルチインデックスモデルを用いてデータが生成されるとき、真の潜在低次元線形部分空間とよく一致していることを示す。
Neural networks often operate in the overparameterized regime, in which there are far more parameters than training samples, allowing the training data to be fit perfectly. That is, training the network effectively learns an interpolating function, and properties of the interpolant affect predictions the network will make on new samples. This manuscript explores how properties of such functions learned by neural networks of depth greater than two layers. Our framework considers a family of networks of varying depths that all have the same capacity but different representation costs. The representation cost of a function induced by a neural network architecture is the minimum sum of squared weights needed for the network to represent the function; it reflects the function space bias associated with the architecture. Our results show that adding additional linear layers to the input side of a shallow ReLU network yields a representation cost favoring functions with low mixed variation - that is, it has limited variation in directions orthogonal to a low-dimensional subspace and can be well approximated by a single- or multi-index model. Such functions may be represented by the composition of a function with low two-layer representation cost and a low-rank linear operator. Our experiments confirm this behavior in standard network training regimes. They additionally show that linear layers can improve generalization and the learned network is well-aligned with the true latent low-dimensional linear subspace when data is generated using a multi-index model. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# 0次元永続マッチングによる位相データ品質
Topological data quality via 0-dimensional persistence matching ( http://arxiv.org/abs/2306.02411v2 ) ライセンス: Link先を確認 | Álvaro Torras-Casas, Eduardo Paluzo-Hidalgo, Rocio Gonzalez-Diaz, | (参考訳) データ品質は、人工知能モデルのトレーニング、一般化、パフォーマンスの成功に不可欠である。
本稿では,トポロジカルデータ解析技術を用いた教師あり学習のためのデータ品質の測定手法を提案する。
具体的には、包含によって誘導される持続的マッチングと$0$次元の持続的ホモロジーを用いた新しい位相不変量を提供する。
そのような不変量は安定であることを示す。
帰納的射のイメージ、カーネル、コカーネルに関連付けるアルゴリズムを提供する。
また、この不変量によって、より大きなデータセットから、サブセットが「うまく表現する」かどうかを理解することができ、また、サブセットと完全なデータセットの間のハウスドルフ距離の限界を推定するためにも、それを利用することを示す。
このアプローチによって、選択したデータセットがパフォーマンスを低下させる理由を説明することができます。
Data quality is crucial for the successful training, generalization and performance of artificial intelligence models. We propose to measure data quality for supervised learning using topological data analysis techniques. Specifically, we provide a novel topological invariant based on persistence matchings induced by inclusions and using $0$-dimensional persistent homology. We show that such an invariant is stable. We provide an algorithm and relate it to images, kernels, and cokernels of the induced morphisms. Also, we show that the invariant allows us to understand whether the subset "represents well" the clusters from the larger dataset or not, and we also use it to estimate bounds for the Hausdorff distance between the subset and the complete dataset. This approach enables us to explain why the chosen dataset will lead to poor performance. | 翻訳日:2024-06-27 20:03:37 公開日:2024-06-26 |
# 推測時間干渉:言語モデルからの真理回答の除去
Inference-Time Intervention: Eliciting Truthful Answers from a Language Model ( http://arxiv.org/abs/2306.03341v6 ) ライセンス: Link先を確認 | Kenneth Li, Oam Patel, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg, | (参考訳) Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
この介入により、TruthfulQAベンチマークにおけるLLaMAモデルの性能が大幅に向上する。
アルパカ (Alpaca) と呼ばれる命令を微調整したLLaMAでは、ITIは真実性を32.5%から65.1%に改善している。
真実さと役に立つことのトレードオフを特定し、介入の強さを調整してバランスをとる方法を示します。
ITIは最小限の侵襲性があり、計算コストも安い。
さらに、この手法はデータ効率が良い: RLHFのようなアプローチは広範なアノテーションを必要とするが、ITIは数百の例を使って真正な方向を見つける。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
We introduce Inference-Time Intervention (ITI), a technique designed to enhance the "truthfulness" of large language models (LLMs). ITI operates by shifting model activations during inference, following a set of directions across a limited number of attention heads. This intervention significantly improves the performance of LLaMA models on the TruthfulQA benchmark. On an instruction-finetuned LLaMA called Alpaca, ITI improves its truthfulness from 32.5% to 65.1%. We identify a tradeoff between truthfulness and helpfulness and demonstrate how to balance it by tuning the intervention strength. ITI is minimally invasive and computationally inexpensive. Moreover, the technique is data efficient: while approaches like RLHF require extensive annotations, ITI locates truthful directions using only few hundred examples. Our findings suggest that LLMs may have an internal representation of the likelihood of something being true, even as they produce falsehoods on the surface. | 翻訳日:2024-06-27 19:53:53 公開日:2024-06-26 |
# 最終層インバージョンによる生成モデルの単一モデル属性
Single-Model Attribution of Generative Models Through Final-Layer Inversion ( http://arxiv.org/abs/2306.06210v5 ) ライセンス: Link先を確認 | Mike Laszkiewicz, Jonas Ricker, Johannes Lederer, Asja Fischer, | (参考訳) 生成モデリングの最近の進歩は、実用的な単一モデル属性への関心を喚起している。
このような方法は、サンプルが特定のジェネレータによって生成されたかどうかを予測し、例えば知的財産の盗難を証明する。
しかし、以前の作品はクローズドワールドの設定に限られるか、生成モデルに望ましくない変更を必要とするかのいずれかである。
まず、異常検出のレンズを通して単一モデルの属性を見ることで、これらの欠点に対処する。
この観点から,最終層反転と異常検出に基づくオープンワールド環境における単一モデル属性に対する新しいアプローチであるFLIPADを提案する。
得られた最終層インバージョンを凸ラッソ最適化問題に還元し,理論的に健全で計算効率がよいことを示す。
提案手法の有効性と各種領域に対する柔軟性について実験的に検討した。
Recent breakthroughs in generative modeling have sparked interest in practical single-model attribution. Such methods predict whether a sample was generated by a specific generator or not, for instance, to prove intellectual property theft. However, previous works are either limited to the closed-world setting or require undesirable changes to the generative model. We address these shortcomings by, first, viewing single-model attribution through the lens of anomaly detection. Arising from this change of perspective, we propose FLIPAD, a new approach for single-model attribution in the open-world setting based on final-layer inversion and anomaly detection. We show that the utilized final-layer inversion can be reduced to a convex lasso optimization problem, making our approach theoretically sound and computationally efficient. The theoretical findings are accompanied by an experimental study demonstrating the effectiveness of our approach and its flexibility to various domains. | 翻訳日:2024-06-27 19:53:53 公開日:2024-06-26 |
# MFSN:音声感情認識における事前学習知識のための多視点統合探索ネットワーク
MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition ( http://arxiv.org/abs/2306.09361v3 ) ライセンス: Link先を確認 | Haiyang Sun, Fulin Zhang, Yingying Gao, Zheng Lian, Shilei Zhang, Junlan Feng, | (参考訳) 音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。
近年の多くの研究は、事前訓練された知識を通じて感情的な手がかりを直接抽出することに焦点を当てており、適切性や包括性について考えることが多い。
そこで本稿では,Multi-perspective Fusion Search Network (MFSN) と呼ばれる,SERにおける知識の事前学習のための新しいフレームワークを提案する。
包括性を考慮して、音声知識をテキスト関連感情コンテンツ(TEC)と音声関連感情コンテンツ(SEC)に分割し、意味的・音響的視点から手がかりを捉えるとともに、それらを完全に活用するための新しいアーキテクチャ検索空間を設計する。
適切性を考慮して、SECの取得における様々なモデリング手法の有効性を検証するとともに、現在の研究のギャップを埋める。
複数のデータセットに対する実験結果は、MFSNの優位性を示している。
Speech Emotion Recognition (SER) is an important research topic in human-computer interaction. Many recent works focus on directly extracting emotional cues through pre-trained knowledge, frequently overlooking considerations of appropriateness and comprehensiveness. Therefore, we propose a novel framework for pre-training knowledge in SER, called Multi-perspective Fusion Search Network (MFSN). Considering comprehensiveness, we partition speech knowledge into Textual-related Emotional Content (TEC) and Speech-related Emotional Content (SEC), capturing cues from both semantic and acoustic perspectives, and we design a new architecture search space to fully leverage them. Considering appropriateness, we verify the efficacy of different modeling approaches in capturing SEC and fills the gap in current research. Experimental results on multiple datasets demonstrate the superiority of MFSN. | 翻訳日:2024-06-27 19:53:53 公開日:2024-06-26 |
# CLARA:信頼性の高い対話型ロボットエージェントのためのユーザコマンドの分類と曖昧化
CLARA: Classifying and Disambiguating User Commands for Reliable Interactive Robotic Agents ( http://arxiv.org/abs/2306.10376v6 ) ライセンス: Link先を確認 | Jeongeun Park, Seungwon Lim, Joonhyung Lee, Sangbeom Park, Minsuk Chang, Youngjae Yu, Sungjoon Choi, | (参考訳) 本稿では,大規模言語モデル(LLM)を用いた対話型ロボットエージェントの文脈において,与えられたユーザコマンドが明確であるか,曖昧であるか,あるいは不可能であるかを推定することに焦点を当てる。
この問題に対処するために、まず LLM に対して、コマンドが確実かどうか(すなわちクリアか)を分類する不確実性推定法を提案する。
コマンドが不確実であると分類されると、ゼロショット方式で状況認識コンテキストでLLMを活用する不明瞭なコマンドと非実用的なコマンドとを区別する。
あいまいなコマンドに対しては、質問生成を通じてLLMと対話することで、コマンドを曖昧にします。
我々は、与えられたコマンドを適切に認識することで、ロボットの誤動作や望ましくない動作が減少し、対話型ロボットエージェントの信頼性が向上すると考えている。
ロボットの状況認識のためのデータセットを,高レベルのコマンド,シーン記述,コマンドタイプ(クリア,あいまい,不可能)のラベルから作成する。
提案手法を収集したデータセット,ピック・アンド・プレイス・テーブルトップ・シミュレーション上で検証する。
最後に,実世界のロボットインタラクション実験,すなわちハンドオーバシナリオにおいて提案手法を実証する。
In this paper, we focus on inferring whether the given user command is clear, ambiguous, or infeasible in the context of interactive robotic agents utilizing large language models (LLMs). To tackle this problem, we first present an uncertainty estimation method for LLMs to classify whether the command is certain (i.e., clear) or not (i.e., ambiguous or infeasible). Once the command is classified as uncertain, we further distinguish it between ambiguous or infeasible commands leveraging LLMs with situational aware context in a zero-shot manner. For ambiguous commands, we disambiguate the command by interacting with users via question generation with LLMs. We believe that proper recognition of the given commands could lead to a decrease in malfunction and undesired actions of the robot, enhancing the reliability of interactive robot agents. We present a dataset for robotic situational awareness, consisting pair of high-level commands, scene descriptions, and labels of command type (i.e., clear, ambiguous, or infeasible). We validate the proposed method on the collected dataset, pick-and-place tabletop simulation. Finally, we demonstrate the proposed approach in real-world human-robot interaction experiments, i.e., handover scenarios. | 翻訳日:2024-06-27 19:53:53 公開日:2024-06-26 |
# Deep Fusion: 事前訓練によるネットワークトレーニングの効率化
Deep Fusion: Efficient Network Training via Pre-trained Initializations ( http://arxiv.org/abs/2306.11903v3 ) ライセンス: Link先を確認 | Hanna Mazzawi, Xavi Gonzalvo, Michael Wunder, Sammy Jerome, Benoit Dherin, | (参考訳) 近年、ディープラーニングは様々な分野において顕著な進歩を遂げており、特に自然言語処理タスクに顕著な影響を与えている。
LLMの文脈におけるディープニューラルネットワークのトレーニングに関連する課題の1つは、大量の計算リソースと時間の必要性である。
これを軽減するために、ネットワーク成長アルゴリズムは潜在的なコスト削減を提供するが、その基盤となるメカニズムは理解されていない。
本論文では2つの顕著な貢献について述べる。
まず、より小さなネットワークの初期化を事前訓練したネットワークトレーニングの効率的なアプローチであるDeep Fusionを提案する。
第2に,学習中のネットワーク成長のダイナミクスを説明するために,後方誤り解析を用いた理論的枠組みを提案する。
我々の実験は、Deep Fusionが訓練プロセスを加速するだけでなく、計算要求を低減し、様々なNLPタスクやT5モデルサイズにおける従来の訓練方法のパフォーマンスを維持または超える実践的で効果的なアプローチであることを示している。
最後に、Deep Fusionの最適利用を導く理論フレームワークを検証することにより、慎重に最適化されたトレーニングダイナミクスにより、トレーニング時間とリソース消費の両方を著しく削減できることを示す。
In recent years, deep learning has made remarkable progress in a wide range of domains, with a particularly notable impact on natural language processing tasks. One of the challenges associated with training deep neural networks in the context of LLMs is the need for large amounts of computational resources and time. To mitigate this, network growing algorithms offer potential cost savings, but their underlying mechanisms are poorly understood. We present two notable contributions in this paper. First, we present Deep Fusion, an efficient approach to network training that leverages pre-trained initializations of smaller networks. Second, we propose a theoretical framework using backward error analysis to illustrate the dynamics of mid-training network growth. Our experiments show how Deep Fusion is a practical and effective approach that not only accelerates the training process but also reduces computational requirements, maintaining or surpassing traditional training methods' performance in various NLP tasks and T5 model sizes. Finally, we validate our theoretical framework, which guides the optimal use of Deep Fusion, showing that with carefully optimized training dynamics, it significantly reduces both training time and resource consumption. | 翻訳日:2024-06-27 19:53:53 公開日:2024-06-26 |
# 非線形・非定常・確率系の凸データ駆動逆最適制御について
On Convex Data-Driven Inverse Optimal Control for Nonlinear, Non-stationary and Stochastic Systems ( http://arxiv.org/abs/2306.13928v2 ) ライセンス: Link先を確認 | Emiland Garrabe, Hozefa Jesawada, Carmen Del Vecchio, Giovanni Russo, | (参考訳) 本稿では, エージェントの動作を駆動する非凸・非定常コストの観測から, 再構成を目標とする有限水平逆制御問題について考察する。
本稿では,エージェントコストが不均一で,基礎となるダイナミクスが非線形で,非定常かつ確率的な場合においても,整合性のある最適化問題を解くことにより,コスト復元を可能にする結果を示す。
この結果を得るために、決定変数としてポリシーをランダム化した有限水平前方制御問題についても検討する。
提案手法をアルゴリズムに変換し,本手法の有効性を示す。
すべての実験が我々のアプローチの有効性を確認した。
This paper is concerned with a finite-horizon inverse control problem, which has the goal of reconstructing, from observations, the possibly non-convex and non-stationary cost driving the actions of an agent. In this context, we present a result enabling cost reconstruction by solving an optimization problem that is convex even when the agent cost is not and when the underlying dynamics is nonlinear, non-stationary and stochastic. To obtain this result, we also study a finite-horizon forward control problem that has randomized policies as decision variables. We turn our findings into algorithmic procedures and show the effectiveness of our approach via in-silico and hardware validations. All experiments confirm the effectiveness of our approach. | 翻訳日:2024-06-27 19:53:53 公開日:2024-06-26 |
# 時間変化変調評価のためのメタラーニング手法による因果帰属効果の推定
A Meta-Learning Method for Estimation of Causal Excursion Effects to Assess Time-Varying Moderation ( http://arxiv.org/abs/2306.16297v2 ) ライセンス: Link先を確認 | Jieru Shi, Walter Dempsey, | (参考訳) ウェアラブル技術とスマートフォンによる健康介入におけるツイン革命は、モバイルヘルス(mHealth)介入のアクセシビリティを大幅に向上させた。
マイクロランダム化試験(MRTs)は、mHealth介入の有効性を評価し、「因果抽出効果(causal excursion effect)」と呼ばれる新しい因果推定法を導入するために設計された。
これらの推定は、介入効果が時間とともにどのように変化するかの評価を可能にし、個々の特性や文脈に影響される。
しかし、既存の因果抽出効果の解析手法では、臨界ニュアンスパラメータの作業モデルを構築するために、観測された高次元歴史の特徴を予め特定する必要がある。
機械学習は自動機能構築には理想的と思われるが、その素直な応用は、モデルのミススペクテーションの下でバイアスを引き起こす可能性がある。
本稿では,メタラーナーの観点からの因果抽出効果の推定を再考し,解析者はニュアンスパラメータを推定するために使用される教師付き学習アルゴリズムに非依存のままである。
提案した推定器の双方向漸近特性を理論的および広範囲なシミュレーションにより比較する。
その結果, 相対効率が向上し, 既存手法の2倍頑健な代替案が提案された。
最後に,米国における初年度医療従事者の多施設コホート(NeCamp et al , 2020)のデータを分析することにより,提案手法の実用性を実証した。
Twin revolutions in wearable technologies and health interventions delivered by smartphones have greatly increased the accessibility of mobile health (mHealth) interventions. Micro-randomized trials (MRTs) are designed to assess the effectiveness of the mHealth intervention and introduce a novel class of causal estimands called "causal excursion effects." These estimands enable the evaluation of how intervention effects change over time and are influenced by individual characteristics or context. However, existing analysis methods for causal excursion effects require prespecified features of the observed high-dimensional history to build a working model for a critical nuisance parameter. Machine learning appears ideal for automatic feature construction, but their naive application can lead to bias under model misspecification. To address this issue, this paper revisits the estimation of causal excursion effects from a meta-learner perspective, where the analyst remains agnostic to the supervised learning algorithms used to estimate nuisance parameters. We present the bidirectional asymptotic properties of the proposed estimators and compare them both theoretically and through extensive simulations. The results show relative efficiency gains and support the suggestion of a doubly robust alternative to existing methods. Finally, the proposed methods' practical utilities are demonstrated by analyzing data from a multi-institution cohort of first-year medical residents in the United States (NeCamp et al., 2020). | 翻訳日:2024-06-27 19:53:53 公開日:2024-06-26 |
# 部分空間に制限された最適ミキサーと安定化形式
Optimal mixers restricted to subspaces and the stabilizer formalism ( http://arxiv.org/abs/2306.17083v5 ) ライセンス: Link先を確認 | Franz G. Fuchs, Ruben Pariente Bassa, | (参考訳) 与えられた部分空間を保存するミキサーの理解と構築を両立させる新しい形式主義を提示する。
この方法は、誤り訂正符号に使用される安定化器形式を接続して利用する。
これは、組合せ最適化問題の解法として一般的なメタヒューリスティックである量子近似最適化アルゴリズム(QAOA)が、問題の制約が大きくて容易に指定可能な部分空間に導かれるような設定に適用される場合に有用である。
提案手法は,制御されたノットゲートの数で資源効率のよいミキサーを構築する体系的な方法を提供し,よく知られたXとXYミキサーの一般化とGroverミキサーの緩和と理解することができる。
得られた数値例では, 従来の結果と比較してCXゲートが劇的に減少していた。
我々は、この部分空間を安定化器Sの符号空間に分割し、これらの符号空間に関連する論理回転Xゲートを連続的に適用するものとして理解することができるので、我々のアプローチを論理X-Mixerあるいは論理X QAOA(\textbf{LX-QAOA}$)と呼ぶ。
全体として、この新しい視点が量子アルゴリズムの発展に関するさらなる洞察に繋がることを願っている。
We present a novel formalism to both understand and construct mixers that preserve a given subspace. The method connects and utilizes the stabilizer formalism that is used in error correcting codes. This can be useful in the setting when the quantum approximate optimization algorithm (QAOA), a popular meta-heuristic for solving combinatorial optimization problems, is applied in the setting where the constraints of the problem lead to a feasible subspace that is large but easy to specify. The proposed method gives a systematic way to construct mixers that are resource efficient in the number of controlled not gates and can be understood as a generalization of the well-known X and XY mixers and a relaxation of the Grover mixer: Given a basis of any subspace, a resource efficient mixer can be constructed that preserves the subspace. The numerical examples provided show a dramatic reduction of CX gates when compared to previous results. We call our approach logical X-Mixer or logical X QAOA ($\textbf{LX-QAOA}$), since it can be understood as dividing the subspace into code spaces of stabilizers S and consecutively applying logical rotational X gates associated with these code spaces. Overall, we hope that this new perspective can lead to further insight into the development of quantum algorithms. | 翻訳日:2024-06-27 19:53:53 公開日:2024-06-26 |
# 弱測定を用いた普遍的量子テレポーテーションの実現に向けて
Towards realization of universal quantum teleportation using weak measurements ( http://arxiv.org/abs/2307.09231v4 ) ライセンス: Link先を確認 | Vivek Balasaheb Sabale, Atul Kumar, Subhashish Banerjee, | (参考訳) 本稿では,部分崩壊測定演算子を用いて,メモリやメモリレスダイナミクスの存在下での普遍的な量子テレポーテーションを解析する。
以上の結果から,メモリや非マルコフ性,弱測定の複合効果が量子テレポーテーション(UQT)に繋がる可能性が示唆された。
我々の研究は、特徴的マルコフ領域と非マルコフ領域を持つ物理的重要性のノイズモデルを含み、非マルコフ領域からマルコフ領域へ遷移するにつれて量子的性質の遷移を観察することができる。
このため,より長期にわたる相関の維持と情報逆流の両面から,効率的なUQTに対する異なる種類の非マルコビアン性の効果を特徴付ける。
さらに、相関チャネルから生じるメモリ効果を、弱い測定値の有無で分析する。
興味深いことに、相関振幅減衰チャネルの解析は、メモリ効果がフィデリティの偏差を最小限に抑える上で大きな利点であることを示している。
弱い測定値の存在は、記憶の存在下でのUQTの実現をさらに促進する。
非ゼロ時間におけるゼロ忠実度偏差を達成するための記憶効果の能力は興味深く、実験的に重要である。
In this manuscript, we analyze universal quantum teleportation in the presence of memory or memory-less dynamics with applications of partial collapse measurement operators. Our results show that the combined effects of memory or non-Markovianity and weak measurements can lead to universal quantum teleportation (UQT). Our study involves noise models of physical importance having characteristic Markovian and non-Markovian regions allowing one to observe a transition in quantum properties as one switches from non-Markovian to Markovian dynamics. For this, we characterize the effects of different types of non-Markovianity for efficient UQT both due to retention of correlations for a longer duration and due to information backflow. We further analyze memory effects arising from a correlated channel with or without weak measurements. Interestingly, our analysis for a correlated amplitude damping channel shows that memory effects are of significant advantage to minimize the fidelity deviation. The presence of weak measurements further enhances the realization of UQT in the presence of memory. The ability of memory effects in achieving zero fidelity deviation at non-zero time is interesting and of experimental importance. | 翻訳日:2024-06-27 19:53:52 公開日:2024-06-26 |
# 例外曲面を具現化した損失型最適閉ループにおける選択冷却とスクイーズ
Selective cooling and squeezing in a lossy optomechanical closed loop embodying an exceptional surface ( http://arxiv.org/abs/2307.09851v4 ) ライセンス: Link先を確認 | Beyza Sütlüoğlu Ege, Ceyhun Bulutay, | (参考訳) 1つの光学的および2つの退化機械的共振器からなる閉ループ損失光学系を計算学的に検討した。
このシステムは、相互結合係数のループ位相から導出される基本合成プラケットを構成する。
特定の量子特性を調べる際に、プラケット位相から選択された共振器内の2次分散の制御を探索する。
キャビティポンピングレーザに振幅変調を加えて機械的スクイーズを組み込む。
数値解析は, 冷却における定常共分散の無積分計算と, スクイーズにおけるフロッケ法に依存する。
我々は、非ハーモニティが冷却の強化や、例外的な点に近づいたスクイーズにおいて、いかに非ハーモニティが重要な役割を担っているかについての物理的な洞察を提供する。
この拡張は、メカニカルカップリング速度の関数としての複素固有値座の挙動と関連している。
さらに、パラメータ空間が例外曲面を具現化し、実験パラメータの変動の下での例外点特異点のロバスト性を保証することを実証する。
しかし、ポンプレーザの変形は、機械共鳴周波数に十分近い量でレッドサイドバンドに留まらない限り、例外的な表面から外れる。
最後に,この異種パラメトリックキャラクタが周波数依存性の冷却とスクイーズを行うことを示す。
A closed-loop, lossy optomechanical system consisting of one optical and two degenerate mechanical resonators is computationally investigated. This system constitutes an elementary synthetic plaquette derived from the loop phase of the intercoupling coefficients. In examining a specific quantum attribute, we delve into the control of quadrature variances within the resonator selected through the plaquette phase. An amplitude modulation is additionally applied to the cavity-pumping laser to incorporate mechanical squeezing. Our numerical analysis relies on the integration-free computation of steady-state covariances for cooling and the Floquet technique for squeezing. We provide physical insights into how non-Hermiticity plays a crucial role in enhancing cooling and squeezing in proximity to exceptional points. This enhancement is associated with the behavior of complex eigenvalue loci as a function of the intermechanical coupling rate. Additionally, we demonstrate that the parameter space embodies an exceptional surface, ensuring the robustness of exceptional point singularities under experimental parameter variations. However, the pump laser detuning breaks away from the exceptional surface unless it resides on the red-sideband by an amount sufficiently close to the mechanical resonance frequency. Finally, we show that this disparate parametric character entitles frequency-dependent cooling and squeezing, which is of technological importance. | 翻訳日:2024-06-27 19:53:52 公開日:2024-06-26 |
# サンプル・ツー・クエリ・リフティングによる量子下界の研究
Quantum Lower Bounds by Sample-to-Query Lifting ( http://arxiv.org/abs/2308.01794v2 ) ライセンス: Link先を確認 | Qisheng Wang, Zhicheng Zhang, | (参考訳) Beals, Buhrman, Cleve, Mosca, de Wolf (FOCS 1998) の多項式法と Ambainis (STOC 2000) の逆法は、様々な問題に対する量子クエリの下界の証明に強力であることが示されている。
本稿では,情報理論の観点から,量子サンプル対クエリリフト定理を用いて,量子クエリの下限を証明するための新しい手法を提案する。
1) 量子状態の判別により最適かつ飽和な量子特性試験に関する,量子サンプルとクエリ複雑性の2次関係を求める。
2. 逆温度$\beta$における量子ギブズサンプリングの値に一致する$\widetilde \Omega(\beta)$は、Gily\'en, Su, Low, Wiebe (STOC 2019) による量子ギブズサンプリングが最適であることを示す。
3. 新しい下界$\widetilde \Omega(1/\sqrt{\Delta})$は、最近She and Yuen (ITCS 2023) によって研究されたギャップ$\Delta$で絡み合うエントロピー問題に対するものである。
4. O'Donnell and Wright (STOC 2015) による量子状態スペクトル検定のためのサンプル下界に基づく,行列スペクトル検定のための一連の量子クエリ下界。
さらに、位相/振幅推定やハミルトニアンシミュレーションなど、これまで異なる手法で証明されてきたいくつかの既知の下界に対する統一的な証明も提供する。
The polynomial method by Beals, Buhrman, Cleve, Mosca, and de Wolf (FOCS 1998) and the adversary method by Ambainis (STOC 2000) have been shown to be powerful in proving quantum query lower bounds for a wide variety of problems. In this paper, we propose an arguably new method for proving quantum query lower bounds by a quantum sample-to-query lifting theorem, which is from an information theory perspective. Using this method, we obtain the following new results: 1. A quadratic relation between quantum sample and query complexities regarding quantum property testing, which is optimal and saturated by quantum state discrimination. 2. A matching lower bound $\widetilde \Omega(\beta)$ for quantum Gibbs sampling at inverse temperature $\beta$, showing that the quantum Gibbs sampler by Gily\'en, Su, Low, and Wiebe (STOC 2019) is optimal. 3. A new lower bound $\widetilde \Omega(1/\sqrt{\Delta})$ for the entanglement entropy problem with gap $\Delta$, which was recently studied by She and Yuen (ITCS 2023). 4. A series of quantum query lower bounds for matrix spectrum testing, based on the sample lower bounds for quantum state spectrum testing by O'Donnell and Wright (STOC 2015). In addition, we also provide unified proofs for some known lower bounds that have been proven previously via different techniques, including those for phase/amplitude estimation and Hamiltonian simulation. | 翻訳日:2024-06-27 19:53:52 公開日:2024-06-26 |
# 深部補償展開ネットワークによる低照度光場画像の強調
Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network ( http://arxiv.org/abs/2308.05404v3 ) ライセンス: Link先を確認 | Xianqiang Lyu, Junhui Hou, | (参考訳) 本稿では,低光環境下での光場(LF)画像の復元を目的とした,DCUNet(Deep compensation Openfolding Network)と呼ばれる新しいエンドツーエンド学習フレームワークを提案する。
DCUNetは、データ駆動方式で逆イメージング問題を解決する最適化プロセスを模倣した多段階アーキテクチャで設計されている。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
さらに、DCUNetは、ノイズと照明マップ推定誤差を抑制するために、各最適化段階でコンテンツ関連深い補償モジュールを含んでいる。
本稿では,LF画像の特徴を適切に掘り下げ,活用するために,LF画像の冗長情報を包括的に活用する擬似明示的特徴相互作用モジュールを提案する。
シミュレーションと実データの両方の実験結果は、定性的かつ定量的に、最先端の手法よりもDCUNetの方が優れていることを示している。
さらに、DCUNetは拡張LF画像の基本的幾何学構造をずっとよく保存する。
コードはhttps://github.com/lyuxianqiang/LFLL-DCUで公開されている。
This paper presents a novel and interpretable end-to-end learning framework, called the deep compensation unfolding network (DCUNet), for restoring light field (LF) images captured under low-light conditions. DCUNet is designed with a multi-stage architecture that mimics the optimization process of solving an inverse imaging problem in a data-driven fashion. The framework uses the intermediate enhanced result to estimate the illumination map, which is then employed in the unfolding process to produce a new enhanced result. Additionally, DCUNet includes a content-associated deep compensation module at each optimization stage to suppress noise and illumination map estimation errors. To properly mine and leverage the unique characteristics of LF images, this paper proposes a pseudo-explicit feature interaction module that comprehensively exploits redundant information in LF images. The experimental results on both simulated and real datasets demonstrate the superiority of our DCUNet over state-of-the-art methods, both qualitatively and quantitatively. Moreover, DCUNet preserves the essential geometric structure of enhanced LF images much better. The code will be publicly available at https://github.com/lyuxianqiang/LFLL-DCU. | 翻訳日:2024-06-27 19:53:52 公開日:2024-06-26 |
# 加速光トラップを用いた捕捉原子干渉計の可能性
Feasibility of a trapped atom interferometer with accelerating optical traps ( http://arxiv.org/abs/2308.12246v4 ) ライセンス: Link先を確認 | Gayathrini Premawardhana, Jonathan Kunjummen, Sarthak Subhankar, Jacob M. Taylor, | (参考訳) 原子干渉計の測定フェーズを増やし、感度を向上させるために、研究者は、インターフェロメーターアーム間のより大きな分離と長い進化時間を持つ2つの方法を用いて、囲まれた時空領域を拡大しようと試みた。
しかし、進化時間の増大はサンプリング可能な帯域幅を減少させる一方、進化時間の減少は感度を悪化させる。
本稿では、高帯域アプリケーションのためのセットアップを提案し、全体的な感度を改善して、この問題に対処する。
これは光双極子トラップを用いて原子を加速・保持することで実現される。
最大10^{3}$-$10^{5}$ m/s$^2$の加速度は、AODを用いてトラップを動かすことができる。
従来の原子干渉計の基準線としての加速度へのアプローチの感度を比較することで、最先端技術にかなりの改善が見られた。
適切なビームと光学安定化の限界において、10$^{-14}$ (m/s$^2$)/$\sqrt{\rm Hz}$は1Hzで達成可能であり、従来の自由落下原子干渉計よりも1kHzの感度で検出できる。
In order to increase the measured phase of an atom interferometer and improve its sensitivity, researchers attempt to increase the enclosed space-time area using two methods: creating larger separations between the interferometer arms and having longer evolution times. However, increasing the evolution time reduces the bandwidth that can be sampled, whereas decreasing the evolution time worsens the sensitivity. In this paper, we attempt to address this by proposing a setup for high-bandwidth applications, with improved overall sensitivity. This is realized by accelerating and holding the atoms using optical dipole traps. We find that accelerations of up to $10^{3}$-$10^{5}$ m/s$^2$ can be achieved using acousto-optic deflectors (AODs) to move the traps. By comparing the sensitivity of our approach to acceleration as a baseline to traditional atom interferometry, we find a substantial improvement to the state of the art. In the limit of appropriate beam and optics stabilization, sensitivities approaching 10$^{-14}$ (m/s$^2$)/$\sqrt{\rm Hz}$ may be achievable at 1 Hz, while detection at 1 kHz with a sensitivity an order of magnitude better than traditional free-fall atom interferometers is possible with today's systems. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# マヨラナ・フェルミオンはヴィーデマン・フランツ法に違反してパワー・ロー・スケーリングを誘発する
Majorana fermion induced power-law scaling in the violation of Wiedemann-Franz law ( http://arxiv.org/abs/2309.05492v2 ) ライセンス: Link先を確認 | Sachiraj Mishra, Ritesh Das, Colin Benjamin, | (参考訳) マヨラナ境界状態 (MBS) による2次元トポロジカル絶縁体におけるウィーデマン・フランツ法 (WF) の違反について, 単一粒子像におけるローレンツ比を用いて検討した。
本研究では,バチカー電圧温度プローブを用いた非弾性散乱によるMBSの存在と欠如におけるローレンツ比のスケーリングについて検討した。
我々は、この結果と、トポロジカルな近藤政権で活動しているルッティンガー液体画像の量子ドット接合で見られるものとの比較を行った。
我々は, 相緩和と運動量緩和のいずれにおいても非弾性散乱が起こる場合, あるいは相緩和だけでローレンツ比のスケーリングを考察する。
このスケーリングは、未結合および結合マヨナ境界状態の両方に対してルッティンガー液体像によって予測されるものと異なり、非弾性散乱の性質に依存する。
Violation of the Wiedemann-Franz (WF) law in a 2D topological insulator due to Majorana bound states (MBS) is studied via the Lorenz ratio in the single-particle picture. We study the scaling of the Lorenz ratio in the presence and absence of MBS with inelastic scattering modeled using a Buttiker voltage-temperature probe. We compare our results with that seen in a quantum dot junction in the Luttinger liquid picture operating in the topological Kondo regime. We explore the scaling of the Lorentz ratio in our setup when either inelastic scattering occurs with both phase and momentum relaxation or via phase relaxation alone. This scaling differs from that predicted by the Luttinger liquid picture for both uncoupled and coupled Majorana bound states and depends on the nature of inelastic scattering. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# ビデオにおける非教師なしオープンボキャブラリ物体位置決め
Unsupervised Open-Vocabulary Object Localization in Videos ( http://arxiv.org/abs/2309.09858v2 ) ライセンス: Link先を確認 | Ke Fan, Zechen Bai, Tianjun Xiao, Dominik Zietlow, Max Horn, Zixu Zhao, Carl-Johann Simon-Gabriel, Mike Zheng Shou, Francesco Locatello, Bernt Schiele, Thomas Brox, Zheng Zhang, Yanwei Fu, Tong He, | (参考訳) 本稿では,映像表現学習と事前学習型視覚言語モデルの進歩により,自己教師付き映像オブジェクトのローカライゼーションが大幅に向上したことを示す。
そこで本稿では,まず,スロットアテンションを考慮したオブジェクト中心アプローチを用いてビデオ内のオブジェクトをローカライズし,得られたスロットにテキストを割り当てる手法を提案する。
後者は、事前訓練されたCLIPモデルから局所的なセマンティック情報を読み取る教師なしの方法によって実現される。
結果として得られるビデオオブジェクトのローカライゼーションは、CLIPに含まれる暗黙のアノテーションとは別に完全に教師なしであり、事実上、通常のビデオベンチマークで良い結果をもたらす最初の教師なしのアプローチである。
In this paper, we show that recent advances in video representation learning and pre-trained vision-language models allow for substantial improvements in self-supervised video object localization. We propose a method that first localizes objects in videos via an object-centric approach with slot attention and then assigns text to the obtained slots. The latter is achieved by an unsupervised way to read localized semantic information from the pre-trained CLIP model. The resulting video object localization is entirely unsupervised apart from the implicit annotation contained in CLIP, and it is effectively the first unsupervised approach that yields good results on regular video benchmarks. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# CMS電磁計のオンラインデータ品質モニタリングのためのオートエンコーダによる異常検出システム
Autoencoder-based Anomaly Detection System for Online Data Quality Monitoring of the CMS Electromagnetic Calorimeter ( http://arxiv.org/abs/2309.10157v2 ) ライセンス: Link先を確認 | The CMS ECAL Collaboration, | (参考訳) CMS検出器はLHCで発生する高エネルギー衝突を検出する汎用装置である。
CMS電磁カロリー計のオンラインデータ品質モニタリングは、検出器の専門家が物理学データの品質に影響を与える可能性のある幅広い検出器の問題を素早く特定し、局所化し、診断するための重要な操作ツールである。
半教師付き機械学習を用いたリアルタイムオートエンコーダによる異常検出システムを提案する。
異常の時間依存性の進化と検出応答の空間的変動を利用して、異常検出性能を最大化する新しい手法を提案する。
オートエンコーダベースのシステムは、非常に低い偽発見率を維持しながら、効率よく異常を検出することができる。
システムの性能は、2018年と2022年のLHC衝突データに見られる異常で検証される。
さらに、CMSのオンラインデータ品質監視ワークフローに自動エンコーダベースのシステムをデプロイした最初の結果が、LHCのRun 3で発表された。
The CMS detector is a general-purpose apparatus that detects high-energy collisions produced at the LHC. Online Data Quality Monitoring of the CMS electromagnetic calorimeter is a vital operational tool that allows detector experts to quickly identify, localize, and diagnose a broad range of detector issues that could affect the quality of physics data. A real-time autoencoder-based anomaly detection system using semi-supervised machine learning is presented enabling the detection of anomalies in the CMS electromagnetic calorimeter data. A novel method is introduced which maximizes the anomaly detection performance by exploiting the time-dependent evolution of anomalies as well as spatial variations in the detector response. The autoencoder-based system is able to efficiently detect anomalies, while maintaining a very low false discovery rate. The performance of the system is validated with anomalies found in 2018 and 2022 LHC collision data. Additionally, the first results from deploying the autoencoder-based system in the CMS online Data Quality Monitoring workflow during the beginning of Run 3 of the LHC are presented, showing its ability to detect issues missed by the existing system. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# 時間結晶は周期的に駆動された量子スピン系におけるキメラ様状態を具現化する
Time crystal embodies chimeralike state in periodically driven quantum spin system ( http://arxiv.org/abs/2309.16523v4 ) ライセンス: Link先を確認 | Mahbub Rahaman, Akitada Sakurai, Analabha Roy, | (参考訳) キメラ状態(英: Chimera state)は、複数の相互接続された要素からなるシステムが、同期化と非同期化の特徴的な組み合わせを示す現象である。
これらの状態の出現は、量子的絡み合いと系の構成要素間の相互作用の微妙なバランスの間の複雑な相互依存性に起因する。
典型的な多体周期駆動系における離散時間結晶(DTC)の出現は、時間翻訳対称性の破れがあるときに起こる。
異なる種類のスピン-スピン相互作用に対する無秩序スピン-1/2鎖の制御スピン回転誤差の下で, DTCと強磁性多体局在(DMBL)相の共存について検討した。
我々は、周期的に駆動される量子多体系における外部静的場に対して堅牢なDMC-DMBL-chimera様状態の出現に対する新しいアプローチに寄与する。
Chimera states are a captivating occurrence in which a system composed of multiple interconnected elements exhibits a distinctive combination of synchronized and desynchronized behavior. The emergence of these states can be attributed to the complex interdependence between quantum entanglement and the delicate balance of interactions among system constituents. The emergence of discrete-time crystal (DTC) in typical many-body periodically driven systems occurs when there is a breaking of time translation symmetry. Coexisting coupled DTC and a ferromagnetic dynamically many-body localized (DMBL) phase at distinct regions have been investigated under the controlled spin rotational error of a disorder-free spin-1/2 chain for different types of spin-spin interactions. We contribute a novel approach for the emergence of the DTC-DMBL-chimeralike state, which is robust against external static fields in a periodically driven quantum many-body system. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# 空間効率・ノイズローバスト量子ファクタリング
Space-Efficient and Noise-Robust Quantum Factoring ( http://arxiv.org/abs/2310.00899v4 ) ライセンス: Link先を確認 | Seyoon Ragavan, Vinod Vaikuntanathan, | (参考訳) 我々はRegevの最近の量子ファクタリングアルゴリズム(arXiv:2308.06572)に2つの改良を加え、その空間効率と耐雑音性に対処する。
最初の貢献は、回路サイズを同じに保ちながら、Regevのアルゴリズムの量子空間効率を改善することである。
我々の主な結果は、$O(n \log n)$ qubits と $O(n^{3/2} \log n)$ gates を用いて量子ファクタリング回路を構成する。
我々はShorとRegev(空間複雑性の対数係数まで)のベストを達成する:一方、Regevの回路は$O(n^{3/2})$ qubitsと$O(n^{3/2} \log n)$ gates、Shorの回路は$O(n^2 \log n)$ gatesだが$O(n)$ qubitsしか必要としない。
Regev と同様に、$n$-bit 整数 $N$ を係数として、我々は独立に $\approx \sqrt{n}$ times を実行し、Regev の古典的な後処理手順を適用する。
我々の最適化は、古典的可逆設定から量子設定へのカリスキー(arXiv:1711.02491)による2の通常のパワーよりも、指数のフィボナッチ数による効率的で可逆的な指数化を実装することで達成される。
この技術は、空間と大きさの両方で効率のよい量子モジュラー指数を、かなりの事前計算を必要とせず実行することが可能であり、これは他の量子アルゴリズムに有用である。
我々の指数化実装の鍵となる要素は、量子量子量子モジュラー乗法に類似した関数の効率的な回路である。
第二の貢献は、レゲフの古典的な後処理手順が量子回路の一定の部分の誤りを許容するために修正可能であることを示すことである。
対照的に、Regevの古典的なポストプロセッシング手順の分析では、すべての$\approx \sqrt{n}$の実行が成功する必要がある。
簡単に言えば、格子還元法を用いて、破損したサンプルを検出し、フィルタリングする。
We provide two improvements to Regev's recent quantum factoring algorithm (arXiv:2308.06572), addressing its space efficiency and its noise-tolerance. Our first contribution is to improve the quantum space efficiency of Regev's algorithm while keeping the circuit size the same. Our main result constructs a quantum factoring circuit using $O(n \log n)$ qubits and $O(n^{3/2} \log n)$ gates. We achieve the best of Shor and Regev (upto a logarithmic factor in the space complexity): on the one hand, Regev's circuit requires $O(n^{3/2})$ qubits and $O(n^{3/2} \log n)$ gates, while Shor's circuit requires $O(n^2 \log n)$ gates but only $O(n)$ qubits. As with Regev, to factor an $n$-bit integer $N$, we run our circuit independently $\approx \sqrt{n}$ times and applies Regev's classical postprocessing procedure. Our optimization is achieved by implementing efficient and reversible exponentiation with Fibonacci numbers in the exponent, rather than the usual powers of 2, adapting work by Kaliski (arXiv:1711.02491) from the classical reversible setting to the quantum setting. This technique also allows us to perform quantum modular exponentiation that is efficient in both space and size without requiring significant precomputation, a result that may be useful for other quantum algorithms. A key ingredient of our exponentiation implementation is an efficient circuit for a function resembling in-place quantum-quantum modular multiplication. Our second contribution is to show that Regev's classical postprocessing procedure can be modified to tolerate a constant fraction of the quantum circuit runs being corrupted by errors. In contrast, Regev's analysis of his classical postprocessing procedure requires all $\approx \sqrt{n}$ runs to be successful. In a nutshell, we achieve this using lattice reduction techniques to detect and filter out corrupt samples. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# ObjFormer: Paired OSMデータとObject-Guided Transformerによる光高分解能画像から土地被覆変化を学習する
ObjFormer: Learning Land-Cover Changes From Paired OSM Data and Optical High-Resolution Imagery via Object-Guided Transformer ( http://arxiv.org/abs/2310.02674v3 ) ライセンス: Link先を確認 | Hongruixuan Chen, Cuiling Lan, Jian Song, Clifford Broni-Bediako, Junshi Xia, Naoto Yokoya, | (参考訳) 光高解像度画像とOSMデータは、変化検出(CD)の2つの重要なデータ源である。
これまでの研究は、光高解像度画像のCDを支援するためにOSMデータの情報を活用することに重点を置いていた。
本稿では,ペアOSMデータと光学画像を用いた土地被覆変化の直接検出を先導し,CDタスクの範囲を広げる。
そこで本研究では,オブジェクトベース画像解析(OBIA)技術と高度な視覚変換アーキテクチャを自然に組み合わせたオブジェクト指向トランスフォーマー(ObjFormer)を提案する。
この組み合わせにより、余分なパラメータやレイヤを追加することなく、自己アテンションモジュールの計算オーバーヘッドを大幅に削減できる。
ObjFormerは、OSMデータと光画像から多段階の不均一な特徴を抽出するオブジェクト誘導自己アテンションモジュールからなる階層的な擬似スキームエンコーダを持ち、オブジェクト誘導相互アテンションモジュールからなるデコーダは、抽出された異種特徴から土地被覆変化を回復することができる。
本稿では, 基本2値変化検出以外にも, 意味変化検出の訓練に手動で注釈付き土地被覆ラベルを必要としない, 半教師付き意味変化検出タスクを新たに立ち上げる。
このタスクを効率的に達成するために、2つの軽量セマンティックデコーダがObjFormerに追加されている。
逆のクロスエントロピー損失は、負のサンプルを完全に活用するように設計されており、このタスクの大幅な性能向上に寄与する。
6大陸40地域をカバーする1,287のサンプルを含むOpenMapCDと呼ばれる大規模なベンチマークデータセットを構築し、詳細な実験を行った。
本研究は,本手法のCDタスクにおける有効性を示すものである。
また、日本の都市におけるケーススタディでは、フレームワークの一般化可能性と実用可能性を示している。
OpenMapCDとソースコードはhttps://github.com/ChenHongruixuan/ObjFormerで入手できる。
Optical high-resolution imagery and OSM data are two important data sources of change detection (CD). Previous related studies focus on utilizing the information in OSM data to aid the CD on optical high-resolution images. This paper pioneers the direct detection of land-cover changes utilizing paired OSM data and optical imagery, thereby expanding the scope of CD tasks. To this end, we propose an object-guided Transformer (ObjFormer) by naturally combining the object-based image analysis (OBIA) technique with the advanced vision Transformer architecture. This combination can significantly reduce the computational overhead in the self-attention module without adding extra parameters or layers. ObjFormer has a hierarchical pseudo-siamese encoder consisting of object-guided self-attention modules that extracts multi-level heterogeneous features from OSM data and optical images; a decoder consisting of object-guided cross-attention modules can recover land-cover changes from the extracted heterogeneous features. Beyond basic binary change detection, this paper raises a new semi-supervised semantic change detection task that does not require any manually annotated land-cover labels to train semantic change detectors. Two lightweight semantic decoders are added to ObjFormer to accomplish this task efficiently. A converse cross-entropy loss is designed to fully utilize negative samples, contributing to the great performance improvement in this task. A large-scale benchmark dataset called OpenMapCD containing 1,287 samples covering 40 regions on six continents is constructed to conduct detailed experiments. The results show the effectiveness of our methods in this new kind of CD task. Additionally, case studies in Japanese cities demonstrate the framework's generalizability and practical potential. The OpenMapCD and source code are available in https://github.com/ChenHongruixuan/ObjFormer | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# 直交分極からの絡み合いと古典的非分離性変換
Entanglement and classical nonseparability convertible from orthogonal polarizations ( http://arxiv.org/abs/2310.04065v2 ) ライセンス: Link先を確認 | Minghui Li, Wei Wang, Zikang Tang, Hou Ian, | (参考訳) 単一モード光重畳状態の非古典性は、ビームスプリッタ上の真空と混合された状態では、絡み合うことが可能である。
ユークリッド空間における偏光度自由度を持つ光ビームを両部ヒルベルト空間におけるコヒーレント積状態として考慮し、2つの直交偏光をコヒーレントなフォック状態と置換されたフォック状態の重ね合わせにおける非古典性による同時絡み合いと古典的非分離性に変換する方法を提案する。
得られた重ね合わせから等価なベル状態が出現し、偏光方向に沿った変位振幅によって混合絡み合いと非分離性の比率が決定される。
我々は、ウィグナー分布の特徴による状態非古典性を特徴付けるとともに、これらの状態を生成し、ホモダインのトモグラフィーにより測定する実験方法を提案する。
The nonclassicality of a macroscopic single-mode optical superposition state is potentially convertible into entanglement, when the state is mixed with the vacuum on a beam splitter. Considering light beams with polarization degree of freedom in Euclidean space as coherent product states in a bipartite Hilbert space, we propose a method to convert the two orthogonal polarizations into simultaneous entanglement and classical nonseparability through nonclassicality in the superpositions of coherent and displaced Fock states. Equivalent Bell state emerges from the resulted superpositions and the proportion of mixed entanglement and nonseparablity is determined by the displacement amplitudes along the polarization directions. We characterize the state nonclassicality via features in Wigner distributions and propose an experimental method for generating these states and measuring them via homodyne tomography. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# 画像分割のための分子線エピタキシー方程式正規化による再初期化自由レベルセット法
Re-initialization-free Level Set Method via Molecular Beam Epitaxy Equation Regularization for Image Segmentation ( http://arxiv.org/abs/2310.08861v2 ) ライセンス: Link先を確認 | Fanghui Song, Jiebao Sun, Shengzhu Shi, Zhichang Guo, Dazhi Zhang, | (参考訳) 変化レベルセット法は、複雑な位相変化を処理し、進化の過程で連続性と滑らかさを維持する能力により、画像分割において強力なツールとなっている。
しかし、その進化過程は不安定であり、結果として平坦あるいは過度に鋭い輪郭とセグメンテーションの失敗が生じる。
進化の精度と安定性を向上させるため,分子線エピタキシー(MBE)方程式の正則化と統合された高次集合変分法を提案する。
この方法は、MBEプロセスにおける結晶成長を利用してレベルセット関数の進化を制限し、進化過程における再初期化を回避し、分割曲線の滑らかさを調節することができる。
また、画像セグメンテーションの課題である強度不均一なノイズのある画像に対しても機能する。
変動モデルの解法として,高速フーリエ変換 (FFT) に結合した勾配流と設計スカラー補助変数 (SAV) スキームを導出し,従来の半単純・半明示的なスキームと比較して計算効率を著しく向上させることができる。
数値実験により, 提案手法はスムーズなセグメンテーション曲線を生成でき, 微細セグメンテーション目標を維持し, 小型物体のロバストなセグメンテーション結果を得ることができることがわかった。
既存のレベルセット法と比較して、このモデルは精度と効率の両面で最先端である。
Variational level set method has become a powerful tool in image segmentation due to its ability to handle complex topological changes and maintain continuity and smoothness in the process of evolution. However its evolution process can be unstable, which results in over flatted or over sharpened contours and segmentation failure. To improve the accuracy and stability of evolution, we propose a high-order level set variational segmentation method integrated with molecular beam epitaxy (MBE) equation regularization. This method uses the crystal growth in the MBE process to limit the evolution of the level set function, and thus can avoid the re-initialization in the evolution process and regulate the smoothness of the segmented curve. It also works for noisy images with intensity inhomogeneity, which is a challenge in image segmentation. To solve the variational model, we derive the gradient flow and design scalar auxiliary variable (SAV) scheme coupled with fast Fourier transform (FFT), which can significantly improve the computational efficiency compared with the traditional semi-implicit and semi-explicit scheme. Numerical experiments show that the proposed method can generate smooth segmentation curves, retain fine segmentation targets and obtain robust segmentation results of small objects. Compared to existing level set methods, this model is state-of-the-art in both accuracy and efficiency. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# 混合効率図を用いた量子リピータネットワークのルーティング
Routing in Quantum Repeater Networks with Mixed Efficiency Figures ( http://arxiv.org/abs/2310.08990v2 ) ライセンス: Link先を確認 | Vinay Kumar, Claudio Cicconetti, Marco Conti, Andrea Passarella, | (参考訳) 量子ネットワークにおけるルーティングは、非閉鎖性、リンク障害、絡み合いといった量子力学の取得した性質のため、ユニークな課題を示す。
本研究では、量子ネットワークの現実的なシナリオをターゲットにした量子ネットワークのルーティング手法について検討し、実世界の古典的ネットワークを模倣する。
このように、ソースや宛先として機能するユーザによるアクセスネットワークで構成され、連携するノードのコアネットワークを介して相互に接続し、エンドツーエンドの絡み合いを確立する。
実効的な制約に対処することにより、量子ネットワーク性能に対する混合効率図を用いた異種ノードの影響を検討する。
特に、高い効率(高品質と呼ばれる)のノード数、経路確立順序、エンドツーエンドの忠実度、すなわち、確立されたエンドツーエンドの絡み合いの質の尺度など、運用量子ネットワークにおけるいくつかの重要なパラメータに焦点を当てる。
シミュレーションにより、ノード品質の知識を取り入れることで、ルーティングパスの一部の忠実度を高めるだけでなく、量子ネットワークにおけるブロックパスの数を減少させることが示された。
調査ではまた、エンドツーエンドの忠実度における高品質なノードのごく一部の役割を強調し、すべてのノードを高品質にアップグレードしたり、低品質なノードのサブセットを保持することのトレードオフを探究している。
Routing in a quantum network presents unique challenges due to its acquired properties of quantum mechanics like no-cloning, link failure, and entanglement. This study explores an approach to routing in quantum networks, which targets practical scenarios for quantum networks, mirroring real-world classical networks. Thus, it consists of access networks with users acting as sources and destinations, interconnected through a core network of nodes cooperating to establish end-to-end entanglement between them. By addressing practical constraints, we examine the impact of heterogeneous nodes with mixed efficiency figures on quantum network performance. In particular, we focus on some key parameters in an operational quantum network such as the fraction of nodes with a higher efficiency (called high-quality), path establishment order, end-to-end fidelity, i.e., a measure of the quality of the end-to-end entanglement established. Our simulations show that incorporating knowledge of node quality not only helps boost the fidelity of some of the routing paths but also reduces the number of blocked paths in the quantum network. The study also highlights the critical role of the fraction of high-quality nodes in end-to-end fidelity and explores the trade-offs between upgrading all nodes to high quality or retaining a subset of lower-quality nodes. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# ClickPrompt: CTRモデルはCTR予測に言語モデルを適用するための強力なプロンプトジェネレータである
ClickPrompt: CTR Models are Strong Prompt Generators for Adapting Language Models to CTR Prediction ( http://arxiv.org/abs/2310.09234v5 ) ライセンス: Link先を確認 | Jianghao Lin, Bo Chen, Hangyu Wang, Yunjia Xi, Yanru Qu, Xinyi Dai, Kangning Zhang, Ruiming Tang, Yong Yu, Weinan Zhang, | (参考訳) クリックスルー率(CTR)の予測は、様々なインターネットアプリケーションにとってますます不可欠になっている。
従来のCTRモデルは、マルチフィールド分類データをワンホット符号化によりID特徴に変換し、特徴間の協調信号を抽出する。
このようなパラダイムは意味情報損失の問題に悩まされる。
もうひとつの研究は、入力データをハードプロンプトテンプレートを通じてテキスト文に変換することで、CTR予測のための事前学習言語モデル(PLM)の可能性を探ることである。
セマンティック信号は保存されているが、一般に、巨大なモデルサイズによってもたらされる受け入れがたい推論オーバーヘッドを言うまでもなく、コラボレーティブな情報(例えば、機能インタラクション、純粋なID機能)をキャプチャすることができない。
本稿では,CTR推定における意味的知識と協調的知識の両方をモデル化することを目的とした。
両世界から恩恵を受け,そのギャップを埋めるために,新たなモデルに依存しないフレームワーク(ClickPrompt)を提案する。
本研究では,PA-MLMプリトレーニングタスクを設計し,PLMは言語コンテキストに基づいてマスク付きトークンを復元し,CTRモデルによって生成されたソフトプロンプトを復元する。
IDとテキスト機能からの協調的および意味的な知識は、プロンプトインターフェースを介して明示的に整列され、相互作用される。
そして、優れた性能を得るためにCTRモデルをPLMで調整するか、あるいは推論効率のためにPLMなしでCTRモデルを調整できる。
4つの実世界のデータセットの実験は、既存のベースラインと比較してClickPromptの有効性を検証する。
Click-through rate (CTR) prediction has become increasingly indispensable for various Internet applications. Traditional CTR models convert the multi-field categorical data into ID features via one-hot encoding, and extract the collaborative signals among features. Such a paradigm suffers from the problem of semantic information loss. Another line of research explores the potential of pretrained language models (PLMs) for CTR prediction by converting input data into textual sentences through hard prompt templates. Although semantic signals are preserved, they generally fail to capture the collaborative information (e.g., feature interactions, pure ID features), not to mention the unacceptable inference overhead brought by the huge model size. In this paper, we aim to model both the semantic knowledge and collaborative knowledge for accurate CTR estimation, and meanwhile address the inference inefficiency issue. To benefit from both worlds and close their gaps, we propose a novel model-agnostic framework (i.e., ClickPrompt), where we incorporate CTR models to generate interaction-aware soft prompts for PLMs. We design a prompt-augmented masked language modeling (PA-MLM) pretraining task, where PLM has to recover the masked tokens based on the language context, as well as the soft prompts generated by CTR model. The collaborative and semantic knowledge from ID and textual features would be explicitly aligned and interacted via the prompt interface. Then, we can either tune the CTR model with PLM for superior performance, or solely tune the CTR model without PLM for inference efficiency. Experiments on four real-world datasets validate the effectiveness of ClickPrompt compared with existing baselines. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# イメージ・プロンプト・ファンデーション・モデルによるフリーオープンワールドセグメンテーションに向けて
Towards Training-free Open-world Segmentation via Image Prompt Foundation Models ( http://arxiv.org/abs/2310.10912v3 ) ライセンス: Link先を確認 | Lv Tang, Peng-Tao Jiang, Hao-Ke Xiao, Bo Li, | (参考訳) コンピュータビジョンの領域は、自然言語処理の領域における大きな言語モデルの変革的影響を反映して、基礎モデルの出現とともにパラダイムシフトを目撃している。
本稿では,オープンワールドセグメンテーションを探求し,視覚基盤モデルの力を生かした Image Prompt Segmentation (IPSeg) と呼ばれる新しいアプローチを提案する。
IPSegは、イメージプロンプト技術を活用する、トレーニング不要のパラダイムの原則である。
具体的には、IPSegは、DINOv2やStable Diffusionのような視覚基盤モデルにクエリするフレキシブルプロンプトとして、主観的な視覚概念を含む単一のイメージを使用している。
提案手法は,プロンプト画像とインプット画像のロバストな特徴を抽出し,入力表現とプロンプト表現とを新たな特徴相互作用モジュールを介してマッチングすることにより,入力画像中のターゲットオブジェクトをハイライトするポイントプロンプトを生成する。
生成されたポイントプロンプトは、さらにSegment Anything Modelを誘導して、ターゲットオブジェクトを入力画像にセグメントする。
提案手法は,総合的なトレーニングセッションの必要性を排除し,より効率的でスケーラブルなソリューションを提供する。
COCO、PASCAL VOC、その他のデータセットの実験では、直感的な画像プロンプトを用いたフレキシブルなオープンワールドセグメンテーションに対するIPSegの有効性が示されている。
この研究は、イメージに伝達される視覚概念を通して、オープンワールドの理解のための基礎モデルに取り組む先駆者である。
The realm of computer vision has witnessed a paradigm shift with the advent of foundational models, mirroring the transformative influence of large language models in the domain of natural language processing. This paper delves into the exploration of open-world segmentation, presenting a novel approach called Image Prompt Segmentation (IPSeg) that harnesses the power of vision foundational models. IPSeg lies the principle of a training-free paradigm, which capitalizes on image prompt techniques. Specifically, IPSeg utilizes a single image containing a subjective visual concept as a flexible prompt to query vision foundation models like DINOv2 and Stable Diffusion. Our approach extracts robust features for the prompt image and input image, then matches the input representations to the prompt representations via a novel feature interaction module to generate point prompts highlighting target objects in the input image. The generated point prompts are further utilized to guide the Segment Anything Model to segment the target object in the input image. The proposed method stands out by eliminating the need for exhaustive training sessions, thereby offering a more efficient and scalable solution. Experiments on COCO, PASCAL VOC, and other datasets demonstrate IPSeg's efficacy for flexible open-world segmentation using intuitive image prompts. This work pioneers tapping foundation models for open-world understanding through visual concepts conveyed in images. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# 対称群の双対解析とランダムテンソルネットワークモデルへの応用
Duality analysis in symmetric group and its application to random tensor network model ( http://arxiv.org/abs/2310.14140v2 ) ライセンス: Link先を確認 | Masayuki Ohzeki, | (参考訳) イジングモデル(Ising model)は、古典的な統計力学において最も単純な多体効果を記述する。
二重性解析はいくつかの仮定の下で臨界点をもたらす。
イジングモデル自体が$Z(2)$対称性を持つ。
双対性解析の基礎は、低温と高温の膨張の間の非自明な関係である。
しかし、離散フーリエ変換は隠れた関係を自動的に見つける。
双対性解析は自然に、$Z(q)$対称性とランダムスピン系を持つ自由度の場合に一般化することができる。
本研究では、対称群 $S_q$ とそのフーリエ変換を考慮し、一連の置換モデルにおける双対性をさらに獲得する。
対称群の置換モデルはランダム量子回路とランダムテンソルネットワークモデルと密接に関係しており、量子コンピューティングの文脈やホログラフィック原理、弦理論と量子重力の性質でしばしば議論される。
我々はこれらのモデルにおける相転移を分析するために、双対性解析による体系的な方法を提供する。
The Ising model is the simplest to describe many-body effects in classical statistical mechanics. Duality analysis leads to a critical point under several assumptions. The Ising model itself has $Z(2)$ symmetry. The basis of the duality analysis is a nontrivial relationship between low and high-temperature expansions. However, the discrete Fourier transformation finds the hidden relationship automatically. The duality analysis can be naturally generalized into the case with the degrees of freedom with $Z(q)$ symmetry and random spin systems. We further obtain the duality in a series of permutation models in the present study by considering the symmetric group $S_q$ and its Fourier transformation. The permutation model in the symmetric group is closely related to the random quantum circuits and random tensor network model, often discussed in the context of quantum computing and the holographic principle, a property of string theories and quantum gravity. We provide a systematic way by our duality analysis to analyze the phase transition in these models. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# 事前学習型言語モデルを用いたオープン情報抽出のための効率的なデータ学習
Efficient Data Learning for Open Information Extraction with Pre-trained Language Models ( http://arxiv.org/abs/2310.15021v2 ) ライセンス: Link先を確認 | Zhiyuan Fan, Shizhu He, | (参考訳) オープン情報抽出(OpenIE)は自然言語処理における基本的な課題であり、与えられた文からすべての三重項(対象、述語、対象)を抽出する。
ラベリングベースの手法にはメリットがあるが、生成ベースの手法は、原文に存在しないトークンを生成する機能など、ユニークな利点を提供する。
しかし、これらの世代ベースの手法は、注文のペナルティによる遅いモデル収束を克服するために、OpenIEのタスクフォームと相当なトレーニング時間を学ぶために、かなりの量のトレーニングデータを必要とすることが多い。
本稿では,OpenIEのタスク形式をT5モデルの事前学習タスク形式に変換する新しいフレームワークであるOK-IEを紹介する。
さらに、モデル出力のシーケンスを制御するためのアンカーの革新的な概念を導入し、モデル収束に対するオーダーペナルティの影響を効果的に排除し、トレーニング時間を著しく短縮する。
実験の結果, 従来のSOTA法と比較して, OK-IEではトレーニングデータの1/100(900インスタンス)とトレーニング時間の1/120(3分)しか必要としないことがわかった。
Open Information Extraction (OpenIE) is a fundamental yet challenging task in Natural Language Processing, which involves extracting all triples (subject, predicate, object) from a given sentence. While labeling-based methods have their merits, generation-based techniques offer unique advantages, such as the ability to generate tokens not present in the original sentence. However, these generation-based methods often require a significant amount of training data to learn the task form of OpenIE and substantial training time to overcome slow model convergence due to the order penalty. In this paper, we introduce a novel framework, OK-IE, that ingeniously transforms the task form of OpenIE into the pre-training task form of the T5 model, thereby reducing the need for extensive training data. Furthermore, we introduce an innovative concept of Anchor to control the sequence of model outputs, effectively eliminating the impact of order penalty on model convergence and significantly reducing training time. Experimental results indicate that, compared to previous SOTA methods, OK-IE requires only 1/100 of the training data (900 instances) and 1/120 of the training time (3 minutes) to achieve comparable results. | 翻訳日:2024-06-27 19:44:08 公開日:2024-06-26 |
# パフォーマンスモデリングのための汎用プログラムとアーキテクチャ表現の学習
Learning Generalizable Program and Architecture Representations for Performance Modeling ( http://arxiv.org/abs/2310.16792v2 ) ライセンス: Link先を確認 | Lingda Li, Thomas Flynn, Adolfy Hoisie, | (参考訳) パフォーマンスモデリングは、性能評価/最適化、設計空間探索、リソース割り当て問題など、多くの分野で不可欠なツールである。
しかし、既存の性能モデリング手法には、離散イベントシミュレータの計算コストの高騰、ハードウェアエミュレータの柔軟性の狭さ、分析/データ駆動モデルの精度/汎用性の制限といった制限がある。
本稿では,高次元・独立・直交的プログラムとマイクロアーキテクチャ表現を学習する深層学習に基づくパフォーマンスモデリングフレームワークPerfVecを提案する。
学習したプログラム表現は、任意のマイクロアーキテクチャ上でのパフォーマンスを予測するために使用することができ、同様に、プログラムのパフォーマンス予測にもマイクロアーキテクチャ表現を適用することができる。
さらにPerfVecは、トレーニングコストを発生させることなく、多数のパフォーマンスモデリング関連タスクで開発者が直接使用可能な、命令のパフォーマンスの本質をキャプチャする基盤モデルも提供する。
この評価は、PerfVecが以前のアプローチよりも一般的で効率的であることを示す。
Performance modeling is an essential tool in many areas, including performance characterization/optimization, design space exploration, and resource allocation problems, to name a few. However, existing performance modeling approaches have limitations, such as high computational cost for discrete-event simulators, narrow flexibility of hardware emulators, or restricted accuracy/generality of analytical/data-driven models. To address these limitations, this paper proposes PerfVec, a novel deep learning-based performance modeling framework that learns high-dimensional and independent/orthogonal program and microarchitecture representations. Once learned, a program representation can be used to predict its performance on any microarchitecture, and likewise, a microarchitecture representation can be applied in the performance prediction of any program. Additionally, PerfVec yields a foundation model that captures the performance essence of instructions, which can be directly used by developers in numerous performance modeling related tasks without incurring its training cost. The evaluation demonstrates that PerfVec is more general and efficient than previous approaches. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# MgNO:マルチグリッドによる線形演算子の効率的なパラメータ化
MgNO: Efficient Parameterization of Linear Operators via Multigrid ( http://arxiv.org/abs/2310.19809v3 ) ライセンス: Link先を確認 | Juncai He, Xinliang Liu, Jinchao Xu, | (参考訳) 本研究では,演算子学習のための簡潔なニューラル演算子アーキテクチャを提案する。
非線形作用素層における$i$-thニューロンの出力は、$O_i(u) = \sigma\left( \sum_j W_{ij} u + B_{ij}\right)$で定義される。
ここで、$ W_{ij}$ は$j$-th入力ニューロンを$i$-th出力ニューロンに接続する有界線型作用素を表し、バイアス $ B_{ij}$ はスカラーではなく関数の形を取る。
新しい普遍近似特性から、2つのニューロン(バナッハ空間)間の有界線型作用素の効率的なパラメータ化が重要な役割を果たす。
その結果,ニューロン間の線形作用素のパラメータ化に乗じて,MgNOを導入している。
このアプローチは数学的厳密さと実践的表現性の両方を提供する。
さらに、MgNOは従来のリフティングおよび投射演算子が従来のニューラル演算子で必要とされることを妨げる。
さらに、多様な境界条件をシームレスに適合させる。
実験の結果,MgNOは他のCNNモデルに比べてトレーニングの容易さが優れており,スペクトル型ニューラル演算子と比較して過度に適応する可能性が低いことがわかった。
偏微分方程式 (PDE) の多種差分式 (PDE) 上で, 定常に最先端性能を保ちながら, 提案手法の効率と精度を実証する。
In this work, we propose a concise neural operator architecture for operator learning. Drawing an analogy with a conventional fully connected neural network, we define the neural operator as follows: the output of the $i$-th neuron in a nonlinear operator layer is defined by $O_i(u) = \sigma\left( \sum_j W_{ij} u + B_{ij}\right)$. Here, $ W_{ij}$ denotes the bounded linear operator connecting $j$-th input neuron to $i$-th output neuron, and the bias $ B_{ij}$ takes the form of a function rather than a scalar. Given its new universal approximation property, the efficient parameterization of the bounded linear operators between two neurons (Banach spaces) plays a critical role. As a result, we introduce MgNO, utilizing multigrid structures to parameterize these linear operators between neurons. This approach offers both mathematical rigor and practical expressivity. Additionally, MgNO obviates the need for conventional lifting and projecting operators typically required in previous neural operators. Moreover, it seamlessly accommodates diverse boundary conditions. Our empirical observations reveal that MgNO exhibits superior ease of training compared to other CNN-based models, while also displaying a reduced susceptibility to overfitting when contrasted with spectral-type neural operators. We demonstrate the efficiency and accuracy of our method with consistently state-of-the-art performance on different types of partial differential equations (PDEs). | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# テキスト・音声・音声・生理的信号からの共感検出:タスク定式化と機械学習
Empathy Detection from Text, Audiovisual, Audio or Physiological Signals: Task Formulations and Machine Learning Methods ( http://arxiv.org/abs/2311.00721v2 ) ライセンス: Link先を確認 | Md Rakibul Hasan, Md Zakir Hossain, Shreya Ghosh, Aneesh Krishna, Tom Gedeon, | (参考訳) 共感は、個人が他人を理解する能力を示す。
過去数年間、共感は、Affective Computing、Cognitive Science and Psychologyに限らず、様々な分野から注目を集めてきた。
共感の検出は、社会、医療、教育に潜在的な応用がある。
広範かつ重複するトピックであるにもかかわらず、機械学習を利用した共感検出の道は、体系的な文献レビューの観点から、まだ解明されていない。
10の有名なデータベースから828の論文を収集し、それらを体系的にスクリーニングし、最終61の論文を分析しました。
分析の結果、局所的な発話や全体的な表現に対する共感、一方向または平行な共感、モナディック、ダイアディック、グループ間相互作用における感情的伝染など、いくつかの顕著なタスクの定式化が明らかとなった。
共感検出方法は、4つの入力モダリティ$-$テキスト、オーディオ、オーディオ、生理的信号$-$に基づいて要約され、モダリティ固有のネットワークアーキテクチャ設計プロトコルが提示される。
Affective Computingベースの共感ドメインにおける課題,研究ギャップ,潜在的な応用について論じる。
私たちはさらに、データセットとコードの公開を列挙しています。
我々の研究は、人間の生活の全体的幸福を高めるために実際に展開できる堅牢な共感検出システムを開発するための一歩だと信じています。
Empathy indicates an individual's ability to understand others. Over the past few years, empathy has drawn attention from various disciplines, including but not limited to Affective Computing, Cognitive Science and Psychology. Detecting empathy has potential applications in society, healthcare and education. Despite being a broad and overlapping topic, the avenue of empathy detection leveraging Machine Learning remains underexplored from a systematic literature review perspective. We collected 828 papers from 10 well-known databases, systematically screened them and analysed the final 61 papers. Our analyses reveal several prominent task formulations $-$ including empathy on localised utterances or overall expressions, unidirectional or parallel empathy, and emotional contagion $-$ in monadic, dyadic and group interactions. Empathy detection methods are summarised based on four input modalities $-$ text, audiovisual, audio and physiological signals $-$ thereby presenting modality-specific network architecture design protocols. We discuss challenges, research gaps and potential applications in the Affective Computing-based empathy domain, which can facilitate new avenues of exploration. We further enlist the public availability of datasets and codes. We believe that our work is a stepping stone to developing a robust empathy detection system that can be deployed in practice to enhance the overall well-being of human life. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# See-Through Visuotactile Sensorを用いたマルチモーダルおよびフォースマッチ型模倣学習
Multimodal and Force-Matched Imitation Learning with a See-Through Visuotactile Sensor ( http://arxiv.org/abs/2311.01248v3 ) ライセンス: Link先を確認 | Trevor Ablett, Oliver Limoyo, Adam Sigal, Affan Jilani, Jonathan Kelly, Kaleem Siddiqi, Francois Hogan, Gregory Dudek, | (参考訳) コンタクトが豊富なタスクは、ロボット操作におけるさまざまな課題を提示し続けている。
本研究は、模倣学習(IL)の枠組みにおけるマルチモーダルビズオタクティルセンサを用いて、エンドエフェクタとオブジェクト間の相対的な動き(スリップ/スライディング)を含む接触リッチなタスクを行う。
本稿では,IL改善のための補完手法として,触覚力マッチングと学習モード切替という2つのアルゴリズム的貢献を紹介する。
触覚力マッチングは、デモ中に近似力を読み、記録された力を再現する適応されたロボット軌道を生成することによって、体力の教育を強化する。
学習モードスイッチングでは、ILを使用して視覚と触覚のセンサーモードを学習されたモーションポリシーと組み合わせ、到達から接触への移行を簡単にする。
我々は,4つのドア開口作業におけるロボット操作実験を行い,様々な観察および方法構成を行い,提案した改良とマルチモーダルビゾタクティルセンシングの有用性について検討した。
以上の結果から,力のマッチングは平均政策成功率62.5%,ビズオタクタクタクタクタクタクタクタクタクタクタクタクタクサクタクタクサクタクタクタクサクタクタクサクタクタクサクタを42.5%とした。
Contact-rich tasks continue to present a variety of challenges for robotic manipulation. In this work, we leverage a multimodal visuotactile sensor within the framework of imitation learning (IL) to perform contact rich tasks that involve relative motion (slipping/sliding) between the end-effector and object. We introduce two algorithmic contributions, tactile force matching and learned mode switching, as complimentary methods for improving IL. Tactile force matching enhances kinesthetic teaching by reading approximate forces during the demonstration and generating an adapted robot trajectory that recreates the recorded forces. Learned mode switching uses IL to couple visual and tactile sensor modes with the learned motion policy, simplifying the transition from reaching to contacting. We perform robotic manipulation experiments on four door opening tasks with a variety of observation and method configurations to study the utility of our proposed improvements and multimodal visuotactile sensing. Our results show that the inclusion of force matching raises average policy success rates by 62.5%, visuotactile mode switching by 30.3%, and visuotactile data as a policy input by 42.5%, emphasizing the value of see-through tactile sensing for IL, both for data collection to allow force matching, and for policy execution to allow accurate task feedback. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# NLPとソフトウェア工学の視点を統一する: コードの言語モデルに関する調査
Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code ( http://arxiv.org/abs/2311.07989v7 ) ライセンス: Link先を確認 | Ziyin Zhang, Chaoyu Chen, Bingchang Liu, Cong Liao, Zi Gong, Hang Yu, Jianguo Li, Rui Wang, | (参考訳) 本研究では,70以上のモデル,40以上の評価タスク,180以上のデータセット,900以上の関連作業を含む,言語モデルによるソフトウェア工学の最近の進歩を体系的にレビューする。
SEは開発自動化に言語モデルを適用し、NLPは言語モデル評価にSEタスクを採用する。
私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、コード上で特別に事前訓練された特殊なモデルに分解します。
我々は,これらのモデル間の関係や相違について論じ,統計モデルやRNNから事前学習されたトランスフォーマーやLLMへのコードモデリングの歴史的変遷を強調した。
私たちはまた、要件エンジニアリング、テスト、デプロイメント、SEにおけるNLPのグローバルなビューを提供する取り組みにおけるオペレーションを含む、他のソフトウェアエンジニアリング活動におけるLCMのアプリケーションのプログラミングとレビューを超えて、この領域における重要な課題と将来的な方向性を特定します。
私たちはこの調査をGitHubで公開し、https://github.com/codefuse-ai/Awesome-Code-LLM.comで更新しています。
In this work we systematically review the recent advancements in software engineering with language models, covering 70+ models, 40+ evaluation tasks, 180+ datasets, and 900 related works. Unlike previous works, we integrate software engineering (SE) with natural language processing (NLP) by discussing the perspectives of both sides: SE applies language models for development automation, while NLP adopts SE tasks for language model evaluation. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also go beyond programming and review LLMs' application in other software engineering activities including requirement engineering, testing, deployment, and operations in an endeavor to provide a global view of NLP in SE, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on GitHub at https://github.com/codefuse-ai/Awesome-Code-LLM. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# 大規模言語モデルの文化的バイアスと文化的アライメント
Cultural Bias and Cultural Alignment of Large Language Models ( http://arxiv.org/abs/2311.14096v2 ) ライセンス: Link先を確認 | Yan Tao, Olga Viberg, Ryan S. Baker, Rene F. Kizilcec, | (参考訳) 文化は人々の推論、行動、コミュニケーションを根本的に形作る。
生成的人工知能(AI)を用いて、個人的および専門的なタスクを迅速かつ自動化するにつれ、AIモデルに埋め込まれた文化的価値は、人々の真の表現を偏見させ、特定の文化の支配に寄与する可能性がある。
我々は,広く使用されている5つの大言語モデル(OpenAIのGPT-4o/4-turbo/4/3.5-turbo/3)の文化的偏見を,全国的に代表される調査データと比較して評価する。
全てのモデルは、英語とプロテスタントのヨーロッパ諸国に似た文化的価値を示す。
我々は、各国・地域ごとの文化的アライメントを高めるための統制戦略として、文化的プロンプトを試行する。
近年のモデル(GPT-4, 4-turbo, 4o)では、71~81%の国と地域の生産量の文化的アライメントが向上している。
生成AIの出力における文化的バイアスを低減するために,文化的なプロンプトと継続的な評価を用いることを提案する。
Culture fundamentally shapes people's reasoning, behavior, and communication. As people increasingly use generative artificial intelligence (AI) to expedite and automate personal and professional tasks, cultural values embedded in AI models may bias people's authentic expression and contribute to the dominance of certain cultures. We conduct a disaggregated evaluation of cultural bias for five widely used large language models (OpenAI's GPT-4o/4-turbo/4/3.5-turbo/3) by comparing the models' responses to nationally representative survey data. All models exhibit cultural values resembling English-speaking and Protestant European countries. We test cultural prompting as a control strategy to increase cultural alignment for each country/territory. For recent models (GPT-4, 4-turbo, 4o), this improves the cultural alignment of the models' output for 71-81% of countries and territories. We suggest using cultural prompting and ongoing evaluation to reduce cultural bias in the output of generative AI. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# ASDフルボディキネマティックアセスメントのための3DCNN ResNetsの導入:手作り特徴との比較
Introducing 3DCNN ResNets for ASD full-body kinematic assessment: a comparison with hand-crafted features ( http://arxiv.org/abs/2311.14533v3 ) ライセンス: Link先を確認 | Alberto Altozano, Maria Eleonora Minissi, Mariano Alcañiz, Javier Marín-Morales, | (参考訳) 自閉症スペクトラム障害(ASD)は、社会的コミュニケーションと制限されたパターンの課題が特徴であり、早期発見のために運動異常が牽引されている。
しかし、ASDのキネマティック解析は限定的であり、しばしば堅牢な検証が欠如し、単一のタスクに手作りの機能に依存しており、研究間で矛盾が生じている。
エンドツーエンドモデルは、機能エンジニアリングの必要性を克服するための有望な方法として現れています。
本研究の目的は,新しい3DCNN ResNetを提案することであり,モータASD評価に広く用いられている手作り機能と比較することである。
具体的には、複数のモータータスクと、両方のアプローチを用いたトレーニングモデルを備えたバーチャルリアリティ環境を開発した。
相互検証を繰り返し行う信頼性の高い検証フレームワークを優先しました。
その結果,提案モデルが85$\pm$3%の最大精度を達成し,短い1~3分サンプルで最先端のエンド・ツー・エンドモデルを上回る結果を得た。
手作り機能との比較分析では,特定のタスクにおいて,特徴工学的モデルの方がエンドツーエンドモデルより優れていた。
しかし、我々のエンドツーエンドモデルは平均AUCが 0.80$\pm$0.03 に達した。
さらに、モデル分散に統計的差異が見られ、私たちのエンドツーエンドモデルは、すべてのVRタスクにばらつきが少なく、より一貫性のある結果を提供し、ドメインの一般化と信頼性を実証した。
これらの結果から,エンド・ツー・エンドのモデルでは,ドメイン知識やタスク特異性を必要とせず,変数やコンテキストに依存しないASD分類が可能であることが示唆された。
しかし、特定のタスクシナリオにおける手作り機能の有効性も認識している。
Autism Spectrum Disorder (ASD) is characterized by challenges in social communication and restricted patterns, with motor abnormalities gaining traction for early detection. However, kinematic analysis in ASD is limited, often lacking robust validation and relying on hand-crafted features for single tasks, leading to inconsistencies across studies. End-to-end models have emerged as promising methods to overcome the need for feature engineering. Our aim is to propose a newly adapted 3DCNN ResNet from and compare it to widely used hand-crafted features for motor ASD assessment. Specifically, we developed a virtual reality environment with multiple motor tasks and trained models using both approaches. We prioritized a reliable validation framework with repeated cross-validation. Results show the proposed model achieves a maximum accuracy of 85$\pm$3%, outperforming state-of-the-art end-to-end models with short 1-to-3 minute samples. Our comparative analysis with hand-crafted features shows feature-engineered models outperformed our end-to-end model in certain tasks. However, our end-to-end model achieved a higher mean AUC of 0.80$\pm$0.03. Additionally, statistical differences were found in model variance, with our end-to-end model providing more consistent results with less variability across all VR tasks, demonstrating domain generalization and reliability. These findings show that end-to-end models enable less variable and context-independent ASD classification without requiring domain knowledge or task specificity. However, they also recognize the effectiveness of hand-crafted features in specific task scenarios. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# N-複素環クロモフォアのほぼ縮退した一重項状態と三重項状態のベンチマーク計算 : I. 波動関数に基づく方法
Benchmark Computations of Nearly Degenerate Singlet and Triplet states of N-heterocyclic Chromophores : I. Wavefunction-based Methods ( http://arxiv.org/abs/2311.17602v2 ) ライセンス: Link先を確認 | Shamik Chanda, Sangita Sen, | (参考訳) 本稿では,S$_1$-S$_0$とT$_1$-S$_0$の励起エネルギーを予測する上で電子相関が果たす役割について検討する。
この問題は最近、$\Delta$E$_{ST}$の逆転に焦点が当てられ、多くの関心を集めている。
Am
Chem
Soc
1980年102年、6068年、J.Am。
Chem
Soc
1986年、108:17)。
本研究は, 種々の励起状態電子構造法を系統的, 徹底的に研究し, 様々なアプローチの長所と短所を同定した。
ほぼ縮退性は、多重参照理論における静的および動的相関の適切なバランス、あるいは相関との結合を含む状態特異的な軌道補正によって達成できる。
スピン汚染の役割についても論じる。
最終的には、より安価な理論を確立するためのベンチマーク数値を作成し、これらテンプレートの微分を好適な光学的および構造的特性でスクリーニングするために使用できる。
さらに、DLPNO-STEOM-CCSDを$\Delta$E$_{ST}$(\emph{J.)のベンチマークとして使用することを指摘したいと思います。
Phys
Chem
2022, 126: 8: 1378, Chem
Phys
忘れるな。
2021, 779: 138827})はこの種類の分子には適さない。
In this paper we investigate the role of electron correlation in predicting the S$_1$-S$_0$ and T$_1$-S$_0$ excitation energies and hence, the singlet-triplet gap ($\Delta$E$_{ST}$) in a set of cyclazines which act as templates for potential candidates for 5th generation Organic Light Emitting Diode (OLED) materials. This issue has recently garnered much interest with the focus being on the inversion of the $\Delta$E$_{ST}$, although experiments have indicated near degenerate levels with both positive and negative being within the experimental error bar (\emph{J. Am. Chem. Soc. 1980, 102: 6068 , J. Am. Chem. Soc. 1986, 108: 17} ). We have carried out a systematic and exhaustive study of various excited state electronic structure methodologies and identified the strengths and shortcomings of the various approaches and approximations in view of this challenging case. We have found that near degeneracy can be achieved either with a proper balance of static and dynamic correlation in multireference theories or with state-specific orbital corrections including its coupling with correlation. The role of spin contamination is also discussed. Eventually, this paper seeks to produce benchmark numbers for establishing cheaper theories which can then be used for screening derivatives of these templates with desirable optical and structural properties. Additionally we would like to point out that the use of DLPNO-STEOM-CCSD as the benchmark for $\Delta$E$_{ST}$ (as used in \emph{J. Phys. Chem. A 2022, 126: 8: 1378, Chem. Phys. Lett. 2021, 779: 138827}) is not a suitable benchmark for this class of molecules. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# CritiqueLLM:大規模言語モデル生成評価のための情報的批判生成モデルを目指して
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation ( http://arxiv.org/abs/2311.18702v2 ) ライセンス: Link先を確認 | Pei Ke, Bosi Wen, Zhuoer Feng, Xiao Liu, Xuanyu Lei, Jiale Cheng, Shengyuan Wang, Aohan Zeng, Yuxiao Dong, Hongning Wang, Jie Tang, Minlie Huang, | (参考訳) 自然言語処理 (NLP) コミュニティが大規模言語モデル (LLM) を作成テキストの品質を評価するために批判的な役割を果たし始めたため、既存の作品の多くはGPT-4の直接プロンプトによってラベル付けされた評価データに基づいて批評生成モデルを訓練している。
これらのモデルには、特に参照を伴わずに、ポイントグレーディングとペアワイズ比較の両方において、情報的批判を生成する能力がないことが観察された。
その結果、生成した批判は、生成したテキストに対してきめ細かい識別性を提供できないため、不満足な評価性能が生じる。
本稿では,Eval-Instructと呼ばれるシンプルな手法を提案し,まず擬似参照によるポイントワイドな評価基準を取得,次いでマルチパスによる修正を行い,ポイントワイドな評価と/非参照によるペアワイドな比較を含む,異なるタスクや設定における情報的評価データを得る。
これらのデータを微調整した後、結果のモデル CritiqueLLM は、ChatGPT と全てのオープンソースベースラインを上回り、ポイントワイドグレーディングのシステムレベルの相関において、GPT-4 に匹敵する評価性能が得られることを実証的に示す。
また、生成した批評がスケーラブルなフィードバックとして機能し、ChatGPTのような強力なLLMの生成品質をさらに向上することを示す。
Since the natural language processing (NLP) community started to make large language models (LLMs) act as a critic to evaluate the quality of generated texts, most of the existing works train a critique generation model on the evaluation data labeled by GPT-4's direct prompting. We observe that these models lack the ability to generate informative critiques in both pointwise grading and pairwise comparison especially without references. As a result, their generated critiques cannot provide fine-grained distinguishability on generated texts, causing unsatisfactory evaluation performance. In this paper, we propose a simple yet effective method called Eval-Instruct, which can first acquire pointwise grading critiques with pseudo references and then revise these critiques via multi-path prompting to obtain informative evaluation data in different tasks and settings, including pointwise grading and pairwise comparison with / without references. After fine-tuning on these data, the resulting model CritiqueLLM is empirically shown to outperform ChatGPT and all the open-source baselines and even achieve comparable evaluation performance to GPT-4 in system-level correlations of pointwise grading. We also demonstrate that our generated critiques can act as scalable feedback to further improve the generation quality of strong LLMs like ChatGPT. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# インストラクタ:大規模視覚言語モデルに対する命令調整型ターゲットアタック
InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models ( http://arxiv.org/abs/2312.01886v3 ) ライセンス: Link先を確認 | Xunguang Wang, Zhenlan Ji, Pingchuan Ma, Zongjie Li, Shuai Wang, | (参考訳) 大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
しかし、このリッチな視覚相互作用はLVLMを敵の例に弱いものにする。
本稿では,被害者LVLMの視覚エンコーダを,そのプロンプト(しばしばサービス提供者向けにプロプライエタリであり,公開されていない)とその基盤となる大規模言語モデル(LLM)の知識を必要とせずに,敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
この実践的な設定は、攻撃者が選択したターゲットテキストと意味的に類似した応答を出力するためにLVLMを混乱させることを目的とした、攻撃対象の敵攻撃のクロスプロンプトおよびクロスモデル転送可能性に課題をもたらす。
そこで本研究では,LVLMに対して高い転送性を有するターゲット攻撃を実現するために,命令調整対象攻撃(dubd \textsc{InstructTA})を提案する。
当初、ターゲット画像にターゲット応答を"反転"するために、パブリックテキスト・画像生成モデルを使用し、GPT-4を用いて、ターゲット応答から適切な命令 $\boldsymbol{p}^\prime$ を推論する。
次に, 対向画像例と対象画像の命令認識特徴を抽出し, 両特徴間の距離を最小化し, 対向画像例を最適化する。
命令チューニングによる転送性をさらに向上するため, GPT-4 から表現した命令で $\boldsymbol{p}^\prime$ を加算する。
大規模実験により,攻撃性能と伝達性において提案手法の優位性を実証した。
コードはhttps://github.com/xunguangwang/InstructTAで入手できる。
Large vision-language models (LVLMs) have demonstrated their incredible capability in image understanding and response generation. However, this rich visual interaction also makes LVLMs vulnerable to adversarial examples. In this paper, we formulate a novel and practical targeted attack scenario that the adversary can only know the vision encoder of the victim LVLM, without the knowledge of its prompts (which are often proprietary for service providers and not publicly available) and its underlying large language model (LLM). This practical setting poses challenges to the cross-prompt and cross-model transferability of targeted adversarial attack, which aims to confuse the LVLM to output a response that is semantically similar to the attacker's chosen target text. To this end, we propose an instruction-tuned targeted attack (dubbed \textsc{InstructTA}) to deliver the targeted adversarial attack on LVLMs with high transferability. Initially, we utilize a public text-to-image generative model to "reverse" the target response into a target image, and employ GPT-4 to infer a reasonable instruction $\boldsymbol{p}^\prime$ from the target response. We then form a local surrogate model (sharing the same vision encoder with the victim LVLM) to extract instruction-aware features of an adversarial image example and the target image, and minimize the distance between these two features to optimize the adversarial example. To further improve the transferability with instruction tuning, we augment the instruction $\boldsymbol{p}^\prime$ with instructions paraphrased from GPT-4. Extensive experiments demonstrate the superiority of our proposed method in targeted attack performance and transferability. The code is available at https://github.com/xunguangwang/InstructTA. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# 正の未ラベルデータに対する単サンプル対ケースコントロールサンプリングスキーム:2つのシナリオの物語
Single-sample versus case-control sampling scheme for Positive Unlabeled data: the story of two scenarios ( http://arxiv.org/abs/2312.02095v2 ) ライセンス: Link先を確認 | Jan Mielniczuk, Adam Wawrzeńczyk, | (参考訳) 本論文では,ケース制御サンプリング方式を設計した正の未ラベルデータに対する経験的リスク最小化(ERM)に基づく分類器の性能が,単一サンプルシナリオに適用した場合に著しく低下する可能性があることを論じる。
シナリオによって、なぜそれらの振る舞いが、何よりも非常に具体的なケースに依存しているのかを明らかにする。
また、ケース制御データ用に設計された一般的な非負のリスク分類器の単一サンプルケース類似体を導入し、その性能を元の提案と比較する。
以上の結果から,両群間に有意な差がみられた。
ケース制御ケース用に設計されたEMM最小化器を単一サンプルデータに適用する場合も、同様の結論が導かれる。
シナリオの違いを考慮するには、経験的リスクの定義において、唯一の、しかし重要な変更が必要です。
In the paper we argue that performance of the classifiers based on Empirical Risk Minimization (ERM) for positive unlabeled data, which are designed for case-control sampling scheme may significantly deteriorate when applied to a single-sample scenario. We reveal why their behavior depends, in all but very specific cases, on the scenario. Also, we introduce a single-sample case analogue of the popular non-negative risk classifier designed for case-control data and compare its performance with the original proposal. We show that the significant differences occur between them, especiall when half or more positive of observations are labeled. The opposite case when ERM minimizer designed for the case-control case is applied for single-sample data is also considered and similar conclusions are drawn. Taking into account difference of scenarios requires a sole, but crucial, change in the definition of the Empirical Risk. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# 大規模知識モデル: 展望と課題
Large Knowledge Model: Perspectives and Challenges ( http://arxiv.org/abs/2312.02706v2 ) ライセンス: Link先を確認 | Huajun Chen, | (参考訳) 人類の世界に対する理解は、我々の認識と認知と根本的に結びついており、世界知識の主要なキャリアの1つとして機能している。
この例では、ChatGPT のような \emph{Large Language Models} (LLMs) は、広範囲のシーケンスベースの世界知識をニューラルネットワークに事前学習し、パラメトリック空間におけるこの知識の処理と操作を容易にする。
この記事では「知識」のレンズを通して大きなモデルを探索する。
まず,LLMの強化における知識グラフ(KG)などの記号的知識の役割について検討し,知識強化言語モデル,構造化事前学習,知識に富んだプロンプト,構造化されたCoT,知識編集,LLMのセマンティックツール,知識可能なAIエージェントなどの側面について考察する。
次に,LLMをKGビルダーおよびコントローラとして使用すること,構造化知識事前学習,LLM強化記号推論など,従来の記号的知識基盤をいかに向上させるかを検討する。
人間の知識の複雑な性質を考えると,我々は,多種多様な知識構造を管理するために特別に設計された 'emph{Large Knowledge Models} (LKM) の作成を提唱する。
この有望な取り組みは、言語モデルから知識ベースを遠ざけること、人間の知識との認知的整合性、知覚と認知の統合、物理的な世界と対話するための大きなコモンセンスモデルの構築など、いくつかの重要な課題を伴います。
最終的にLKMの概念を区別する5つの「A」原理を提案する。
Humankind's understanding of the world is fundamentally linked to our perception and cognition, with \emph{human languages} serving as one of the major carriers of \emph{world knowledge}. In this vein, \emph{Large Language Models} (LLMs) like ChatGPT epitomize the pre-training of extensive, sequence-based world knowledge into neural networks, facilitating the processing and manipulation of this knowledge in a parametric space. This article explores large models through the lens of "knowledge". We initially investigate the role of symbolic knowledge such as Knowledge Graphs (KGs) in enhancing LLMs, covering aspects like knowledge-augmented language model, structure-inducing pre-training, knowledgeable prompts, structured CoT, knowledge editing, semantic tools for LLM and knowledgeable AI agents. Subsequently, we examine how LLMs can boost traditional symbolic knowledge bases, encompassing aspects like using LLM as KG builder and controller, structured knowledge pretraining, and LLM-enhanced symbolic reasoning. Considering the intricate nature of human knowledge, we advocate for the creation of \emph{Large Knowledge Models} (LKM), specifically engineered to manage diversified spectrum of knowledge structures. This promising undertaking would entail several key challenges, such as disentangling knowledge base from language models, cognitive alignment with human knowledge, integration of perception and cognition, and building large commonsense models for interacting with physical world, among others. We finally propose a five-"A" principle to distinguish the concept of LKM. | 翻訳日:2024-06-27 19:34:10 公開日:2024-06-26 |
# Segment Anything によるレーザー添加物製造における高速欠陥セグメント化への教師なしアプローチ
An unsupervised approach towards promptable defect segmentation in laser-based additive manufacturing by Segment Anything ( http://arxiv.org/abs/2312.04063v3 ) ライセンス: Link先を確認 | Israt Zarin Era, Imtiaz Ahmed, Zhichao Liu, Srinjoy Das, | (参考訳) ファンデーションモデルは、現在、生物学、天文学、ロボット工学など様々な分野におけるコンピュータビジョンタスクのパラダイムシフトを推進しており、ユーザー生成プロンプトを活用してパフォーマンスを向上させる。
Laser Additive Manufacturing (LAM) ドメインでは、正確な画像ベースの欠陥セグメンテーションが製品の品質を保証し、リアルタイムプロセス制御を容易にするために不可欠である。
しかしながら、ラベルの欠如や低レイテンシ推論の要件など、複数の課題が特徴的であることが多い。
ポーシティは、核融合、密閉ガス、キーホールの欠如により、LAMの非常に一般的な欠陥であり、引張強度、硬さ、硬さなどの機械的特性に直接影響を与え、最終生成物の品質を損なう。
これらの問題に対処するために, 最先端のビジョントランスフォーマー(ViT)ベースのファンデーションモデル(セグメンション・アロシング・モデル)を用いて, 教師なしクラスタリングを用いた新しいマルチポイントプロンプト生成方式を用いて, 画像セグメンテーションのためのフレームワークを構築した。
本フレームワークを用いて,レーザーを用いた粉体層融合(L-PBF)のケーススタディにおいて多孔性セグメンテーションを行い,ラベル付きデータを使わずに高精度に測定し,迅速なチューニングプロセスを導出する。
軽質な基礎モデル推論と教師なしの即時生成を併用することにより、現在のレーザー添加物製造プロセスに革命をもたらすようなリアルタイムな異常検出パイプラインの構築を構想し、産業4.0への移行を容易にし、運転効率とともに欠陥のない生産を促進する。
Foundation models are currently driving a paradigm shift in computer vision tasks for various fields including biology, astronomy, and robotics among others, leveraging user-generated prompts to enhance their performance. In the Laser Additive Manufacturing (LAM) domain, accurate image-based defect segmentation is imperative to ensure product quality and facilitate real-time process control. However, such tasks are often characterized by multiple challenges including the absence of labels and the requirement for low latency inference among others. Porosity is a very common defect in LAM due to lack of fusion, entrapped gas, and keyholes, directly affecting mechanical properties like tensile strength, stiffness, and hardness, thereby compromising the quality of the final product. To address these issues, we construct a framework for image segmentation using a state-of-the-art Vision Transformer (ViT) based Foundation model (Segment Anything Model) with a novel multi-point prompt generation scheme using unsupervised clustering. Utilizing our framework we perform porosity segmentation in a case study of laser-based powder bed fusion (L-PBF) and obtain high accuracy without using any labeled data to guide the prompt tuning process. By capitalizing on lightweight foundation model inference combined with unsupervised prompt generation, we envision constructing a real-time anomaly detection pipeline that could revolutionize current laser additive manufacturing processes, thereby facilitating the shift towards Industry 4.0 and promoting defect-free production along with operational efficiency. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# 実証的研究によるデータセット蒸留のクロスアーキテクチャ一般化の促進
Boosting the Cross-Architecture Generalization of Dataset Distillation through an Empirical Study ( http://arxiv.org/abs/2312.05598v2 ) ライセンス: Link先を確認 | Lirui Zhao, Yuxin Zhang, Fei Chao, Rongrong Ji, | (参考訳) データセット蒸留のクロスアーキテクチャの一般化は、その実用的重要性を著しく弱めている。
本論文は, 蒸留モデルに対する誘導バイアスを受ける合成データセットについて, 実験的検討を通じて, この問題を緩和する試みである。
したがって, 評価モデルは, 蒸留モデルの類似した構造を有するものに限られている。
本稿では, 蒸留モデルの中間層の特徴をクロスアーキテクチャー評価に利用した, 蒸留機能付きEvaLuation(ELF)を提案する。
このように、評価モデルはバイアスのない知識から学習し、性能を維持しながらアーキテクチャが不安定になる。
大規模な実験を行うことで、ALFが現在のDD法のクロスアーキテクチャ一般化を十分に強化できることを示す。
このプロジェクトのコードは \url{https://github.com/Lirui-Zhao/ELF} にある。
The poor cross-architecture generalization of dataset distillation greatly weakens its practical significance. This paper attempts to mitigate this issue through an empirical study, which suggests that the synthetic datasets undergo an inductive bias towards the distillation model. Therefore, the evaluation model is strictly confined to having similar architectures of the distillation model. We propose a novel method of EvaLuation with distillation Feature (ELF), which utilizes features from intermediate layers of the distillation model for the cross-architecture evaluation. In this manner, the evaluation model learns from bias-free knowledge therefore its architecture becomes unfettered while retaining performance. By performing extensive experiments, we successfully prove that ELF can well enhance the cross-architecture generalization of current DD methods. Code of this project is at \url{https://github.com/Lirui-Zhao/ELF}. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# ICTSurF:ニューラルネットワークによる連続時間生存機能の実現
ICTSurF: Implicit Continuous-Time Survival Functions with Neural Networks ( http://arxiv.org/abs/2312.05818v2 ) ライセンス: Link先を確認 | Chanon Puttanawarut, Panu Looareesuwan, Romen Samuel Wabina, Prut Saowaprut, | (参考訳) 生存分析は、時間とともに事象の可能性を予測するための広く知られている方法である。
検閲されたサンプルを扱うという課題は現在も残っている。
Cox Proportional Hazards (CPH) モデルのような伝統的な手法は、比例的ハザードの強い仮定と共変量間の所定の関係による制限をヒンジする。
ディープニューラルネットワーク(DNN)に基づくモデルの台頭は、生存分析における有効性の向上を証明している。
本研究では,連続生存モデル上に構築されたImplicit Continuous-Time Survival Function (ICTSurF)を導入し,暗黙の表現を通して生存分布を構築する。
その結果、ニューラルネットワークアーキテクチャとは独立に、連続時間空間における入力を受け入れ、連続時間空間における生存確率を生成することができる。
既存手法との比較評価は,提案手法の高競争性を裏付けるものである。
ICTSurFの実装はhttps://github.com/44REAM/ICTSurFで公開されています。
Survival analysis is a widely known method for predicting the likelihood of an event over time. The challenge of dealing with censored samples still remains. Traditional methods, such as the Cox Proportional Hazards (CPH) model, hinge on the limitations due to the strong assumptions of proportional hazards and the predetermined relationships between covariates. The rise of models based on deep neural networks (DNNs) has demonstrated enhanced effectiveness in survival analysis. This research introduces the Implicit Continuous-Time Survival Function (ICTSurF), built on a continuous-time survival model, and constructs survival distribution through implicit representation. As a result, our method is capable of accepting inputs in continuous-time space and producing survival probabilities in continuous-time space, independent of neural network architecture. Comparative assessments with existing methods underscore the high competitiveness of our proposed approach. Our implementation of ICTSurF is available at https://github.com/44REAM/ICTSurF. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# Marathon: 大規模言語モデルによる長いコンテキストの領域でのレース
Marathon: A Race Through the Realm of Long Context with Large Language Models ( http://arxiv.org/abs/2312.09542v2 ) ライセンス: Link先を確認 | Lei Zhang, Yunshui Li, Ziqiang Liu, Jiaxi yang, Junhao Liu, Longze Chen, Run Luo, Min Yang, | (参考訳) 大規模言語モデル(LLM)の進歩とコンテキストウィンドウの拡張により、既存の長期コンテキストベンチマークは、拡張テキストにおけるモデルの理解と推論能力を効果的に評価するのに不足する。
さらに、F1メトリクスに依存する従来のベンチマークでは、参照応答と異なる正解を過大評価し、参照テキストに類似した過大評価不正確な回答を下限に評価することがある。
これらの制約に対応するために,マルチ選択質問形式を採用した新しい評価ベンチマークであるMarathonを導入する。
それは特に、以前のベンチマークの制約を克服し、大規模言語モデルの長文理解スキルの迅速で正確で偏りのない評価を提供するように設計されている。
本研究では,Marathonベンチマークの総合評価を行い,長文生成に適した最適化手法の有効性について検討した。
Marathonベンチマークと関連するリーダボードにより、拡張コンテキストに対する理解と推論におけるLLMの能力をより正確かつ公平に評価できるようになると期待する。
Marathonはhttps://github.com/Hambaobao/Marathon.comで入手できる。
With the advancement of large language models (LLMs) and the expansion of their context windows, existing long-context benchmarks fall short in effectively evaluating the models' comprehension and reasoning abilities in extended texts. Moreover, conventional benchmarks relying on F1 metrics often inaccurately score responses: they may undervalue correct answers that differ from the reference responses and overvalue incorrect ones that resemble the reference texts. In response to these limitations, we introduce Marathon, a novel evaluation benchmark that adopts a multiple-choice question format. It is specifically designed to overcome the constraints of previous benchmarks and provide a rapid, precise, and unbiased appraisal of the long-context comprehension skills of large language models. We conducted comprehensive evaluations on the Marathon benchmark with a range of state-of-the-art LLMs and assessed the effectiveness of various optimization strategies tailored for long-context generation. We anticipate that the Marathon benchmark and its associated leaderboard will enable a more precise and equitable evaluation of LLMs' capabilities in understanding and reasoning over extended contexts. Marathon is available at https://github.com/Hambaobao/Marathon. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# 言語モデルと確率論的推論を用いたアクティブな推論
Active Preference Inference using Language Models and Probabilistic Reasoning ( http://arxiv.org/abs/2312.12009v2 ) ライセンス: Link先を確認 | Wasu Top Piriyakulkij, Volodymyr Kuleshov, Kevin Ellis, | (参考訳) 例えば、良い質問をすることで、ユーザーの好みを積極的に推測することは、人間向きの意思決定システムにとって重要である。
アクティブな推論により、そのようなシステムは、個々人の好みに適応し、パーソナライズすることができる。
インストラクションチューニングされた大規模言語モデル(LLM)のこの機能を実現するために、ユーザに好みを推測するよう求め、言語モデルをより堅牢でインタラクティブなシステムに変換する。
しかし、最初からこれらのモデルは好みを抽出するのに効率的ではなく、それらが生成する質問は情報的ではなく、多くのユーザインタラクションが必要であり、下流システムのユーザビリティを損なう。
本研究では,LLMがより情報に富んだ質問を用いて素早く選好を推測するのに役立つ推論時アルゴリズムを提案する。
提案アルゴリズムは, LLMを誘導することで条件分布が定義される確率モデルを用いて, 期待エントロピーと予測モデル変化を最適化する質問を返却する。
実商品を用いた簡易な対話型Webショッピング環境において,我々のエントロピー低減アルゴリズムを備えたLCMは,ユーザインタラクションを少なくしながら,タスク性能において,同一のLCMをベースラインとして性能を向上することを示した。
Actively inferring user preferences, for example by asking good questions, is important for any human-facing decision-making system. Active inference allows such systems to adapt and personalize themselves to nuanced individual preferences. To enable this ability for instruction-tuned large language models (LLMs), one may prompt them to ask users questions to infer their preferences, transforming the language models into more robust, interactive systems. However, out of the box, these models are not efficient at extracting preferences: the questions they generate are not informative, requiring a high number of user interactions and impeding the usability of the downstream system. In this work, we introduce an inference-time algorithm that helps LLMs quickly infer preferences by using more informative questions. Our algorithm uses a probabilistic model whose conditional distributions are defined by prompting an LLM, and returns questions that optimize expected entropy and expected model change. Results in a simplified interactive web shopping setting with real product items show that an LLM equipped with our entropy reduction algorithm outperforms baselines with the same underlying LLM on task performance while using fewer user interactions. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# シュレーディンガー方程式の確率ベクトル表現とLeggett-Garg型実験
Probability vector representation of the Schrödinger equation and Leggett-Garg-type experiments ( http://arxiv.org/abs/2312.16281v3 ) ライセンス: Link先を確認 | Masahiro Hotta, Sebastian Murk, | (参考訳) Leggett-Garg の不等式は、マクロ的現実主義 $\textit{per se}$ と非侵襲的可測性(noninvasive measurability)の原理に基づくシステムの時間的相関に縛られる。
従来の定式化は、異なる瞬間に測定された可観測物のアンサンブル平均積に依存している。
しかし、物理的に関係のある全ての特徴を正確に理解し、捉えるための完全な記述は、非可換観測物に関連する確率分布の研究を必要とする。
本稿では、Schr\\odinger方程式の確率ベクトル表現を通して、一般の$N$レベルの量子システムの力学を記述するためのスキームを提案し、非可換可観測物の確率分布に対する時間的無符号(NSIT)の正確な概念を定義する。
これは、非古典的行動に責任がある干渉を特定する体系的な方法を提供する。
さらに、任意の一般確率状態に対するNSIT違反を定量化するための干渉証人対策を導入する。
単一量子系では、測定中に発生する観測物の乱れとNSIT違反の関連性を確立する重要な関係性を示す。
手動決定が不可能な大規模N$システムでは、NSITコンフォーミングまたはNSIT違反として状態の分類を機械学習アルゴリズムによって行うことができる。
本稿では、擬似ランダムに生成された学習データセットを、対応する分類が $\textit{a priori}$ である状態から構成し、教師あり学習により分類器関数を作成できるアルゴリズムの証明・基本実装を提案する。
Leggett-Garg inequalities place bounds on the temporal correlations of a system based on the principles of macroscopic realism $\textit{per se}$ and noninvasive measurability. Their conventional formulation relies on the ensemble-averaged products of observables measured at different instants of time. However, a complete description that enables a precise understanding and captures all physically relevant features requires the study of probability distributions associated with noncommuting observables. In this article, we propose a scheme to describe the dynamics of generic $N$-level quantum systems ("qudits") via a probability vector representation of the Schr\"odinger equation and define a precise notion of no-signaling in time (NSIT) for the probability distributions of noncommuting observables. This provides a systematic way of identifying the interferences responsible for nonclassical behavior. In addition, we introduce an interference witness measure to quantify violations of NSIT for arbitrary general probabilistic states. For single-qubit systems, we pinpoint the pivotal relation that establishes a connection between the disturbance of observables incurred during a measurement and the resulting NSIT violation. For large-$N$ systems where a manual determination is infeasible, the classification of states as either NSIT-conforming or NSIT-violating may be performed by a machine learning algorithm. We present a proof-of-principle implementation of such an algorithm in which the classifier function is prepared via supervised learning using pseudorandomly generated training data sets composed of states whose corresponding classifications are known $\textit{a priori}$. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# ダイアリゼーションLM:大規模言語モデルを用いた話者ダイアリゼーション後処理
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models ( http://arxiv.org/abs/2401.03506v6 ) ライセンス: Link先を確認 | Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao, | (参考訳) 本稿では,大言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークであるダイアリゼーションLMを紹介する。
提案するフレームワークでは,ダイアリゼーション文字の可読性の向上や,単語ダイアリゼーション誤り率(WDER)の低減など,さまざまな目標を達成することができる。
この枠組みでは、自動音声認識(ASR)と話者ダイアリゼーションシステムの出力を、任意に微調整されたLLMのプロンプトに含まれるコンパクトテキスト形式として表現する。
LLMの出力は、所望の増強で精製ダイアリゼーション結果として用いることができる。
後処理のステップとして、このフレームワークは既存のコンポーネントを再トレーニングすることなく、市販のASRおよび話者ダイアリゼーションシステムに容易に適用することができる。
実験の結果,微調整された PaLM 2-S モデルにより WDER を rel で低減できることがわかった。
Fisher 電話の会話データセットで55.5%、rel。
44.9%であった。
In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 55.5% on the Fisher telephone conversation dataset, and rel. 44.9% on the Callhome English dataset. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# CTNeRF:モノクルビデオからの動的ニューラルラジアンスフィールドのためのクロス時間変換器
CTNeRF: Cross-Time Transformer for Dynamic Neural Radiance Field from Monocular Video ( http://arxiv.org/abs/2401.04861v2 ) ライセンス: Link先を確認 | Xingyu Miao, Yang Bai, Haoran Duan, Yawen Huang, Fan Wan, Yang Long, Yefeng Zheng, | (参考訳) 私たちの研究の目的は、複雑でダイナミックなシーンのモノクロビデオから高品質なノベルビューを生成することです。
従来の手法であるDynamicNeRFは、時間変化の動的放射場を活用することで、優れた性能を示した。
しかし、これらの手法は複雑な物体の動きを正確にモデル化する上で限界があり、不正確でぼやけた詳細の描画につながる可能性がある。
この制限に対処するために,近辺の視点を新たな視点に集約する,最近の一般化NeRFに基づく新しいアプローチを提案する。
しかし、このような手法は静的シーンにのみ有効である。
この課題を克服するために,時間領域と周波数領域の両方で動作するモジュールを導入し,オブジェクトの動きの特徴を集約する。
これにより、フレーム間の関係を学習し、高品質な画像を生成することができる。
実験により,動的シーンデータセットにおける最先端手法に対する大幅な改善が示された。
具体的には、合成されたビューの精度と視覚的品質の両方の観点から、既存の手法よりも優れている。
私たちのコードはhttps://github.com/xingy038/CTNeRFで利用可能です。
The goal of our work is to generate high-quality novel views from monocular videos of complex and dynamic scenes. Prior methods, such as DynamicNeRF, have shown impressive performance by leveraging time-varying dynamic radiation fields. However, these methods have limitations when it comes to accurately modeling the motion of complex objects, which can lead to inaccurate and blurry renderings of details. To address this limitation, we propose a novel approach that builds upon a recent generalization NeRF, which aggregates nearby views onto new viewpoints. However, such methods are typically only effective for static scenes. To overcome this challenge, we introduce a module that operates in both the time and frequency domains to aggregate the features of object motion. This allows us to learn the relationship between frames and generate higher-quality images. Our experiments demonstrate significant improvements over state-of-the-art methods on dynamic scene datasets. Specifically, our approach outperforms existing methods in terms of both the accuracy and visual quality of the synthesized views. Our code is available on https://github.com/xingy038/CTNeRF. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# 階層的因果モデル
Hierarchical Causal Models ( http://arxiv.org/abs/2401.05330v2 ) ライセンス: Link先を確認 | Eli N. Weinstein, David M. Blei, | (参考訳) 科学者は、しばしば、内部に営巣したサブユニットから収集された階層的なデータから、原因と影響について学びたいと思っている。
学校の学生、患者の細胞、州の都市を考えてみましょう。
このような設定では、単位レベルの変数(例えば、各学校の予算)は、サブユニットレベルの変数(例えば、各学校の各学生のテストスコア)に影響を与え、その逆も影響する。
階層的データを用いて因果問題に対処するため,構造因果モデルと因果グラフモデルを拡張した階層的因果モデルを提案する。
そこで我々は,do-calculusを拡張した階層型因果モデルのための一般的なグラフィカル識別手法を開発した。
階層的データが非階層的データで不可能である場合でも因果的識別を可能にする多くの状況、すなわち、サブユニットレベルの変数の単位レベルのサマリー(例えば、各学生のスコアではなく、学校の平均テストスコア)しか持たない場合においても、多くの状況が見つかる。
階層型ベイズモデルを含む手法を用いて階層型因果モデルの推定手法を開発した。
本研究は,古典的な「8つの学校」研究の再検討を通じて,シミュレーションと分析を行った。
Scientists often want to learn about cause and effect from hierarchical data, collected from subunits nested inside units. Consider students in schools, cells in patients, or cities in states. In such settings, unit-level variables (e.g. each school's budget) may affect subunit-level variables (e.g. the test scores of each student in each school) and vice versa. To address causal questions with hierarchical data, we propose hierarchical causal models, which extend structural causal models and causal graphical models by adding inner plates. We develop a general graphical identification technique for hierarchical causal models that extends do-calculus. We find many situations in which hierarchical data can enable causal identification even when it would be impossible with non-hierarchical data, that is, if we had only unit-level summaries of subunit-level variables (e.g. the school's average test score, rather than each student's score). We develop estimation techniques for hierarchical causal models, using methods including hierarchical Bayesian models. We illustrate our results in simulation and via a reanalysis of the classic "eight schools" study. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# 相関非マルコフチャネルの面
Facets of correlated non-Markovian channels ( http://arxiv.org/abs/2401.05499v2 ) ライセンス: Link先を確認 | Vivek Balasaheb Sabale, Nihar Ranjan Dash, Atul Kumar, Subhashish Banerjee, | (参考訳) 我々は,非マルコフ力学によるチャネルの相関作用と固有記憶から生じる電位記憶を探索し,非マルコフチャネルの領域について検討する。
チャネル相関の影響は、異なる非マルコビアン性指標と測定値を用いて研究される。
さらに,非マルコフチャネルの動的側面として,絡み合いのダイナミクスや,アクセス可能な状態の体積の変化について検討した。
この分析は、単体および非単体相関チャネルの両方に対して提示される。
また,Ornstein-Uhlenbeckノイズを修正した新しい相関チャネルを提示し,検討した。
さらに、相関する非マルコフチャネルの非マルコフ性による幾何学的効果を、アクセス可能な状態の体積の変化の研究で論じる。
相関係数と誤差補正成功確率との関係を強調する。
We investigate the domain of correlated non-Markovian channels, exploring the potential memory arising from the correlated action of channels and the inherent memory due to non-Markovian dynamics. The impact of channel correlations is studied using different non-Markovianity indicators and measures. In addition, the dynamical aspects of correlated non-Markovian channels, including entanglement dynamics as well as changes in the volume of accessible states, are explored. The analysis is presented for both unital and non-unital correlated channels. A new correlated channel constructed with modified Ornstein-Uhlenbeck noise is also presented and explored. Further, the geometrical effects of the non-Markovianity of the correlated non-Markovian channels are discussed with a study of change in the volume of the accessible states. The link between the correlation factor and error correction success probability is highlighted. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# AGI Summitから遠く離れた推論のクイックサンドに見る:オントロジー誘導によるLLMの数学的および符号化能力の評価
Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions ( http://arxiv.org/abs/2401.09395v3 ) ライセンス: Link先を確認 | Pengfei Hong, Deepanway Ghosal, Navonil Majumder, Somak Aditya, Rada Mihalcea, Soujanya Poria, | (参考訳) 最近のLLM(Large Language Models)の進歩は、既存の論理的推論ベンチマークにおいて顕著な結果を示しており、一部のモデルは人間のパフォーマンスを超越している。
しかしながら、タスクの推論における彼らの能力と堅牢性の真の深さは、未解決の問題のままである。
そこで本稿では,算術的推論とコード生成という2つの一般的な推論タスクに注目した。
特に紹介する。
一 数学及びコーディング問題に対する摂動の一般的なオントロジー
(二)これらの摂動を応用するための半自動的方法、及び
三 数値推論及び符号化タスクにおけるLLM能力の限界を探索するため、摂動数学と符号化問題の2つのデータセットMOREとCORE。
オープンソース LLM とオープンソース LLM の総合的な評価を通じて,すべてのモデルにおいて,難解な問題に対する大幅な性能低下が見られ,現在の LLM には,オントロジーで定義されているような,堅牢な問題解決スキルと構造化推論能力が欠如していることが示唆された。
データセットとソースコードは、https://github.com/declare-lab/llm_robustness.comで公開しています。
Recent advancements in Large Language Models (LLMs) have showcased striking results on existing logical reasoning benchmarks, with some models even surpassing human performance. However, the true depth of their competencies and robustness in reasoning tasks remains an open question. To this end, in this paper, we focus on two popular reasoning tasks: arithmetic reasoning and code generation. Particularly, we introduce: (i) a general ontology of perturbations for maths and coding questions, (ii) a semi-automatic method to apply these perturbations, and (iii) two datasets, MORE and CORE, respectively, of perturbed maths and coding problems to probe the limits of LLM capabilities in numeric reasoning and coding tasks. Through comprehensive evaluations of both closed-source and open-source LLMs, we show a significant performance drop across all the models against the perturbed questions, suggesting that the current LLMs lack robust problem solving skills and structured reasoning abilities in many areas, as defined by our ontology. We open source the datasets and source codes at: https://github.com/declare-lab/llm_robustness. | 翻訳日:2024-06-27 19:24:20 公開日:2024-06-26 |
# 温度スケーリングによるフェデレーション学習におけるローカルトレーニングの改善
Improving Local Training in Federated Learning via Temperature Scaling ( http://arxiv.org/abs/2401.09986v2 ) ライセンス: Link先を確認 | Kichang Lee, Songkuk Kim, JeongGil Ko, | (参考訳) フェデレートラーニングはデータ不均一性によって本質的に妨げられている。
本稿では,ロジット・チル化手法を利用した新しいモデル学習手法FLex&Chillを提案する。
本研究では,フェデレート学習システムに固有の非二項データ特性の存在下で,モデル収束の迅速化と推論精度の向上を実証する。
本実験から,グローバルフェデレーション学習モデルの収束時間における最大6倍の改善と,推論精度の最大3.37%の改善を定量的に観察した。
Federated learning is inherently hampered by data heterogeneity: non-i.i.d. training data over local clients. We propose a novel model training approach for federated learning, FLex&Chill, which exploits the Logit Chilling method. Through extensive evaluations, we demonstrate that, in the presence of non-i.i.d. data characteristics inherent in federated learning systems, this approach can expedite model convergence and improve inference accuracy. Quantitatively, from our experiments, we observe up to 6X improvement in the global federated learning model convergence time, and up to 3.37% improvement in inference accuracy. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# 任意スケールの病理画像スーパーレゾリューションに向けて: インシシト自己テクスチャ強化による効率的なデュアルブランチフレームワーク
Towards Arbitrary-Scale Histopathology Image Super-resolution: An Efficient Dual-branch Framework via Implicit Self-texture Enhancement ( http://arxiv.org/abs/2401.15613v3 ) ライセンス: Link先を確認 | Minghong Duan, Linhao Qu, Zhiwei Yang, Manning Wang, Chenxi Zhang, Zhijian Song, | (参考訳) 高品質な全スライディングスキャナーは高価で複雑で時間を要するため、日常臨床における高解像度の病理画像の取得と利用が制限される。
低分解能画像から高分解能画像を合成することにより、深層学習に基づく単一画像の超解像技術がこの問題の解決に有効な方法である。
しかし、病理画像に適用された既存の超解像モデルは、固定整数倍率でしか機能せず、適用性が著しく低下する。
暗黙的な神経表現に基づく手法は、自然画像の任意のスケールの超解像において有望な結果を示しているが、それを病理画像に直接適用することは、自然画像とは異なる独特の微細な画像テクスチャを持つため、不十分である。
そこで本研究では,この課題に対処するために,任意の規模の病理像の超解像を実現するためのImplicit Self-Texture Enhancement-based dual-branch framework (ISTE)を提案する。
ISTEには、まずピクセルの特徴とテクスチャの特徴を学習するテクスチャ学習ブランチと、画素学習ブランチが含まれている。
そして、2段階のテクスチャ強化戦略を設計し、2段階のテクスチャを融合させて超解像結果を得る。
3つの公開データセットに対する大規模な実験によると、ISTEは既存の固定スケールおよび任意のスケールのアルゴリズムを複数の倍率で上回り、下流タスクのパフォーマンスを向上させる。
我々の知る限りでは、病理画像における任意のスケールの超解像を実現するための最初の試みである。
コードは利用可能。
High-quality whole-slide scanners are expensive, complex, and time-consuming, thus limiting the acquisition and utilization of high-resolution pathology whole-slide images in daily clinical work. Deep learning-based single-image super-resolution techniques are an effective way to solve this problem by synthesizing high-resolution images from low-resolution ones. However, the existing super-resolution models applied in pathology images can only work in fixed integer magnifications, significantly decreasing their applicability. Though methods based on implicit neural representation have shown promising results in arbitrary-scale super-resolution of natural images, applying them directly to pathology images is inadequate because they have unique fine-grained image textures different from natural images. Thus, we propose an Implicit Self-Texture Enhancement-based dual-branch framework (ISTE) for arbitrary-scale super-resolution of pathology images to address this challenge. ISTE contains a pixel learning branch and a texture learning branch, which first learn pixel features and texture features, respectively. Then, we design a two-stage texture enhancement strategy to fuse the features from the two branches to obtain the super-resolution results, where the first stage is feature-based texture enhancement, and the second stage is spatial-domain-based texture enhancement. Extensive experiments on three public datasets show that ISTE outperforms existing fixed-scale and arbitrary-scale algorithms at multiple magnifications and helps to improve downstream task performance. To the best of our knowledge, this is the first work to achieve arbitrary-scale super-resolution in pathology images. Codes will be available. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# 混合状態量子異常と多部絡み合い
Mixed-state quantum anomaly and multipartite entanglement ( http://arxiv.org/abs/2401.17357v3 ) ライセンス: Link先を確認 | Leonardo A. Lessa, Meng Cheng, Chong Wang, | (参考訳) 多体状態の量子絡み合い測定は、物質の相を特徴づけるのにますます有用である。
ここでは、混合状態絡み合いと't Hooft anomaly'の間の驚くべき関係を探求する。
具体的には、異常対称性を持つ$d$空間次元の格子系を、群コホモロジー $H^{d+2}(G,U(1))$ の不変量によって特徴づけられるような、異常対称性 $G$ を考える。
G\rho\propto\rho$は必ずしも$(d+2)$-非分離である、すなわちヒルベルト空間における$d+2$状態のテンソル積の混合ではないという意味で、$G$の下で強対称である混合状態$\rho$が必ず$(d+2)$-分離可能であることを示す。
さらに、そのような状態は、有限深さの局所量子チャネルを用いて任意の$(d+2)$-分離状態から準備することはできないので、非分離性は自然界において長い距離を持つ。
これらの結果の証明を$d\leq1$で、妥当性引数を$d>1$で提供します。
これにより、非自明な長距離多部絡み合いを持つ混合状態の単純な例を生成することができる。
特に$d=1$ では、この相の状態が有限深さの局所量子チャネルを通して任意の純粋状態と双方向に接続できないという意味で、本質的に混合された量子相の例を見出した。
また、リーブ・シュルツ・マティス型の異常に制約されたシステムを含む、強対称性と弱対称性の両方を含む混合異常についても短時間議論する。
Quantum entanglement measures of many-body states have been increasingly useful to characterize phases of matter. Here we explore a surprising connection between mixed state entanglement and 't Hooft anomaly. More specifically, we consider lattice systems in $d$ space dimensions with anomalous symmetry $G$ where the anomaly is characterized by an invariant in the group cohomology $H^{d+2}(G,U(1))$. We show that any mixed state $\rho$ that is strongly symmetric under $G$, in the sense that $G\rho\propto\rho$, is necessarily $(d+2)$-nonseparable, i.e. is not the mixture of tensor products of $d+2$ states in the Hilbert space. Furthermore, such states cannot be prepared from any $(d+2)$-separable states using finite-depth local quantum channels, so the nonseparability is long-ranged in nature. We provide proof of these results in $d\leq1$, and plausibility arguments in $d>1$. The anomaly-nonseparability connection thus allows us to generate simple examples of mixed states with nontrivial long-ranged multipartite entanglement. In particular, in $d=1$ we found an example of intrinsically mixed quantum phase, in the sense that states in this phase cannot be two-way connected to any pure state through finite-depth local quantum channels. We also briefly discuss mixed anomaly involving both strong and weak symmetries, including systems constrained by the Lieb-Schultz-Mattis type of anomaly. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# セキュリティの保証: 哲学的視点
Guarantees in Security: A Philosophical Perspective ( http://arxiv.org/abs/2402.01944v4 ) ライセンス: Link先を確認 | Marcel Böhme, | (参考訳) サイバーセキュリティの研究は、反応性、特異性、短命性、そして実際は効果がないように思われる。
何十年もの間、防衛の革新にもかかわらず、もっとも重要なソフトウェアシステムでさえ、攻撃に弱いことが判明した。
何度も。
攻撃と防御は永遠に繰り返す。
証明可能なセキュリティでさえ、攻撃者がセキュリティ上の欠陥を見つけるのを止めることはできない。
私たちの成果を反映して、私たちは疑問を抱いている。 セキュリティは、すべてにおいて、一度に解決できるのだろうか?
本稿では、哲学的な観点から、ソフトウェアシステムのセキュリティに関する信頼できる言明を*基礎的に]何が妨げているのかを説明する最初のサイバーセキュリティ理論を策定する。
セキュリティ欠陥の欠如に関する確実な保証にもかかわらず、対応する課題がシステムを攻撃するために日常的にどのように利用されるかを示すことで、各議論を裏付ける。
これらの課題の存在下で有意義な進展を図るために,サイバーセキュリティの哲学を導入する。
Research in cybersecurity may seem reactive, specific, ephemeral, and indeed ineffective. Despite decades of innovation in defense, even the most critical software systems turn out to be vulnerable to attacks. Time and again. Offense and defense forever on repeat. Even provable security, meant to provide an indubitable guarantee of security, does not stop attackers from finding security flaws. As we reflect on our achievements, we are left wondering: Can security be solved once and for all? In this paper, we take a philosophical perspective and develop the first theory of cybersecurity that explains what *fundamentally* prevents us from making reliable statements about the security of a software system. We substantiate each argument by demonstrating how the corresponding challenge is routinely exploited to attack a system despite credible assurances about the absence of security flaws. To make meaningful progress in the presence of these challenges, we introduce a philosophy of cybersecurity. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# DeCoF:フレーム一貫性による生成ビデオ検出:最初のベンチマークデータセット
DeCoF: Generated Video Detection via Frame Consistency: The First Benchmark Dataset ( http://arxiv.org/abs/2402.02085v4 ) ライセンス: Link先を確認 | Long Ma, Jiajia Zhang, Hongping Deng, Ningyu Zhang, Qinglang Guo, Haiyang Yu, Yong Liao, Pengyuan Zhou, | (参考訳) 高度なビデオ生成手法によって生成されたビデオの品質が向上すると、新たなセキュリティ上の課題がもたらされるが、関連する研究成果はほとんどない。
1)生成したビデオ検出のためのオープンソースデータセットは存在しない。
2) これまでに生成した映像検出手法は提案されていない。
そこで本研究では,生成したビデオのオープンソースデータセットと検出方法を初めて提案する。
まず、964プロンプトからなるスケーラブルなデータセットを提案し、さまざまなフォージェリターゲット、シーン、振る舞い、アクションに加えて、OpenAIのSoraやGoogleのVeoといった最もポピュラーな商用モデルを含む、さまざまなアーキテクチャと生成メソッドを備えたさまざまな世代モデルをカバーしています。
第二に、空間的人工物に基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
そこで,本稿では,特徴学習における空間的アーティファクトの影響を排除し,時間的アーティファクトに着目した,簡易かつ効果的な \textbf{de} 決定モデルを提案する。
大規模な実験は、目に見えないビデオ生成モデルによって生成されたビデオの検出におけるDeCoFの有効性を実証し、その強力な一般化性を複数の商用プロプライエタリなモデルで確認する。
コードとデータセットは \url{https://github.com/wuwuuuuyue/DeCoF} でリリースされます。
The escalating quality of video generated by advanced video generation methods results in new security challenges, while there have been few relevant research efforts: 1) There is no open-source dataset for generated video detection, 2) No generated video detection method has been proposed so far. To this end, we propose an open-source dataset and a detection method for generated video for the first time. First, we propose a scalable dataset consisting of 964 prompts, covering various forgery targets, scenes, behaviors, and actions, as well as various generation models with different architectures and generation methods, including the most popular commercial models like OpenAI's Sora and Google's Veo. Second, we found via probing experiments that spatial artifact-based detectors lack generalizability. Hence, we propose a simple yet effective \textbf{de}tection model based on \textbf{f}rame \textbf{co}nsistency (\textbf{DeCoF}), which focuses on temporal artifacts by eliminating the impact of spatial artifacts during feature learning. Extensive experiments demonstrate the efficacy of DeCoF in detecting videos generated by unseen video generation models and confirm its powerful generalizability across several commercially proprietary models. Our code and dataset will be released at \url{https://github.com/wuwuwuyue/DeCoF}. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# バニラ・ベイズ最適化、高次元で大きなパフォーマンスを達成
Vanilla Bayesian Optimization Performs Great in High Dimensions ( http://arxiv.org/abs/2402.02229v4 ) ライセンス: Link先を確認 | Carl Hvarfner, Erik Orm Hellsten, Luigi Nardi, | (参考訳) 高次元問題はベイズ最適化アルゴリズムのアキレスのヒールと見なされてきた。
次元性の呪いに駆られて、アルゴリズムの大規模なコレクションは、この設定において、様々な単純化された仮定を目的に課すことにより、よりパフォーマンスを高めることを目的としている。
本稿では,バニラベイズ最適化を高次元タスクに不適なデジネラシーを同定し,既存のアルゴリズムがこれらのデジネラシーにどのように対処するかを示す。
さらに,バニラベイズ最適化アルゴリズムに典型的な仮定の強化を提案し,目的に構造的制約を課すことなく,管理可能なレベルへの複雑性を低減する。
我々の修正 - 次元に先行するガウス過程の単純なスケーリング - により、標準的なベイズ最適化は、以前考えられていた高次元よりも大幅にうまく機能し、複数の一般的な実世界の高次元タスクにおいて、既存の最先端アルゴリズムよりも明らかに優れていることが分かる。
High-dimensional problems have long been considered the Achilles' heel of Bayesian optimization algorithms. Spurred by the curse of dimensionality, a large collection of algorithms aim to make it more performant in this setting, commonly by imposing various simplifying assumptions on the objective. In this paper, we identify the degeneracies that make vanilla Bayesian optimization poorly suited to high-dimensional tasks, and further show how existing algorithms address these degeneracies through the lens of lowering the model complexity. Moreover, we propose an enhancement to the prior assumptions that are typical to vanilla Bayesian optimization algorithms, which reduces the complexity to manageable levels without imposing structural restrictions on the objective. Our modification - a simple scaling of the Gaussian process lengthscale prior with the dimensionality - reveals that standard Bayesian optimization works drastically better than previously thought in high dimensions, clearly outperforming existing state-of-the-art algorithms on multiple commonly considered real-world high-dimensional tasks. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# ユークリッド同変機械学習のためのWeisfeiler Leman
Weisfeiler Leman for Euclidean Equivariant Machine Learning ( http://arxiv.org/abs/2402.02484v3 ) ライセンス: Link先を確認 | Snir Hordan, Tal Amir, Nadav Dym, | (参考訳) k$-Weisfeiler-Leman(k$-WL)グラフ同型テスト階層は、グラフニューラルネットワーク(GNN)の表現力を評価する一般的な方法である。
最近、表現力が 2$-WL テストと等価である GNN は、点クラウドデータを3.3\mathrm{D}$でエンコードする重み付きグラフ上で普遍であることが証明されたが、この結果は点クラウド上の不変連続関数に限られている。
第一に、PSGNは、複雑さの低い全点の雲上で、均一に2$-WLをシミュレートできることを示す。
第二に、アプリケーションでよく発生するシナリオである、位置と速度の両方を含むポイントクラウドまで、$2-WLのテストを拡張できることを示します。
最後に、同変普遍性を証明するための一般的な枠組みを提供し、これを利用すれば、この不変な PPGN アーキテクチャの簡単な修正が、すべての連続同変関数を一様に近似できる普遍同変アーキテクチャを得るのに利用できることを証明できる。
この結果に基づいて,N-Body動的タスクとGEOM-QM9分子配座生成タスクに新たな最先端結果を設定するWeLNetアーキテクチャを開発した。
The $k$-Weisfeiler-Leman ($k$-WL) graph isomorphism test hierarchy is a common method for assessing the expressive power of graph neural networks (GNNs). Recently, GNNs whose expressive power is equivalent to the $2$-WL test were proven to be universal on weighted graphs which encode $3\mathrm{D}$ point cloud data, yet this result is limited to invariant continuous functions on point clouds. In this paper, we extend this result in three ways: Firstly, we show that PPGN can simulate $2$-WL uniformly on all point clouds with low complexity. Secondly, we show that $2$-WL tests can be extended to point clouds which include both positions and velocities, a scenario often encountered in applications. Finally, we provide a general framework for proving equivariant universality and leverage it to prove that a simple modification of this invariant PPGN architecture can be used to obtain a universal equivariant architecture that can approximate all continuous equivariant functions uniformly. Building on our results, we develop our WeLNet architecture, which sets new state-of-the-art results on the N-Body dynamics task and the GEOM-QM9 molecular conformation generation task. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# パルスベース量子ニューラルネットワークの表現力の解放
Unleashing the Expressive Power of Pulse-Based Quantum Neural Networks ( http://arxiv.org/abs/2402.02880v2 ) ライセンス: Link先を確認 | Han-Xiao Tao, Jiaqi Hu, Re-Bing Wu, | (参考訳) ノイズ中間スケール量子(NISQ)デバイスに基づく量子機械学習(QML)は、限られた量子リソースの最適利用に依存している。
ゲートベースのQMLモデルは、ソフトウェア技術者に親しみやすいが、その表現性は有限コヒーレンス時間以内の許容回路深さによって制限される。
これとは対照的に、パルスベースのモデルでは、「無限に」深い量子ニューラルネットワークを同時に構築することが可能であり、複雑な学習タスクにおいてより表現力を高めることができる。
本稿では,このポテンシャルを量子制御理論の観点から検討する。
まず、パルスベースモデルの非線形性は、ゲートベースモデルにおけるデータ再ロードの連続的な限界と見なせる符号化プロセスに由来することを示唆する。
次いで,基礎となる物理系がアンサンブル制御可能である場合に,パルスベースモデルが任意の非線形関数を近似できることを示す。
この条件下では、パルス長を増大させるか、量子ビットの数を増大させることで、数値シミュレーションにより表現性の向上が示される。
期待されたように、パルスベースモデルの方がゲートベースモデルよりも表現力の解放が可能であることを示す数値例を通して示す。
これらの知見は、NISQデバイスを用いた表現型QMLモデルの理解と設計のための理論的基礎を築いた。
Quantum machine learning (QML) based on Noisy Intermediate-Scale Quantum (NISQ) devices hinges on the optimal utilization of limited quantum resources. While gate-based QML models are user-friendly for software engineers, their expressivity is restricted by the permissible circuit depth within a finite coherence time. In contrast, pulse-based models enable the construction of "infinitely" deep quantum neural networks within the same time, which may unleash greater expressive power for complex learning tasks. In this paper, this potential is investigated from the perspective of quantum control theory. We first indicate that the nonlinearity of pulse-based models comes from the encoding process that can be viewed as the continuous limit of data-reuploading in gate-based models. Subsequently, we prove that the pulse-based model can approximate arbitrary nonlinear functions when the underlying physical system is ensemble controllable. Under this condition, numerical simulations demonstrate the enhanced expressivity by either increasing the pulse length or the number of qubits. As anticipated, we show through numerical examples that the pulse-based model can unleash more expressive power compared to the gate-based model. These findings lay a theoretical foundation for understanding and designing expressive QML models using NISQ devices. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# 古典的無線マイクロ波星座を用いた量子位相空間の符号化
Encoding quantum phase-space with classical wireless microwave constellation ( http://arxiv.org/abs/2402.02923v2 ) ライセンス: Link先を確認 | Niloy Ghosh, Sarang Pendharker, | (参考訳) 本稿では,無線-光変換器における古典的マイクロ波領域から量子光学領域へのデジタル情報のシームレスな転送を可能にする理論的枠組みを開発する。
アンテナ結合型電気光学変調器を用いたコンバータにおけるマイクロ波-光デジタル情報マッピングを特徴付けるために,量子力学ネットワークモデルが導入された。
情報マッピングの強度を最大化する設計ガイドラインについて論じる。
導出モデルは、古典的無線マイクロ波星座を持つ光コヒーレント状態の位相空間符号化を示すように拡張される。
さらに,2次ゆらぎによる符号化量子光学位相空間におけるシンボル間重なりの課題について述べる。
2次ゆらぎによる誤位相空間符号化の可能性が指摘され、続いて潜在的な緩和技術が紹介される。
提示された枠組みは、圧縮された状態のような他の古典的でない光の状態を符号化する基礎も築き上げており、それゆえ、近い将来、古典的なマイクロ波および量子光学リンクをブリッジする基礎を形成している。
This paper develops a theoretical framework for enabling seamless transfer of digital information from classical microwave domain to the quantum optical domain in wireless-to-optical converters. A quantum mechanical network model is introduced to characterize microwave-to-optical digital information mapping in antenna-coupled electro-optic modulator-based converters. Design guidelines are discussed to maximize the information mapping strength. The derived model is then extended to show phase-space encoding of optical coherent-states with classical wireless microwave constellation. Further, the challenge of inter-symbol overlap in the encoded quantum optical phase-space due to quadrature fluctuations is highlighted. The possibility of erroneous phase-space encoding due to quadrature fluctuations is pointed out, followed by a potential mitigation technique. The presented framework also lays the groundwork for encoding other non-classical states of light such as squeezed states, and hence forms the basis for bridging classical microwave and quantum optical links in the near future. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# SUB-PLAY:部分観測型マルチエージェント強化学習システムに対する対抗策
SUB-PLAY: Adversarial Policies against Partially Observed Multi-Agent Reinforcement Learning Systems ( http://arxiv.org/abs/2402.03741v3 ) ライセンス: Link先を確認 | Oubo Ma, Yuwen Pu, Linkang Du, Yang Dai, Ruo Wang, Xiaolei Liu, Yingcai Wu, Shouling Ji, | (参考訳) マルチエージェント強化学習(MARL)の最近の進歩は、ドローンの群れ制御、ロボットアームによる協調操作、マルチターゲットの囲い込みなど、膨大な応用可能性を開く。
しかし、MARL配備時の潜在的なセキュリティ上の脅威には、より注意と徹底的な調査が必要である。
最近の研究によると、攻撃者は被害者の脆弱性を迅速に悪用し、特定のタスクの失敗につながる敵のポリシーを生成する。
例えば、スーパーヒューマンレベルの囲碁AIの勝利率を約20%に下げる。
既存の研究は、攻撃者が完全なグローバルな状態観察を持っていると仮定して、主に2人のプレイヤーの競争環境に焦点を当てている。
本研究では,マルチエージェント競争環境において,被害者の部分的観察に制限された場合においても,攻撃者が敵の政策を生成できることを初めて明らかにした。
具体的には、部分観測可能性の影響を軽減するために複数のサブゲームを構築するという概念を取り入れた新しいブラックボックス攻撃(Sub-PLAY)を提案する。
3つの典型的な部分的可観測限界下でのSUB-PLAYの有効性を広範囲に評価した。
可視化の結果,敵対的政策が被害者の政策ネットワークの活性化を著しく引き起こすことが示唆された。
さらに、敵対的政策によるセキュリティの脅威を軽減し、競争環境にMARLを配備するための建設的な勧告を提供することを目的とした3つの防衛策の評価を行った。
Recent advancements in multi-agent reinforcement learning (MARL) have opened up vast application prospects, such as swarm control of drones, collaborative manipulation by robotic arms, and multi-target encirclement. However, potential security threats during the MARL deployment need more attention and thorough investigation. Recent research reveals that attackers can rapidly exploit the victim's vulnerabilities, generating adversarial policies that result in the failure of specific tasks. For instance, reducing the winning rate of a superhuman-level Go AI to around 20%. Existing studies predominantly focus on two-player competitive environments, assuming attackers possess complete global state observation. In this study, we unveil, for the first time, the capability of attackers to generate adversarial policies even when restricted to partial observations of the victims in multi-agent competitive environments. Specifically, we propose a novel black-box attack (SUB-PLAY) that incorporates the concept of constructing multiple subgames to mitigate the impact of partial observability and suggests sharing transitions among subpolicies to improve attackers' exploitative ability. Extensive evaluations demonstrate the effectiveness of SUB-PLAY under three typical partial observability limitations. Visualization results indicate that adversarial policies induce significantly different activations of the victims' policy networks. Furthermore, we evaluate three potential defenses aimed at exploring ways to mitigate security threats posed by adversarial policies, providing constructive recommendations for deploying MARL in competitive environments. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# 物理インフォームドニューラルネットワークにおける非線形レジームの課題
The Challenges of the Nonlinear Regime for Physics-Informed Neural Networks ( http://arxiv.org/abs/2402.03864v2 ) ライセンス: Link先を確認 | Andrea Bonfanti, Giuseppe Bruno, Cristina Cipriani, | (参考訳) The Neural Tangent Kernel (NTK) perspective is widely used to analyze the training dynamics of overparameterized Physics-Informed Neural Networks (PINNs)。
しかし、線形偏微分方程式(PDE)とは異なり、非線形シナリオにおいてNTKパースペクティブが不足することを示す。
具体的には、NTKは、従来の信念とは対照的に、トレーニング中に一定ではない初期化時にランダムな行列を生成する。
線型系との大きな違いは、理想主義的な無限幅極限でさえ、ヘッセンは消滅せず、したがって訓練中は無視できないことである。
これは二階最適化法の採用を動機付けている。
線形および非線形の場合においても,そのような手法の収束保証について検討し,スペクトルバイアスや緩やかな収束といった課題に対処する。
各理論結果は線形PDEと非線形PDEの数値例によって支持され、ベンチマークテストケースにおける2次手法の利点を強調した。
The Neural Tangent Kernel (NTK) viewpoint is widely employed to analyze the training dynamics of overparameterized Physics-Informed Neural Networks (PINNs). However, unlike the case of linear Partial Differential Equations (PDEs), we show how the NTK perspective falls short in the nonlinear scenario. Specifically, we establish that the NTK yields a random matrix at initialization that is not constant during training, contrary to conventional belief. Another significant difference from the linear regime is that, even in the idealistic infinite-width limit, the Hessian does not vanish and hence it cannot be disregarded during training. This motivates the adoption of second-order optimization methods. We explore the convergence guarantees of such methods in both linear and nonlinear cases, addressing challenges such as spectral bias and slow convergence. Every theoretical result is supported by numerical examples with both linear and nonlinear PDEs, and we highlight the benefits of second-order methods in benchmark test cases. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# CLIF: スパイクニューラルネットワークのための相補的漏洩積分と火炎ニューロン
CLIF: Complementary Leaky Integrate-and-Fire Neuron for Spiking Neural Networks ( http://arxiv.org/abs/2402.04663v3 ) ライセンス: Link先を確認 | Yulong Huang, Xiaopeng Lin, Hongwei Ren, Haotian Fu, Yue Zhou, Zunchang Liu, Biao Pan, Bojun Cheng, | (参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
従来のディープニューラルネットワーク(ANN)と比較して、SNNは時間情報を処理するための優れた効率と能力を示す。
しかし、SNNのスパイク機構の区別が難しいため、SNNを訓練することは依然として困難である。
シュロゲート勾配法は一般にSNNの訓練に使用されるが、ANNに比べて精度が劣ることが多い。
我々は、分解された精度と時間次元の勾配の消失を、Leaky Integrate-and-Fire(LIF)neuron-based SNNのトレーニング過程の分析および実験的研究を通して関連付ける。
さらに,CLIF(Complementary Leaky Integrate-and-Fire)ニューロンを提案する。
CLIFは、バイナリ出力を維持しながら、時間勾配の計算におけるバックプロパゲーションを容易にするために、余分なパスを生成する。
CLIFはハイパーパラメータフリーで、幅広い適用性を備えている。
さまざまなデータセットに対する大規模な実験は、他のニューロンモデルに対するCLIFの明確なパフォーマンス上の優位性を示している。
さらに、CLIFのパフォーマンスは、ネットワーク構造とトレーニング条件が同じである優れたANNをわずかに上回っている。
コードはhttps://github.com/HuuYuLong/Complementary-LIFで公開されている。
Spiking neural networks (SNNs) are promising brain-inspired energy-efficient models. Compared to conventional deep Artificial Neural Networks (ANNs), SNNs exhibit superior efficiency and capability to process temporal information. However, it remains a challenge to train SNNs due to their undifferentiable spiking mechanism. The surrogate gradients method is commonly used to train SNNs, but often comes with an accuracy disadvantage over ANNs counterpart. We link the degraded accuracy to the vanishing of gradient on the temporal dimension through the analytical and experimental study of the training process of Leaky Integrate-and-Fire (LIF) Neuron-based SNNs. Moreover, we propose the Complementary Leaky Integrate-and-Fire (CLIF) Neuron. CLIF creates extra paths to facilitate the backpropagation in computing temporal gradient while keeping binary output. CLIF is hyperparameter-free and features broad applicability. Extensive experiments on a variety of datasets demonstrate CLIF's clear performance advantage over other neuron models. Furthermore, the CLIF's performance even slightly surpasses superior ANNs with identical network structure and training conditions. The code is available at https://github.com/HuuYuLong/Complementary-LIF. | 翻訳日:2024-06-27 19:14:34 公開日:2024-06-26 |
# FaithLM: 大規模言語モデルの忠実な説明を目指して
FaithLM: Towards Faithful Explanations for Large Language Models ( http://arxiv.org/abs/2402.04678v3 ) ライセンス: Link先を確認 | Yu-Neng Chuang, Guanchu Wang, Chia-Yuan Chang, Ruixiang Tang, Shaochen Zhong, Fan Yang, Mengnan Du, Xuanting Cai, Xia Hu, | (参考訳) 大きな言語モデル(LLM)は、その内部知識と推論能力を活用することで、複雑なタスクに対処するのに熟練している。
しかしながら、これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
近年の進歩は、自然言語(NL)による予測を自己説明するためにLLMを利用する可能性を示しているが、それらの説明は、導出された説明に対する忠実度最適化の欠如により、LLMの意思決定過程を正確に反映していない可能性がある。
これらの説明の意味を隠蔽するために入力コンテキストを操作するのは難しいため、NL説明の忠実度を測定することは難しい問題である。
そこで本研究では, LLM の決定を NL の説明で説明するために FaithLM を紹介した。
特に、FithLMは、逆の説明をクエリプロセスに組み込むことで、NL説明の忠実さを評価する手法を設計する。
さらに、FaithLMは、導出された説明の忠実性を改善するために反復的なプロセスを実行する。
複数の領域から得られた3つのデータセットの実験結果から、FithLMは導出された説明の忠実性を大幅に向上させることができることが示され、また、地上の真実的説明との整合性も向上する。
Large Language Models (LLMs) have become proficient in addressing complex tasks by leveraging their extensive internal knowledge and reasoning capabilities. However, the black-box nature of these models complicates the task of explaining their decision-making processes. While recent advancements demonstrate the potential of leveraging LLMs to self-explain their predictions through natural language (NL) explanations, their explanations may not accurately reflect the LLMs' decision-making process due to a lack of fidelity optimization on the derived explanations. Measuring the fidelity of NL explanations is a challenging issue, as it is difficult to manipulate the input context to mask the semantics of these explanations. To this end, we introduce FaithLM to explain the decision of LLMs with NL explanations. Specifically, FaithLM designs a method for evaluating the fidelity of NL explanations by incorporating the contrary explanations to the query process. Moreover, FaithLM conducts an iterative process to improve the fidelity of derived explanations. Experiment results on three datasets from multiple domains demonstrate that FaithLM can significantly improve the fidelity of derived explanations, which also provides a better alignment with the ground-truth explanations. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# 協調LLMエージェントによる自律走行のための編集可能なシーンシミュレーション
Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents ( http://arxiv.org/abs/2402.05746v3 ) ライセンス: Link先を確認 | Yuxi Wei, Zi Wang, Yifan Lu, Chenxin Xu, Changxing Liu, Hao Zhao, Siheng Chen, Yanfeng Wang, | (参考訳) 自動運転におけるシーンシミュレーションは、カスタマイズされたデータを生成する大きな可能性を秘めているため、大きな注目を集めている。
しかし,既存の編集可能なシーンシミュレーションでは,ユーザインタラクション効率,マルチカメラフォトリアリスティックレンダリング,外部デジタルアセット統合といった面で制限に直面している。
これらの課題に対処するため,本稿では,外部デジタル資産を用いた自然言語コマンドによる編集可能な3次元実写シーンシミュレーションを実現するChatSimを紹介する。
高いコマンド柔軟性で編集を可能にするために、~ChatSimは、大きな言語モデル(LLM)エージェントコラボレーションフレームワークを活用している。
フォトリアリスティックな結果を生成するために、ChatSimは、新しいマルチカメラニューラル放射場法を採用している。
さらに、ChatSimは、広範囲にわたる高品質なデジタル資産の可能性を解き放つために、シーン一貫性のある資産のレンダリングを実現するために、新しいマルチカメラ照明推定手法を採用している。
Waymo Open Datasetの実験では、ChatSimが複雑な言語コマンドを処理し、対応する写真リアリスティックなシーンビデオを生成することができることを示した。
Scene simulation in autonomous driving has gained significant attention because of its huge potential for generating customized data. However, existing editable scene simulation approaches face limitations in terms of user interaction efficiency, multi-camera photo-realistic rendering and external digital assets integration. To address these challenges, this paper introduces ChatSim, the first system that enables editable photo-realistic 3D driving scene simulations via natural language commands with external digital assets. To enable editing with high command flexibility,~ChatSim leverages a large language model (LLM) agent collaboration framework. To generate photo-realistic outcomes, ChatSim employs a novel multi-camera neural radiance field method. Furthermore, to unleash the potential of extensive high-quality digital assets, ChatSim employs a novel multi-camera lighting estimation method to achieve scene-consistent assets' rendering. Our experiments on Waymo Open Dataset demonstrate that ChatSim can handle complex language commands and generate corresponding photo-realistic scene videos. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# SPHINX-X:マルチモーダル大言語モデルのスケーリングデータとパラメータ
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models ( http://arxiv.org/abs/2402.05935v2 ) ライセンス: Link先を確認 | Dongyang Liu, Renrui Zhang, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao, Peng Gao, | (参考訳) SPHINXをベースとしたMLLMシリーズであるSPHINX-Xを提案する。
アーキテクチャとトレーニング効率を改善するため、冗長なビジュアルエンコーダを除去し、完全にパッド化されたサブイメージをスキップトークンで通過させ、マルチステージトレーニングを1段階のオールインワンパラダイムに単純化することで、SPHINXフレームワークを修正した。
MLLMの可能性をフルに解き放つために、言語、ビジョン、ビジョン言語タスクにおいて利用可能なリソースを網羅した、包括的なマルチドメインとマルチモーダルのデータセットを組み立てる。
我々はさらに、このコレクションをOCR集約データセットとSet-of-Markデータセットで強化し、多様性と汎用性を広げます。
TinyLlama1.1B、InternLM2-7B、LLaMA2-13B、Mixtral8x7Bなどの異なるベースLLMのトレーニングにより、パラメータサイズと多言語能力の異なるMLLMのスペクトルを得る。
総合的なベンチマークでは、マルチモーダル性能とデータとパラメータスケールの間に強い相関関係が示されている。
コードとモデルはhttps://github.com/Alpha-VLLM/LLaMA2-Accessoryで公開されている。
We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# ボルツマン密度からのサンプリングのための繰り返しDenoising Energy Matching
Iterated Denoising Energy Matching for Sampling from Boltzmann Densities ( http://arxiv.org/abs/2402.06121v2 ) ライセンス: Link先を確認 | Tara Akhound-Sadegh, Jarrid Rector-Brooks, Avishek Joey Bose, Sarthak Mittal, Pablo Lemos, Cheng-Hao Liu, Marcin Sendera, Siamak Ravanbakhsh, Gauthier Gidel, Yoshua Bengio, Nikolay Malkin, Alexander Tong, | (参考訳) 多体系の平衡サンプルのような非正規化確率分布から統計的に独立な標本を効率的に生成することは、科学における基礎的な問題である。
本稿では,エネルギー関数と勾配のみを利用した新しい確率的スコアマッチングアルゴリズムであるイテレーテッドDenoising Energy Matching (iDEM)を提案する。
具体的には, (I) 拡散型試料試料から高モデル密度のサンプリング領域を, (II) それらの試料を確率的マッチング目的に用い, サンプリング領域をさらに改良する。
iDEMは内部マッチングの目的として高次元にスケーラブルであり、シミュレーション不要であり、MCMCサンプルを必要としない。
さらに, 拡散の高速モード混合挙動を活用することにより, エネルギー景観を円滑にし, 焼成試料の効率的な探索と学習を可能にする。
我々は、標準合成エネルギー関数から不変の$n$-body粒子系まで、一連のタスクでiDEMを評価した。
提案手法は,全計測値の最先端性能を達成し,2~5\times$の高速化を実現し,45ドルのLennard-Jonesシステムにおいて,エネルギーを用いたトレーニングを初めて行うことができることを示す。
Efficiently generating statistically independent samples from an unnormalized probability distribution, such as equilibrium samples of many-body systems, is a foundational problem in science. In this paper, we propose Iterated Denoising Energy Matching (iDEM), an iterative algorithm that uses a novel stochastic score matching objective leveraging solely the energy function and its gradient -- and no data samples -- to train a diffusion-based sampler. Specifically, iDEM alternates between (I) sampling regions of high model density from a diffusion-based sampler and (II) using these samples in our stochastic matching objective to further improve the sampler. iDEM is scalable to high dimensions as the inner matching objective, is simulation-free, and requires no MCMC samples. Moreover, by leveraging the fast mode mixing behavior of diffusion, iDEM smooths out the energy landscape enabling efficient exploration and learning of an amortized sampler. We evaluate iDEM on a suite of tasks ranging from standard synthetic energy functions to invariant $n$-body particle systems. We show that the proposed approach achieves state-of-the-art performance on all metrics and trains $2-5\times$ faster, which allows it to be the first method to train using energy on the challenging $55$-particle Lennard-Jones system. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought (特集:「思考の連鎖」)
Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought ( http://arxiv.org/abs/2402.06918v2 ) ライセンス: Link先を確認 | Zhen-Yu Zhang, Siwei Han, Huaxiu Yao, Gang Niu, Masashi Sugiyama, | (参考訳) 複雑な推論問題に対処する大規模言語モデル(LLM)の能力を改善するため,LLMをステップバイステップで推論するためのチェーン・オブ・シント法(CoT)が提案され,単純から複雑への問題解決が可能となった。
このようなチェーンを生成するための最先端の手法には、学習者がLLMによって評価された中間的思考を候補として生成し、その後の思考を導く対話的なコラボレーションが含まれる。
しかしながら、広く検討されている問題は、LLMの評価が一般的にうるさく、信頼できないことであり、将来的な中間的思考を選択する際に生成過程を誤解させる可能性があることである。
本稿では,Vapnikの原理を背景として,LLMからのノイズフィードバックを伴い,期待できる中間思想を探索するために,ポイントワイズスコアの代わりにペアワイズ比較評価を用いる。
各ラウンドにおいて、中間思考をランダムにペアリングし、LSMに直接、各ペアからより有望な思考を選択するように促し、反復的なプロセスを通じて最も有望な思考を特定できるようにします。
比較においてさらにノイズを軽減するため、アンサンブル学習とデュエルバンディットの技法を取り入れ、アルゴリズムの2つの変種を提案する。
実世界の3つのタスクの実験は,提案アルゴリズムの有効性を実証し,ペア比較機構の理論的根拠を検証する。
To improve the ability of the large language model (LLMs) to tackle complex reasoning problems, chain-of-thoughts (CoT) methods were proposed to guide LLMs to reason step-by-step, enabling problem solving from simple to complex. State-of-the-art methods for generating such a chain involve interactive collaboration, where the learner generates candidate intermediate thoughts, evaluated by the LLM, guiding the generation of subsequent thoughts. However, a widespread yet understudied problem is that the evaluation from the LLM is typically noisy and unreliable, potentially misleading the generation process in selecting promising intermediate thoughts. In this paper, motivated by Vapnik's principle, we use pairwise-comparison evaluation instead of point-wise scoring to search for promising intermediate thoughts with the noisy feedback from the LLM. In each round, we randomly pair intermediate thoughts and directly prompt the LLM to select the more promising one from each pair, allowing us to identify the most promising thoughts through an iterative process. To further alleviate the noise in the comparison, we incorporate techniques from ensemble learning and dueling bandits, proposing two variants of the algorithm. Experiments on three real-world tasks demonstrate the effectiveness of our proposed algorithm and verify the rationale of the pairwise comparison mechanism. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# 単一光子の周波数連続変数を用いたフォトニック量子情報処理
Photonic quantum information processing using the frequency continuous-variable of single photons ( http://arxiv.org/abs/2402.06962v2 ) ライセンス: Link先を確認 | Nicolas Fabre, Ulysse Chabaud, | (参考訳) 有名なHong-Ou--Mandel効果は、2光子干渉計の豊かさを示している。
本研究では,このリッチさが時間周波数干渉計の領域にまで及んでいることを示す。
各補助モードに1つの光子が存在するとき、周波数と4次自由度の間に引き出すことができる数学的類似性を利用して、周波数領域におけるHong-Ou--Mandel効果の等価性を考える。
この設定では、$n$-Fock状態は、$n^{th}$ Hermite-Gauss関数によって与えられるスペクトル波関数を持つ単一光子状態と等価となり、破壊的干渉は、1つのHermite-Gaussスペクトルプロファイルで単一光子を検出する確率に一致する。
この興味深いアナロジーは、位相推定のためにハイゼンベルクスケールに到達するために周波数工学された2光子状態を用いて干渉計戦略を導入し、ガウスボソンサンプリングモデルを単一光子の時間周波数自由度に一般化する。
The celebrated Hong--Ou--Mandel effect illustrates the richness of two-photon interferometry. In this work, we show that this richness extends to the realm of time-frequency interferometry. Taking advantage of the mathematical analogy which can be drawn between the frequency and quadrature degrees of freedom of light when there is a single photon in each auxiliary mode, we consider the equivalent of the Hong--Ou--Mandel effect in the frequency domain. In this setting, the $n$-Fock state becomes equivalent to a single-photon state with a spectral wave function given by the $n^{th}$ Hermite--Gauss function and destructive interference corresponds to vanishing probability of detecting single photons with an order one Hermite--Gauss spectral profile. This intriguing analogy leads us to introduce an interferometric strategy using a frequency engineered two-photon state allowing to reach Heisenberg scaling for phase estimation, and to generalise the Gaussian Boson Sampling model to time-frequency degrees of freedom of single photons. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# 深部RLのためのエキスパートアンロックパラメータスケーリングの混合
Mixtures of Experts Unlock Parameter Scaling for Deep RL ( http://arxiv.org/abs/2402.08609v3 ) ライセンス: Link先を確認 | Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro, | (参考訳) 最近の(自己)教師付き学習モデルの急速な進歩は、主に経験的スケーリング法則によって予測されている。
しかし、モデルパラメータ数の増加が最終的なパフォーマンスを損なうことの多い強化学習領域では、アナログスケーリング法則はいまだ解明されていない。
本稿では,Mixture-of-Expert(MoE)モジュール,特にSoft MoEs(Puigcerver et al ,2023)を値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model's performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# デノボ医薬品設計のための生成AIに関する調査:分子とタンパク質生成の新しいフロンティア
A Survey of Generative AI for de novo Drug Design: New Frontiers in Molecule and Protein Generation ( http://arxiv.org/abs/2402.08703v2 ) ライセンス: Link先を確認 | Xiangru Tang, Howard Dai, Elizabeth Knight, Fang Wu, Yunyang Li, Tianxiao Li, Mark Gerstein, | (参考訳) 人工知能(AI)駆動の手法は歴史的にコストがかかる薬物設計プロセスを大幅に改善することができる。
デ・ノボの医薬品設計のための生成モデルは、特に、将来有望な方向性を示す、スクラッチから完全に新規な生物学的化合物の創出に焦点を当てている。
この分野の急速な発展と創薬プロセスの複雑さが組み合わさって、新しい研究者が参入するのは難しい風景を生み出している。
本調査では,ド・ノボの薬物設計を小分子とタンパク質生成という2つの大まかなテーマにまとめる。
各テーマの中で、さまざまなサブタスクとアプリケーションを特定し、重要なデータセット、ベンチマーク、モデルアーキテクチャを強調し、トップモデルのパフォーマンスを比較します。
我々は、AI駆動の薬物設計に幅広いアプローチをとっており、各サブタスクにおける様々な方法のマイクロレベル比較と、異なる分野におけるマクロレベル観測の両方を可能にしている。
我々は、この2つのアプリケーション間の並列的な課題とアプローチについて議論し、AI駆動のデノボドラッグデザインの今後の方向性を強調した。
すべての対象ソースの整理されたリポジトリはhttps://github.com/gersteinlab/GenAI4Drug.comで公開されている。
Artificial intelligence (AI)-driven methods can vastly improve the historically costly drug design process, with various generative models already in widespread use. Generative models for de novo drug design, in particular, focus on the creation of novel biological compounds entirely from scratch, representing a promising future direction. Rapid development in the field, combined with the inherent complexity of the drug design process, creates a difficult landscape for new researchers to enter. In this survey, we organize de novo drug design into two overarching themes: small molecule and protein generation. Within each theme, we identify a variety of subtasks and applications, highlighting important datasets, benchmarks, and model architectures and comparing the performance of top models. We take a broad approach to AI-driven drug design, allowing for both micro-level comparisons of various methods within each subtask and macro-level observations across different fields. We discuss parallel challenges and approaches between the two applications and highlight future directions for AI-driven de novo drug design as a whole. An organized repository of all covered sources is available at https://github.com/gersteinlab/GenAI4Drug. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# テキスト・トゥ・SQLのためのヒューマンフリー・フュージングによるデモの多様性向上
Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL ( http://arxiv.org/abs/2402.10663v3 ) ライセンス: Link先を確認 | Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che, | (参考訳) 現在,大規模言語モデル(LLM)に基づく文脈内学習法が,テキスト・トゥ・SQL研究の主流となっている。
これまで,人間ラベルのデモプールからユーザ質問に関連するデモを選択する方法について議論されてきた。
しかしながら、人間のラベル付けは多様性の不足と高いラベル付けオーバーヘッドの限界に悩まされている。
そこで本稿では,テキストからSQLへのデモンストレーションの多様性を計測し,改善する方法について論じる。
実験により,実証実験の多様性を測定し,既存のラベル付きデータの不十分さを解析する指標を提案する。
上記の発見に基づいて,人為的マルチイテレーション合成,多様性の向上,ラベルコストの低減を通じて,高多様性の実証プールを構築するための実証実験(Fused)を反復的に行うことを提案する。
本手法は,複数の主流データセット上でのラベル付けによる平均3.2%と5.0%の改善を実現し,Fusedの有効性を実証する。
Currently, the in-context learning method based on large language models (LLMs) has become the mainstream of text-to-SQL research. Previous works have discussed how to select demonstrations related to the user question from a human-labeled demonstration pool. However, human labeling suffers from the limitations of insufficient diversity and high labeling overhead. Therefore, in this paper, we discuss how to measure and improve the diversity of the demonstrations for text-to-SQL. We present a metric to measure the diversity of the demonstrations and analyze the insufficient of the existing labeled data by experiments. Based on the above discovery, we propose fusing iteratively for demonstrations (Fused) to build a high-diversity demonstration pool through human-free multiple-iteration synthesis, improving diversity and lowering label cost. Our method achieves an average improvement of 3.2% and 5.0% with and without human labeling on several mainstream datasets, which proves the effectiveness of Fused. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# ドメインの正規化アノテーションによるドメインラベルノイズによるサブポピュレーションシフトのロバスト性
Robustness to Subpopulation Shift with Domain Label Noise via Regularized Annotation of Domains ( http://arxiv.org/abs/2402.11039v2 ) ライセンス: Link先を確認 | Nathan Stromberg, Rohan Ayyagari, Monica Welfert, Sanmi Koyejo, Richard Nock, Lalitha Sankar, | (参考訳) 最短グループ精度(WGA)を最適化することを目的とした最終層再トレーニングのための既存の手法は、トレーニングデータによく注釈付けされたグループに大きく依存している。
理論と実践の両方において、WGAのダウンサンプリングまたはアップウェイト化を用いたアノテーションベースのデータ拡張は、ドメインアノテーションノイズの影響を受けやすいことを示し、高雑音では、バニラ経験的リスク最小化で訓練されたモデルのWGAにアプローチする。
明示的なドメインアノテーションを必要とせずに、ロバストな最終層分類器をトレーニングするために、規則化されたドメインアノテーション(RAD)を導入します。
その結果、RADは、最近提案されたドメインアノテーションのない手法と競合していることがわかった。
最も重要なことは、RADは、いくつかの公開データセットのトレーニングデータにおいて、5%のノイズしか持たなくても、最先端のアノテーション-リライアントメソッドより優れていることだ。
Existing methods for last layer retraining that aim to optimize worst-group accuracy (WGA) rely heavily on well-annotated groups in the training data. We show, both in theory and practice, that annotation-based data augmentations using either downsampling or upweighting for WGA are susceptible to domain annotation noise, and in high-noise regimes approach the WGA of a model trained with vanilla empirical risk minimization. We introduce Regularized Annotation of Domains (RAD) in order to train robust last layer classifiers without the need for explicit domain annotations. Our results show that RAD is competitive with other recently proposed domain annotation-free techniques. Most importantly, RAD outperforms state-of-the-art annotation-reliant methods even with only 5% noise in the training data for several publicly available datasets. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# データ非依存的な取得質量分析のためのトランスフォーマーに基づくデノボペプチドシークエンシング
Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry ( http://arxiv.org/abs/2402.11363v3 ) ライセンス: Link先を確認 | Shiva Ebrahimi, Xuan Guo, | (参考訳) タンデム質量分析法 (Tandem mass spectrometry, MS/MS) は、生物試料中のタンパク質含量を包括的に分析する主要なハイスループット技術である。
この手法は、プロテオミクスの進歩を駆動する土台である。
近年、データ非依存獲得(DIA)戦略において、前駆体イオンの公平かつ非標的の断片化を促進する重要な取り組みが進められている。
DIAが生成するMS/MSスペクトルは、その本質的に高い多重性のため、強い障害となる。
各スペクトルは、複数の前駆体ペプチドに由来する断片化された生成物イオンをカプセル化する。
この複雑さは、デ・ノボペプチド/タンパク質のシークエンシングにおいて特に深刻な課題となり、現在の方法では多重結合に対処できない。
本稿では,変換器アーキテクチャに基づくディープラーニングモデルであるDiaTransを紹介する。
DIA質量分析データからペプチド配列を解読する。
その結果,DeepNovo-DIA や PepNet など,既存の STOA 手法よりも大幅に改善されていることがわかった。
カサノボ-DIAの精度は15.14%から34.8%に向上し、アミノ酸レベルでは11.62%から31.94%にリコールされ、ペプチドレベルでは59%から81.36%に向上する。
DIAデータとDiaTransモデルを統合することで、新しいペプチドの発見と、より包括的な生物学的サンプルのプロファイリングが期待できる。
Casanovo-DIAはGNU GPLライセンスのもと、https://github.com/Biocomputing-Research-Group/DiaTransで無料で利用可能である。
Tandem mass spectrometry (MS/MS) stands as the predominant high-throughput technique for comprehensively analyzing protein content within biological samples. This methodology is a cornerstone driving the advancement of proteomics. In recent years, substantial strides have been made in Data-Independent Acquisition (DIA) strategies, facilitating impartial and non-targeted fragmentation of precursor ions. The DIA-generated MS/MS spectra present a formidable obstacle due to their inherent high multiplexing nature. Each spectrum encapsulates fragmented product ions originating from multiple precursor peptides. This intricacy poses a particularly acute challenge in de novo peptide/protein sequencing, where current methods are ill-equipped to address the multiplexing conundrum. In this paper, we introduce DiaTrans, a deep-learning model based on transformer architecture. It deciphers peptide sequences from DIA mass spectrometry data. Our results show significant improvements over existing STOA methods, including DeepNovo-DIA and PepNet. Casanovo-DIA enhances precision by 15.14% to 34.8%, recall by 11.62% to 31.94% at the amino acid level, and boosts precision by 59% to 81.36% at the peptide level. Integrating DIA data and our DiaTrans model holds considerable promise to uncover novel peptides and more comprehensive profiling of biological samples. Casanovo-DIA is freely available under the GNU GPL license at https://github.com/Biocomputing-Research-Group/DiaTrans. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# 極小教育の基本的限界
The Fundamental Limits of Least-Privilege Learning ( http://arxiv.org/abs/2402.12235v2 ) ライセンス: Link先を確認 | Theresa Stadler, Bogdan Kulynych, Michael C. Gastpar, Nicolas Papernot, Carmela Troncoso, | (参考訳) 最小特権学習の約束 -- 学習タスクに役立つが、このタスクとは無関係な機密情報の推測を防ぐ機能表現を見つけることは、非常に魅力的である。
しかし、今のところこの概念は非公式にしか述べられていない。
したがって、この目標を達成できるかどうか、そしてどのように達成できるのかは、未解決のままである。
本研究では,機械学習における最小特権原理の最初の形式化と,その実現可能性について述べる。
我々は、あるタスクに対する表現の効用と意図したタスク以外のリークとの間に根本的なトレードオフがあることを証明し、意図したタスクに対して高い効用を有する表現を学習することは不可能であると同時に、タスクラベル自体以外の属性の推測を妨げていることを証明した。
このトレードオフは、データ分散に関する現実的な仮定に基づいており、これらの表現を生成する特徴マッピングを学ぶのに使用される技術に関係なく成り立っている。
この結果を、幅広い学習技術、モデルアーキテクチャ、データセットに対して実証的に検証します。
The promise of least-privilege learning -- to find feature representations that are useful for a learning task but prevent inference of any sensitive information unrelated to this task -- is highly appealing. However, so far this concept has only been stated informally. It thus remains an open question whether and how we can achieve this goal. In this work, we provide the first formalisation of the least-privilege principle for machine learning and characterise its feasibility. We prove that there is a fundamental trade-off between a representation's utility for a given task and its leakage beyond the intended task: it is not possible to learn representations that have high utility for the intended task but, at the same time prevent inference of any attribute other than the task label itself. This trade-off holds under realistic assumptions on the data distribution and regardless of the technique used to learn the feature mappings that produce these representations. We empirically validate this result for a wide range of learning techniques, model architectures, and datasets. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# 帯域制限関数と有限時間測定を持つスペクトル及び時間距離メロジ
Spectral and temporal metrology with bandlimited functions and finite-time measurements ( http://arxiv.org/abs/2402.12995v2 ) ライセンス: Link先を確認 | Łukasz Rudnicki, Tomasz Linowski, | (参考訳) 時間周波数領域におけるメソロジーツールボックスを補完する分析を行う。
近年開発が進んでいる空間領域から関連する時間周波数ベースのメロジカルプロトコルを借用できるが、信号と測定の両方の帯域幅の制限や、有限の測定時間によって、その最終的な実用性は制限される。
2つの非コヒーレントな点状ソースに対するマルチパラメータ推定のよく知られた問題を示すように、これらの実験的制限が最適プロトコルの効率に与える影響は有害である。
それでも、議論された制約の下での量子Cram\'{e}r-Rao境界の実現には、必要な運用基準を提案する。
We perform an analysis supplementing the metrology toolbox in the time-frequency domain. While the relevant time-frequency-based metrological protocols can be borrowed from the spatial domain, where they have recently been well developed, their ultimate practical usefulness is shown to be restricted by limits put on the bandwidth of both the signal and measurements, as well as by the finite measurement time. As we demonstrate for the well-known problem of multiparameter estimation for two incoherent, point-like sources, the impact of these experimental limitations on the optimal protocol's efficiency can be detrimental. Nonetheless, we propose necessary operational criteria for attainability of the quantum Cram\'{e}r-Rao bound under the discussed restrictions. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# 認知的視覚言語マッパー:視覚的知識の高度化によるマルチモーダル理解の促進
Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment ( http://arxiv.org/abs/2402.13561v2 ) ライセンス: Link先を確認 | Yunxin Li, Xinyu Chen, Baotian Hu, Haoyuan Shi, Min Zhang, | (参考訳) LMM(Large Multimodal Models)の現在の状況を評価し再考し、画像テキスト記述のアライメントに焦点を合わせながら、視覚と関連する知識を接続する視覚言語プロジェクションアプローチ(例えば、Q-formerやMLP)が注目されていることを観察する。
視覚知識は、視覚情報の分析、推論、解釈において重要な役割を担い、知識に基づく視覚的質問に対する回答の正確性を向上させる。
本稿では,視覚的知識アライメントによるLMMの改善を主に検討し,特に知識に基づく視覚的質問応答(VQA)の挑戦を目的とした。
この目的のために,VKA (Venture Aligner) とFKA (Fenture-fine Knowledge Adapter) を含む認知視覚言語マップ(CVLM) を提案する。
具体的には、小さな言語モデルとビジュアルエンコーダの相互作用に基づいてVKAを設計し、収集した画像知識のペアで学習し、視覚知識の獲得と投影を実現する。
FKAは、画像のきめ細かい視覚的知識を蒸留し、それをLLM(Large Language Models)に注入するために用いられる。
我々は,知識ベースVQAベンチマークの広範な実験を行い,CVLMは知識ベースVQA(平均ゲイン5.0%)におけるLMMの性能を大幅に向上させることを示した。
アブレーション研究は、それぞれVKAとFKAの有効性を検証する。
コードはhttps://github.com/HITsz-TMG/Cognitive-Visual-Language-Mapperで公開されている。
Evaluating and Rethinking the current landscape of Large Multimodal Models (LMMs), we observe that widely-used visual-language projection approaches (e.g., Q-former or MLP) focus on the alignment of image-text descriptions yet ignore the visual knowledge-dimension alignment, i.e., connecting visuals to their relevant knowledge. Visual knowledge plays a significant role in analyzing, inferring, and interpreting information from visuals, helping improve the accuracy of answers to knowledge-based visual questions. In this paper, we mainly explore improving LMMs with visual-language knowledge alignment, especially aimed at challenging knowledge-based visual question answering (VQA). To this end, we present a Cognitive Visual-Language Mapper (CVLM), which contains a pretrained Visual Knowledge Aligner (VKA) and a Fine-grained Knowledge Adapter (FKA) used in the multimodal instruction tuning stage. Specifically, we design the VKA based on the interaction between a small language model and a visual encoder, training it on collected image-knowledge pairs to achieve visual knowledge acquisition and projection. FKA is employed to distill the fine-grained visual knowledge of an image and inject it into Large Language Models (LLMs). We conduct extensive experiments on knowledge-based VQA benchmarks and experimental results show that CVLM significantly improves the performance of LMMs on knowledge-based VQA (average gain by 5.0%). Ablation studies also verify the effectiveness of VKA and FKA, respectively. The codes are available at https://github.com/HITsz-TMG/Cognitive-Visual-Language-Mapper | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# Ouroboros: より高速な投機的デコードのためのフレーズによるより長いドラフトフレーズの生成
Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding ( http://arxiv.org/abs/2402.13720v2 ) ライセンス: Link先を確認 | Weilin Zhao, Yuxiang Huang, Xu Han, Wang Xu, Chaojun Xiao, Xinrong Zhang, Yewei Fang, Kaihuo Zhang, Zhiyuan Liu, Maosong Sun, | (参考訳) 投機的復号化(英: Speculative decoding)は、大規模言語モデル(LLM)の生成プロセスをモデル性能に妥協せずに高速化する手法である。
既存のより小さなモデルをドラフトに使用し、ターゲットのLLMを使用して、低コストで並列にドラフトを検証することで、この目標を達成する。
このような起草検証フレームワークの下では、投機的復号化の最終スピードアップにおいて、起草効率がボトルネックになっている。
そのため、より長いドラフトを低コストで作成することで、デコード速度が向上する可能性がある。
そこで,本研究では,草案作成過程を並列化し,草案をトレーニング不要に長引かせるために,草案文を生成するOuroborosを紹介した。
様々なテキスト生成タスクの実験結果は、Ouroborosが投機的復号化で最大2.4\times$、バニラ復号化で3.9\times$を達成できることを示している。
Speculative decoding is a widely used method that accelerates the generation process of large language models (LLMs) with no compromise in model performance. It achieves this goal by using an existing smaller model for drafting and then employing the target LLM to verify the draft in a low-cost parallel manner. Under such a drafting-verification framework, drafting efficiency has become a bottleneck in the final speedup of speculative decoding. Therefore, generating longer drafts at less cost can lead to better decoding speedup. To achieve this, we introduce Ouroboros, which can generate draft phrases to parallelize the drafting process and meanwhile lengthen drafts in a training-free manner. The experimental results on various typical text generation tasks show that Ouroboros can achieve speedups of up to $2.4\times$ over speculative decoding and $3.9\times$ over vanilla decoding, without fine-tuning draft and target models. | 翻訳日:2024-06-27 19:04:48 公開日:2024-06-26 |
# ケースベースかルールベースか:トランスフォーマーはどのように数学をするか?
Case-Based or Rule-Based: How Do Transformers Do the Math? ( http://arxiv.org/abs/2402.17709v2 ) ライセンス: Link先を確認 | Yi Hu, Xiaojuan Tang, Haotong Yang, Muhan Zhang, | (参考訳) 様々な複雑なタスクにおける印象的なパフォーマンスにもかかわらず、現代の大規模言語モデル(LLM)は、追加など人間にとって単純で直感的な問題を扱うのに未だに苦労している。
加算の基本ルールを簡単に学習し、任意の長さの新たな問題に適用することはできるが、LLMはそれを行うのに苦労する。
代わりに、彼らは支援のためにトレーニングコーパスで見られる同様のケースに頼っているかもしれない。
これら2つの異なる推論機構を「ルールベースの推論」と「ケースベースの推論」と定義する。
ルールベースの推論は、体系的な一般化能力の獲得に不可欠であるため、トランスフォーマーがルールベースかケースベースの推論を数学問題に用いているかを正確に検討することを目的としている。
5つの数学タスクの介入実験を慎重に設計し、スクラッチパッドが使われているかどうかに関わらず、トランスフォーマーがケースベースの推論を行っていることを確認した。
このような問題を緩和するため,ルールベースの推論を行うためにトランスフォーマーにRFFT(ルール追従ファインタニング)技術を提案する。
具体的には、入力に明示的なルールを提供し、次にトランスフォーマーに対して、ルールを段階的に参照し、従うように指示する。
RFFTにより、1-5桁の加算に微調整を施し、95%以上の精度で最大12桁の加算を一般化することに成功した。
この大幅な改善は、LLMにルールを明示的に使用するように教えることが、ルールベースの推論を学習し、長さを一般化するのに役立つことを示している。
Despite the impressive performance in a variety of complex tasks, modern large language models (LLMs) still have trouble dealing with some math problems that are simple and intuitive for humans, such as addition. While we can easily learn basic rules of addition and apply them to new problems of any length, LLMs struggle to do the same. Instead, they may rely on similar cases seen in the training corpus for help. We define these two different reasoning mechanisms as "rule-based reasoning" and "case-based reasoning". Since rule-based reasoning is essential for acquiring systematic generalization ability, we aim to explore exactly whether transformers use rule-based or case-based reasoning for math problems. Through carefully designed intervention experiments on five math tasks, we confirm that transformers are performing case-based reasoning, no matter whether scratchpad is used, which aligns with the previous observations that transformers use subgraph matching/shortcut learning to reason. To mitigate such problems, we propose a Rule-Following Fine-Tuning (RFFT) technique to teach transformers to perform rule-based reasoning. Specifically, we provide explicit rules in the input and then instruct transformers to recite and follow the rules step by step. Through RFFT, we successfully enable LLMs fine-tuned on 1-5 digit addition to generalize to up to 12-digit addition with over 95% accuracy, which is over 40% higher than scratchpad. The significant improvement demonstrates that teaching LLMs to use rules explicitly helps them learn rule-based reasoning and generalize better in length. | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# WhaleNet:Watkins Marine Mammal Sound Databaseによる海洋哺乳動物ボカライゼーションのための新しいディープラーニングアーキテクチャ
WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database ( http://arxiv.org/abs/2402.17775v2 ) ライセンス: Link先を確認 | Alessandro Licciardi, Davide Carbone, | (参考訳) 海洋哺乳類のコミュニケーションは複雑な分野であり、発声の多様性と環境要因によって妨げられている。
Watkins Marine Mammal Sound Database (WMMD)は、機械学習アプリケーションで使用される包括的なラベル付きデータセットである。
それでも、文献に記録されているデータ準備、前処理、分類の方法論は、かなりの多様性を示し、典型的にはデータセット全体に適用されない。
この研究は、まずデータセットに関連する最先端のベンチマークを簡潔にレビューし、特にデータ準備と前処理技術を明確にすることに焦点を当てた。
その後、特徴抽出のための前処理機構としてWavelet Scattering Transform(WST)とMel Spectrogramの利用について検討する。
本稿では,海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである「textbf{WhaleNet} (Wavelet Highly Adaptive Learning Ensemble Network)」を紹介する。
WST と Mel の表現から得られた知見を統合することで,既存のアーキテクチャに比べて分類精度が 8-10 % 向上し,分類精度は 97.61 % となった。
Marine mammal communication is a complex field, hindered by the diversity of vocalizations and environmental factors. The Watkins Marine Mammal Sound Database (WMMD) constitutes a comprehensive labeled dataset employed in machine learning applications. Nevertheless, the methodologies for data preparation, preprocessing, and classification documented in the literature exhibit considerable variability and are typically not applied to the dataset in its entirety. This study initially undertakes a concise review of the state-of-the-art benchmarks pertaining to the dataset, with a particular focus on clarifying data preparation and preprocessing techniques. Subsequently, we explore the utilization of the Wavelet Scattering Transform (WST) and Mel spectrogram as preprocessing mechanisms for feature extraction. In this paper, we introduce \textbf{WhaleNet} (Wavelet Highly Adaptive Learning Ensemble Network), a sophisticated deep ensemble architecture for the classification of marine mammal vocalizations, leveraging both WST and Mel spectrogram for enhanced feature discrimination. By integrating the insights derived from WST and Mel representations, we achieved an improvement in classification accuracy by $8-10\%$ over existing architectures, corresponding to a classification accuracy of $97.61\%$. | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# 離散音声ユニットプレトレーニングによるコンパクト音声翻訳モデル
Compact Speech Translation Models via Discrete Speech Units Pretraining ( http://arxiv.org/abs/2402.19333v2 ) ライセンス: Link先を確認 | Tsz Kin Lam, Alexandra Birch, Barry Haddow, | (参考訳) 本稿では,よりコンパクトな音声からテキストへの翻訳を実現するために,SSS(Self-Supervised Speech)モデルを用いた事前学習手法を提案する。
初期化にSSSモデルを使用するのとは対照的に,本手法はデバイス上でのデプロイメントなどのメモリ制約シナリオに適している。
本手法は,SSSモデルから抽出した離散音声単位(DSU)に基づく。
最初のステップでは、2つの小さなエンコーダ-デコーダモデルを事前訓練します。
1)フィルタバンク・トゥ・DSU(Fbk-to-DSU)および
2) DSU-to-Trl(DSU-to-Trl)データ。
従って、DSUはより小さなモデルの蒸留入力となる。
その後、Fbk-to-DSUモデルからのエンコーダとDSU-to-Trlモデルからのデコーダを取り、コンパクトモデルを初期化する。
最後に、コンパクトモデルをペアFbk-Trlデータに微調整する。
本手法では, コンパクト化に加えて, 低リソース設定にも適用できるため, 文字起こしは不要である。
また、推論における音声の離散化を回避し、DSUトークン化に対してより堅牢である。
CoVoST-2 (X-En) の評価により, 提案手法は3つの指標において基準値よりも一貫した改善が得られた。
We propose a pretraining method to use Self-Supervised Speech (SSS) model to creating more compact Speech-to-text Translation. In contrast to using the SSS model for initialization, our method is more suitable to memory constrained scenario such as on-device deployment. Our method is based on Discrete Speech Units (DSU) extracted from the SSS model. In the first step, our method pretrains two smaller encoder-decoder models on 1) Filterbank-to-DSU (Fbk-to-DSU) and 2) DSU-to-Translation (DSU-to-Trl) data respectively. The DSU thus become the distillation inputs of the smaller models. Subsequently, the encoder from the Fbk-to-DSU model and the decoder from the DSU-to-Trl model are taken to initialise the compact model. Finally, the compact model is finetuned on the paired Fbk-Trl data. In addition to being compact, our method requires no transcripts, making it applicable to low-resource settings. It also avoids speech discretization in inference and is more robust to the DSU tokenization. Evaluation on CoVoST-2 (X-En) shows that our method has consistent improvement over the baseline in three metrics while being compact i.e., only half the SSS model size. | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# Hamiltonian Monte Carlo によるベイズ不確かさの推定 : 心臓MRIセグメントへの応用
Bayesian Uncertainty Estimation by Hamiltonian Monte Carlo: Applications to Cardiac MRI Segmentation ( http://arxiv.org/abs/2403.02311v2 ) ライセンス: Link先を確認 | Yidong Zhao, Joao Tourais, Iain Pierce, Christian Nitsche, Thomas A. Treibel, Sebastian Weingärtner, Artur M. Schweidtmann, Qian Tao, | (参考訳) 深層学習(DL)に基づく手法は,幅広い医用画像分割作業において最先端のパフォーマンスを達成した。
しかし、最近の研究では、ディープニューラルネットワーク(DNN)が誤診され、過信され、臨床応用の「サイレント障害」につながることが示されている。
ベイズ統計は、後続確率推定に基づくDL故障検出に対する直感的なアプローチを提供する。
しかし,大容量の医用画像分割DNNではベイジアンDL,特に後方推定が困難である。
この課題に対処するため,ハミルトン・モンテカルロ(HMC)によるベイズ学習フレームワークを提案する。
さらに,HMC計算において,局所的および大域的な分布のジオメトリを捕捉し,単一のDNNをトレーニングするのと同じ計算予算でベイズDNNの訓練を効率的に行うことができる循環型アニール方式を提案する。
その結果、ベイズDNNは、セグメンテーションの不確実性とともにアンサンブルセグメンテーションを出力する。
提案したHMC-CPは、SSFPシネ画像と、定量的なT_1$およびT_2$マッピングの外部データセットを用いて、心臓磁気共鳴画像(MRI)のセグメンテーションを広範囲に評価した。
Deep learning (DL)-based methods have achieved state-of-the-art performance for a wide range of medical image segmentation tasks. Nevertheless, recent studies show that deep neural networks (DNNs) can be miscalibrated and overconfident, leading to "silent failures" that are risky} for clinical applications. Bayesian statistics provide an intuitive approach to DL failure detection, based on posterior probability estimation. However, Bayesian DL, and in particular the posterior estimation, is intractable for large medical image segmentation DNNs. To tackle this challenge, we propose a Bayesian learning framework by Hamiltonian Monte Carlo (HMC), tempered by cold posterior (CP) to accommodate medical data augmentation, named HMC-CP. For HMC computation, we further propose a cyclical annealing strategy, which captures both local and global geometries of the posterior distribution, enabling highly efficient Bayesian DNN training with the same computational budget requirements as training a single DNN. The resulting Bayesian DNN outputs an ensemble segmentation along with the segmentation uncertainty. We evaluate the proposed HMC-CP extensively on cardiac magnetic resonance image (MRI) segmentation, using in-domain steady-state free precession (SSFP) cine images as well as out-of-domain datasets of quantitative $T_1$ and $T_2$ mapping. | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# 摂動過程との整合性による確率微分方程式の安定化
Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process ( http://arxiv.org/abs/2403.04154v2 ) ライセンス: Link先を確認 | Xiangxin Zhou, Liang Wang, Yichi Zhou, | (参考訳) 高報酬のサンプルを生成することを考えると、我々は、高表現性を持つ高度な生成モデルである深層ニューラルネットワークパラメータ化確率微分方程式(SDE)の最適化に焦点を合わせ、強化学習における主要なアルゴリズムであるポリシー勾配を導いた。
それでも、政策勾配をSDEに適用する場合、政策勾配は有限の軌道上で推定されるため、不確定であり、データスカース領域の政策挙動は制御されない可能性がある。
この課題は政策勾配の安定性を損なうものであり、サンプルの複雑さに悪影響を及ぼす。
これらの問題に対処するため、我々はSDEが関連する摂動過程と一致するように制約することを提案する。
摂動過程は空間全体をカバーし、サンプリングが容易であるため、上記の問題を緩和することができる。
我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択できる一般的なアプローチを提供する。
我々は,構造に基づく薬物設計の課題に対するアルゴリズムの評価を行い,生成する配位子分子の結合親和性を最適化する。
提案手法は,CrossDocked2020データセット上で最高のVinaスコア-9.07を達成する。
Considering generating samples with high rewards, we focus on optimizing deep neural networks parameterized stochastic differential equations (SDEs), the advanced generative models with high expressiveness, with policy gradient, the leading algorithm in reinforcement learning. Nevertheless, when applying policy gradients to SDEs, since the policy gradient is estimated on a finite set of trajectories, it can be ill-defined, and the policy behavior in data-scarce regions may be uncontrolled. This challenge compromises the stability of policy gradients and negatively impacts sample complexity. To address these issues, we propose constraining the SDE to be consistent with its associated perturbation process. Since the perturbation process covers the entire space and is easy to sample, we can mitigate the aforementioned problems. Our framework offers a general approach allowing for a versatile selection of policy gradient methods to effectively and efficiently train SDEs. We evaluate our algorithm on the task of structure-based drug design and optimize the binding affinity of generated ligand molecules. Our method achieves the best Vina score -9.07 on the CrossDocked2020 dataset. | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# ゼロショット解釈可能な人間認識に向けて:2D-3D登録フレームワーク
Towards Zero-Shot Interpretable Human Recognition: A 2D-3D Registration Framework ( http://arxiv.org/abs/2403.06658v2 ) ライセンス: Link先を確認 | Henrique Jesus, Hugo Proença, | (参考訳) ディープラーニングアーキテクチャに基づく大規模ビジョンモデルは、バイオメトリック認識の最先端を一貫して前進させてきた。
しかし、このようなアプローチについては、一般的に3つの弱点が報告されている。
1) 学習データの観点からの極端な要求
2 異なる領域間の一般化の難しさ及び
3) 法学・法学上の目的(裁判所など)に使用可能な証拠を提供することが重要であるため,生体認証に特に関心がある解釈可能性・説明性の欠如が重要である。
本稿では,3つの弱点を同時に解決することを目的とした,最初の認識フレームワークと戦略について述べる。
当初は、学習目的のために合成サンプルのみに頼っている。
対象ごとに大量のサンプルを必要とするのではなく、アイデンティティごとに3Dポイントクラウドを排他的に登録する、という考え方だ。
そして、生成戦略を用いて、望むすべての共変量(目的、衣服、距離、視点、照明、閉塞など)を含む非常に大きな(潜在的に無限の)サンプルを合成する。
合成法を用いると、一般化の目的を考慮に入れた異なる種類の領域に正確に適応することができる。
このようなデータは、画像ペア間の局所的な登録を行うモデルを学ぶために使用され、認識(濃度と分布による)だけでなく、その応答の解釈可能な記述を提供するために、鍵となる身体部分間の正の対応を確立する(例:「両方のサンプルは、顔の形、髪の色、足の厚みが似ているため、同一人物から来ている」)。
Large vision models based in deep learning architectures have been consistently advancing the state-of-the-art in biometric recognition. However, three weaknesses are commonly reported for such kind of approaches: 1) their extreme demands in terms of learning data; 2) the difficulties in generalising between different domains; and 3) the lack of interpretability/explainability, with biometrics being of particular interest, as it is important to provide evidence able to be used for forensics/legal purposes (e.g., in courts). To the best of our knowledge, this paper describes the first recognition framework/strategy that aims at addressing the three weaknesses simultaneously. At first, it relies exclusively in synthetic samples for learning purposes. Instead of requiring a large amount and variety of samples for each subject, the idea is to exclusively enroll a 3D point cloud per identity. Then, using generative strategies, we synthesize a very large (potentially infinite) number of samples, containing all the desired covariates (poses, clothing, distances, perspectives, lighting, occlusions,...). Upon the synthesizing method used, it is possible to adapt precisely to different kind of domains, which accounts for generalization purposes. Such data are then used to learn a model that performs local registration between image pairs, establishing positive correspondences between body parts that are the key, not only to recognition (according to cardinality and distribution), but also to provide an interpretable description of the response (e.g.: "both samples are from the same person, as they have similar facial shape, hair color and legs thickness"). | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# 世界モデルによる遅延観測からの強化学習
Reinforcement Learning from Delayed Observations via World Models ( http://arxiv.org/abs/2403.12309v2 ) ライセンス: Link先を確認 | Armin Karamzade, Kyungmin Kim, Montek Kalsi, Roy Fox, | (参考訳) 標準的な強化学習設定では、エージェントは通常、それらを取ると、アクションの効果について即時にフィードバックを受けます。
しかし、実際には、この仮定は物理的制約のために成り立たず、学習アルゴリズムの性能に大きな影響を及ぼす可能性がある。
本稿では,部分的に観測可能な環境下での観測遅延に対処する。
本稿では、過去の観測と学習のダイナミクスを統合することに成功している世界モデルを活用して、観測遅延を処理することを提案する。
遅延PMDPを世界モデルで遅延MDPに還元することにより,既存手法による観測性能の低下や,観測可能性の低下に伴い急速に劣化する部分可観測性を効果的に処理することができる。
実験の結果、我々の手法の1つは、単純モデルに基づくアプローチを最大で250%上回ることが示唆された。
さらに,本手法を視覚的遅延環境において評価し,視覚的観察による遅延認識型強化学習の連続制御を初めて示す。
In standard reinforcement learning settings, agents typically assume immediate feedback about the effects of their actions after taking them. However, in practice, this assumption may not hold true due to physical constraints and can significantly impact the performance of learning algorithms. In this paper, we address observation delays in partially observable environments. We propose leveraging world models, which have shown success in integrating past observations and learning dynamics, to handle observation delays. By reducing delayed POMDPs to delayed MDPs with world models, our methods can effectively handle partial observability, where existing approaches achieve sub-optimal performance or degrade quickly as observability decreases. Experiments suggest that one of our methods can outperform a naive model-based approach by up to 250%. Moreover, we evaluate our methods on visual delayed environments, for the first time showcasing delay-aware reinforcement learning continuous control with visual observations. | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# 自動市場メーカにおけるArbitrageの定量化 - Ethereum ZKロールアップに関する実証的研究
Quantifying Arbitrage in Automated Market Makers: An Empirical Study of Ethereum ZK Rollups ( http://arxiv.org/abs/2403.16083v2 ) ライセンス: Link先を確認 | Krzysztof Gogol, Johnnatan Messias, Deborah Miori, Claudio Tessone, Benjamin Livshits, | (参考訳) 価格差から利益を得るために、異なる市場で同じ資産の同時購入と販売から乱用が生じることがある。
この研究は、Ethereum ZKロールアップにおけるAMM(Automated Market Makers)とCEX(Centralized Exchanges)の仲裁の機会を体系的にレビューする。
まず、こうした仲裁の機会を計測し、取引所で利用可能な価格のばらつきと流動性の両方を考慮に入れた、関連する最大任意値(MAV)の式を導出する理論的枠組みを提案する。
そこで我々は,zkSync 時代における AMM である SyncSwap と Binance の歴史的 MAV を実証的に測定し,価格の誤調整が明示的かつ暗黙的な市場コストに対していかに早く修正されるかを検討する。
総合的に見ると、2023年7月から9月にかけてのUSDC-ETH SyncSwapプールの累積MAVは104.96k(取引量の0.24%)である。
Arbitrage can arise from the simultaneous purchase and sale of the same asset in different markets in order to profit from a difference in its price. This work systematically reviews arbitrage opportunities between Automated Market Makers (AMMs) on Ethereum ZK rollups, and Centralised Exchanges (CEXs). First, we propose a theoretical framework to measure such arbitrage opportunities and derive a formula for the related Maximal Arbitrage Value (MAV) that accounts for both price divergences and liquidity available in the trading venues. Then, we empirically measure the historical MAV available between SyncSwap, an AMM on zkSync Era, and Binance, and investigate how quickly misalignments in price are corrected against explicit and implicit market costs. Overall, the cumulative MAV from July to September 2023 on the USDC-ETH SyncSwap pool amounts to $104.96k (0.24% of trading volume). | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# 直接エネルギーを用いた選好最適化による抗原特異的抗体設計
Antigen-Specific Antibody Design via Direct Energy-based Preference Optimization ( http://arxiv.org/abs/2403.16576v2 ) ライセンス: Link先を確認 | Xiangxin Zhou, Dongyu Xue, Ruizhe Chen, Zaixiang Zheng, Liang Wang, Quanquan Gu, | (参考訳) 抗体設計は、治療や生物学など様々な分野において重要な意味を持つ重要な課題であり、その複雑な性質のためにかなりの課題を提起している。
本稿では, 抗原特異的抗体配列構造共設計を, 合理的性と機能性の両方を考慮して, 特定の嗜好に対する最適化問題として取り組んだ。
本研究では,同変ニューラルネットワークを用いた抗体の配列と構造を協調的にモデル化した事前学習条件拡散モデルを用いて,有理構造と結合親和性の両方を持つ抗体の生成を誘導する直接エネルギーに基づく選好最適化を提案する。
本手法は,残差レベル分解エネルギー選好を用いた事前学習拡散モデルの微調整を含む。
また,アトラクションや反発など,様々な種類のエネルギーの対立に対処するために,勾配手術を応用した。
RAbDベンチマーク実験により,本手法は生成した抗体のエネルギーを効果的に最適化し,低エネルギー高結合親和性と高結合親和性を有する高品質抗体を同時に設計する上での最先端性能を実現することを示し,本手法の優位性を実証した。
Antibody design, a crucial task with significant implications across various disciplines such as therapeutics and biology, presents considerable challenges due to its intricate nature. In this paper, we tackle antigen-specific antibody sequence-structure co-design as an optimization problem towards specific preferences, considering both rationality and functionality. Leveraging a pre-trained conditional diffusion model that jointly models sequences and structures of antibodies with equivariant neural networks, we propose direct energy-based preference optimization to guide the generation of antibodies with both rational structures and considerable binding affinities to given antigens. Our method involves fine-tuning the pre-trained diffusion model using a residue-level decomposed energy preference. Additionally, we employ gradient surgery to address conflicts between various types of energy, such as attraction and repulsion. Experiments on RAbD benchmark show that our approach effectively optimizes the energy of generated antibodies and achieves state-of-the-art performance in designing high-quality antibodies with low total energy and high binding affinity simultaneously, demonstrating the superiority of our approach. | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# 非差別法とアルゴリズムフェアネスにおけるAI法の役割
Implications of the AI Act for Non-Discrimination Law and Algorithmic Fairness ( http://arxiv.org/abs/2403.20089v2 ) ライセンス: Link先を確認 | Luca Deck, Jan-Laurin Müller, Conradin Braun, Domenique Zipperling, Niklas Kühl, | (参考訳) FATE(Fairness, Accountability, Transparency, Ethics in AI)コミュニティで議論されているように、AIの公平性というトピックは、ここ数年で有意義な議論を引き起こしている。
しかし、法的な観点から、特に欧州連合法の観点からは、多くのオープンな疑問が残る。
アルゴリズム的公正性は、設計レベルでの構造的不平等を軽減することを目的としているが、欧州の非差別法は、AIモデルがデプロイされた後、個別の差別ケースに適合している。
AI法は、非差別的な責任をAIモデルの設計段階に移すことによって、これらの2つのアプローチをブリッジする大きな一歩を示すかもしれない。
AI法を総合的に読み取ることにより、法と技術執行の問題にコメントし、特定の技術的要件を特定し、遵守するためにバイアス検出とバイアス補正に実践的な影響を提案する。
The topic of fairness in AI, as debated in the FATE (Fairness, Accountability, Transparency, and Ethics in AI) communities, has sparked meaningful discussions in the past years. However, from a legal perspective, particularly from the perspective of European Union law, many open questions remain. Whereas algorithmic fairness aims to mitigate structural inequalities at design-level, European non-discrimination law is tailored to individual cases of discrimination after an AI model has been deployed. The AI Act might present a tremendous step towards bridging these two approaches by shifting non-discrimination responsibilities into the design stage of AI models. Based on an integrative reading of the AI Act, we comment on legal as well as technical enforcement problems and propose practical implications on bias detection and bias correction in order to specify and comply with specific technical requirements. | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# プライバシ保護モデル記述に関する調査--プライバシリスク,アタック,対策
A Survey of Privacy-Preserving Model Explanations: Privacy Risks, Attacks, and Countermeasures ( http://arxiv.org/abs/2404.00673v2 ) ライセンス: Link先を確認 | Thanh Tam Nguyen, Thanh Trung Huynh, Zhao Ren, Thanh Toan Nguyen, Phi Le Nguyen, Hongzhi Yin, Quoc Viet Hung Nguyen, | (参考訳) 説明可能なAI(XAI)の採用が拡大するにつれて、そのプライバシーへの影響に対処する緊急性が高まっている。
AIのプライバシと説明可能性に関する研究が増えているにもかかわらず、プライバシを保存するモデル説明にはほとんど注意が払われていない。
本稿では,モデル説明に対するプライバシ攻撃とその対策に関する,最初の徹底的な調査を紹介する。
本分野へのコントリビューションは、対象とする説明に基づいて、プライバシ攻撃と対策の分類を容易にする、コネクテッドな分類法による研究論文の徹底的な分析を含む。
この作業には、プライバシリークの原因に関する最初の調査も含まれる。
最後に,本分析で明らかになった未解決問題と今後の研究方向性について論じる。
この調査は、研究コミュニティにとって貴重なリソースであり、この領域に新たに加わった人たちに明確な洞察を提供することを目的としている。
現在進行中の研究を支援するため,我々はオンラインリソースリポジトリを設置し,新たな,関連する知見を継続的に更新する。
興味のある読者は、https://github.com/tamlhp/awesome-privex.comで私たちのリポジトリにアクセスすることを推奨されている。
As the adoption of explainable AI (XAI) continues to expand, the urgency to address its privacy implications intensifies. Despite a growing corpus of research in AI privacy and explainability, there is little attention on privacy-preserving model explanations. This article presents the first thorough survey about privacy attacks on model explanations and their countermeasures. Our contribution to this field comprises a thorough analysis of research papers with a connected taxonomy that facilitates the categorisation of privacy attacks and countermeasures based on the targeted explanations. This work also includes an initial investigation into the causes of privacy leaks. Finally, we discuss unresolved issues and prospective research directions uncovered in our analysis. This survey aims to be a valuable resource for the research community and offers clear insights for those new to this domain. To support ongoing research, we have established an online resource repository, which will be continuously updated with new and relevant findings. Interested readers are encouraged to access our repository at https://github.com/tamlhp/awesome-privex. | 翻訳日:2024-06-27 18:55:03 公開日:2024-06-26 |
# ChangeMamba:時空間空間モデルによるリモートセンシング変化検出
ChangeMamba: Remote Sensing Change Detection with Spatio-Temporal State Space Model ( http://arxiv.org/abs/2404.03425v5 ) ライセンス: Link先を確認 | Hongruixuan Chen, Jian Song, Chengxi Han, Junshi Xia, Naoto Yokoya, | (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、リモートセンシング変化検出(CD)の分野で目覚ましい進歩を遂げた。
しかし、両方のアーキテクチャには固有の欠点がある。CNNは、より広い空間的コンテキストをキャプチャする能力を阻害する、限定的な受容的フィールドによって制約されている一方で、Transformerは計算集約的であり、大規模なデータセット上でトレーニングとデプロイにコストがかかる。
近年、状態空間モデルに基づくMambaアーキテクチャは、上記の2つのアーキテクチャの欠点を効果的に補うことができる一連の自然言語処理タスクにおいて、顕著な性能を示している。
本稿では,リモートセンシングCDタスクにおけるMambaアーキテクチャの可能性について検討する。
我々は,2値変化検出 (BCD), 意味変化検出 (SCD), 建物損傷評価 (BDA) に対応するフレームワークであるMambaBCD, MambaSCD, MambaBDAを調整した。
3つのフレームワークはいずれも最先端のVisual Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間的情報を完全に学習することができる。
3つのアーキテクチャで利用可能な変更デコーダについて,Mambaアーキテクチャと自然に結合可能な3つの時空間関係モデリング機構を提案し,その特性をフル活用して複数時空間特徴の時空間相互作用を実現し,正確な変更情報を得る。
5つのベンチマークデータセットにおいて、提案するフレームワークは、複雑なトレーニング戦略やトリックを使わずに、現在のCNNおよびTransformerベースのアプローチより優れており、CDタスクにおけるMambaアーキテクチャの可能性を完全に実証している。
さらなる実験は、アーキテクチャが劣化したデータに対して非常に堅牢であることを示している。
ソースコードはhttps://github.com/ChenHongruixuan/MambaCDで入手できる。
Convolutional neural networks (CNN) and Transformers have made impressive progress in the field of remote sensing change detection (CD). However, both architectures have inherent shortcomings: CNN are constrained by a limited receptive field that may hinder their ability to capture broader spatial contexts, while Transformers are computationally intensive, making them costly to train and deploy on large datasets. Recently, the Mamba architecture, based on state space models, has shown remarkable performance in a series of natural language processing tasks, which can effectively compensate for the shortcomings of the above two architectures. In this paper, we explore for the first time the potential of the Mamba architecture for remote sensing CD tasks. We tailor the corresponding frameworks, called MambaBCD, MambaSCD, and MambaBDA, for binary change detection (BCD), semantic change detection (SCD), and building damage assessment (BDA), respectively. All three frameworks adopt the cutting-edge Visual Mamba architecture as the encoder, which allows full learning of global spatial contextual information from the input images. For the change decoder, which is available in all three architectures, we propose three spatio-temporal relationship modeling mechanisms, which can be naturally combined with the Mamba architecture and fully utilize its attribute to achieve spatio-temporal interaction of multi-temporal features, thereby obtaining accurate change information. On five benchmark datasets, our proposed frameworks outperform current CNN- and Transformer-based approaches without using any complex training strategies or tricks, fully demonstrating the potential of the Mamba architecture in CD tasks. Further experiments show that our architecture is quite robust to degraded data. The source code will be available in https://github.com/ChenHongruixuan/MambaCD | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# MM-MATH:プロセス評価ときめ細かい分類によるマルチモーダル数学評価の改善
MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification ( http://arxiv.org/abs/2404.05091v2 ) ライセンス: Link先を確認 | Kai Sun, Yushi Bai, Ji Qi, Lei Hou, Juanzi Li, | (参考訳) 大規模マルチモーダルモデル(LMM)におけるマルチモーダル数学推論の評価を前進させるために,新しいベンチマークMM-MATHを提案する。
MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。
従来のベンチマークではバイナリ回答の比較に頼っていたが、MM-MATHは結果評価とプロセス評価の両方を取り入れている。
プロセス評価では、LMM-as-a-judgeを使用して、ソリューションステップを自動的に分析し、エラーを特定のエラータイプに識別し、分類する。
MM-MATH上での10モデルの広範囲な評価は、既存のLMMにとって重要な課題であり、視覚情報の利用が限られており、より難易度の高い問題に苦しむことを強調している。
最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。
これは、既存のモデルに対するベンチマークの難しさと、現在のモデルと人間のマルチモーダル推論能力の間の大きなギャップを強調します。
プロセス評価の結果,複数モーダル推論における画像理解の改善の必要性を強調し,誤りケース全体の半数以上を占め,誤解釈が最も多いことが判明した。
To advance the evaluation of multimodal math reasoning in large multimodal models (LMMs), this paper introduces a novel benchmark, MM-MATH. MM-MATH consists of 5,929 open-ended middle school math problems with visual contexts, with fine-grained classification across difficulty, grade level, and knowledge points. Unlike existing benchmarks relying on binary answer comparison, MM-MATH incorporates both outcome and process evaluations. Process evaluation employs LMM-as-a-judge to automatically analyze solution steps, identifying and categorizing errors into specific error types. Extensive evaluation of ten models on MM-MATH reveals significant challenges for existing LMMs, highlighting their limited utilization of visual information and struggles with higher-difficulty problems. The best-performing model achieves only 31% accuracy on MM-MATH, compared to 82% for humans. This highlights the challenging nature of our benchmark for existing models and the significant gap between the multimodal reasoning capabilities of current models and humans. Our process evaluation reveals that diagram misinterpretation is the most common error, accounting for more than half of the total error cases, underscoring the need for improved image comprehension in multimodal reasoning. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# 非一次量子セルオートマタを用いた密度分類
Density Classification with Non-Unitary Quantum Cellular Automata ( http://arxiv.org/abs/2404.05461v2 ) ライセンス: Link先を確認 | Elisabeth Wagner, Federico Dell'Anna, Ramil Nigmatullin, Gavin K. Brennen, | (参考訳) グローバル密度情報を局所密度にマッピングする計算である密度分類(DC)タスクを1次元の非単位量子セルオートマトン(QCA)を用いて検討した。
2つのアプローチが考えられる: 1つは数密度を保存するもので、もう1つは多数決を行うものである。
数保存直流の場合、固定点に到達する2つのQCAがシステムサイズと2次にスケールする時間で導入される。
QCAの1つは、DCの文脈で研究されている既知の古典的確率的セルオートマトンに基づいている。
2つ目は、新しい量子モデルで、追加の量子的特徴を示すように設計され、二体相互作用に制限される。
どちらも連続時間リンドブラッドダイナミクスによって生成される。
第3のQCAは、離散時間と連続時間の両方の3体相互作用によって定義されるハイブリッドルールであり、システムサイズと線形にスケールする時間内に多数決問題を解くことが示されている。
The density classification (DC) task, a computation which maps global density information to local density, is studied using one-dimensional non-unitary quantum cellular automata (QCAs). Two approaches are considered: one that preserves the number density and one that performs majority voting. For number preserving DC, two QCAs are introduced that reach the fixed point solution in a time scaling quadratically with the system size. One of the QCAs is based on a known classical probabilistic cellular automaton which has been studied in the context of DC. The second is a new quantum model that is designed to demonstrate additional quantum features and is restricted to only two-body interactions. Both can be generated by continuous-time Lindblad dynamics. A third QCA is a hybrid rule defined by both discrete-time and continuous-time three-body interactions that is shown to solve the majority voting problem within a time that scales linearly with the system size. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# 360$^\circ$REA: マルチエージェントシステムのための360°アセスメントによる再利用可能な経験蓄積に向けて
360$^\circ$REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System ( http://arxiv.org/abs/2404.05569v2 ) ライセンス: Link先を確認 | Shen Gao, Hao Li, Chengrui Huang, Quan Tu, Zhiliang Tian, Minlie Huang, Shuo Shang, | (参考訳) 大規模言語モデルエージェントは、様々な複雑なタスクにおいて顕著な進歩を見せている。
最近の研究は、エージェントチームの最適化や、複雑なタスクを反復的に解決するために自己回帰を採用することに重点を置いている。
これらの薬剤はいずれも同一のLDMに基づいているため、自己評価を行うか、性能の低い薬剤を除去するだけでは、エージェントの能力が著しく向上するわけではない。
評価フィードバックからの経験を総合的に評価し蓄積することは、システム性能を改善するための効果的なアプローチである、と我々は主張する。
本稿では,企業の組織的実践に触発された階層型マルチエージェントフレームワークである360$^\circ$ Assessment(360$^\circ$REA)を用いた再利用可能な体験蓄積を提案する。
このフレームワークは,360$^\circ$の新たな性能評価手法を用いて,微粒な評価を施したマルチパースペクティブな性能評価を行う。
複雑なタスクに対処するエージェントの能力を高めるために,エージェントが粒度の細かい評価によって経験を蓄積するための二重レベル体験プールを導入する。
複雑なタスクデータセットに関する大規模な実験は、360$^\circ$REAの有効性を示す。
Large language model agents have demonstrated remarkable advancements across various complex tasks. Recent works focus on optimizing the agent team or employing self-reflection to iteratively solve complex tasks. Since these agents are all based on the same LLM, only conducting self-evaluation or removing underperforming agents does not substantively enhance the capability of the agents. We argue that a comprehensive evaluation and accumulating experience from evaluation feedback is an effective approach to improving system performance. In this paper, we propose Reusable Experience Accumulation with 360$^\circ$ Assessment (360$^\circ$REA), a hierarchical multi-agent framework inspired by corporate organizational practices. The framework employs a novel 360$^\circ$ performance assessment method for multi-perspective performance evaluation with fine-grained assessment. To enhance the capability of agents in addressing complex tasks, we introduce dual-level experience pool for agents to accumulate experience through fine-grained assessment. Extensive experiments on complex task datasets demonstrate the effectiveness of 360$^\circ$REA. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# $μ$-transferの大規模探索
A Large-Scale Exploration of $μ$-Transfer ( http://arxiv.org/abs/2404.05728v5 ) ライセンス: Link先を確認 | Lucas Lingle, | (参考訳) 大規模な人工ニューラルネットワークは、言語、ビジョン、オーディオ処理と合成の主要な柱となっているが、その初期化と学習速度は、大規模なハイパーパラメータスイープのコストが高いため、しばしば未熟な方法で設定される。
この$\mu$-Parameterization($\mu$P)は、モデルの初期化と学習率のスケーリングルールを提供するとともに、小さなモデルから大きなモデルへのゼロショットハイパーパラメータ転送を可能にするという、この課題に対する潜在的な解決策を提供する。
明らかな約束にもかかわらず、$\mu$P 法はまだ広く採用されていない。
本研究は,ユビキタストランスフォーマーアーキテクチャに着目して,実証的に$\mu$Pを調査し,簡単な質問に答えることを目的としている。
最大10Bパラメータのモデルと最大190Bトークンのトレーニング予算を調べると、$\mu$-Transferは重要なケースの大多数を意図して機能するが、そうでないケースもいくつかある。
Large artificial neural networks have become a mainstay of language, vision, and audio processing and synthesis, yet their initializations and learning rates are often set in an unsophisticated fashion, due to the high cost of hyperparameter sweeps at scale. The $\mu$-Parameterization ($\mu$P) offers a potential solution to this challenge, yielding scaling rules for model initialization and learning rates while reportedly enabling zero-shot hyperparameter transfer from small to large models. Despite its evident promise, the $\mu$P method is not yet widely adopted, perhaps due to higher implementation complexity, many variations, or complex theoretical background. This work investigates $\mu$P empirically, focusing on the ubiquitous transformer architecture, and aims to answer a simple question: does $\mu$-Transfer yield optimal learning rates in practice? Studying models of up to 10B parameters and training budgets of up to 190B tokens, we find $\mu$-Transfer works as intended for the majority of important cases, yet also identify a few cases where it may not. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# 重粒子の絡み合い抑制と低エネルギー散乱
Entanglement suppression and low-energy scattering of heavy mesons ( http://arxiv.org/abs/2404.05958v2 ) ライセンス: Link先を確認 | Tao-Ran Hu, Su Chen, Feng-Kun Guo, | (参考訳) 近年、エンタングルメント抑制が創発対称性の起源の1つとして提案されている。
ここでは、重中間子散乱の文脈でこの予想をテストする。
D^{(*)}\bar D^{(*)}$ と $D^{(*)} D^{(*)}$ の低エネルギー相互作用はそれぞれ、ハドロン分子候補 $X(3872)$ と $T_{cc}(3875)^+$ と密接に関連しており、重クォークスピン対称性を示す非相対論的有効ラグランジアンによって説明できる。
我々は、等スピンとスピンの自由度の両方を扱うために、テンソル積のフレームワークにおける絡み込み抑制について検討する。
入力として$X(3872)$と$T_{cc}(3875)^+$を用いると、絡み合いの抑制は実際には光クォークスピン対称性、すなわち、$D^{(*)}\bar D^{(*)}$または$D^{(*)D^{(*)}$のような創発的な対称性をもたらす。
X(3872)$ と $T_{cc}(3875)^+$ はそれぞれ 5 と 1 の等方体パートナーを持つと予測され、重クォークスピン対称性からのみ導かれる対応するパートナー数は 3 と 1 である。
この予測は、絡み込み抑制予測を更にテストするために、実験データと格子量子色力学の結果に直面する必要がある。
Recently entanglement suppression was proposed to be one possible origin of emergent symmetries. Here we test this conjecture in the context of heavy meson scatterings. The low-energy interactions of $D^{(*)}\bar D^{(*)}$ and $D^{(*)} D^{(*)}$ are closely related to the hadronic molecular candidates $X(3872)$ and $T_{cc}(3875)^+$, respectively, and can be described by a nonrelativistic effective Lagrangian manifesting heavy-quark spin symmetry, which includes only constant contact potentials at leading order. We explore entanglement suppression in a tensor-product framework to treat both the isospin and spin degrees of freedom. Using the $X(3872)$ and $T_{cc}(3875)^+$ as inputs, we find that entanglement suppression indeed leads to an emergent symmetry, namely, a light-quark spin symmetry, and as such the $D^{(*)}\bar D^{(*)}$ or $D^{(*)} D^{(*)}$ interaction strengths for a given total isospin do not depend on the total angular momentum of light (anti)quarks. The $X(3872)$ and $T_{cc}(3875)^+$ are predicted to have five and one isoscalar partner, respectively, while the corresponding partner numbers derived solely from heavy-quark spin symmetry are three and one, respectively. The predictions need to be confronted with experimental data and lattice quantum chromodynamics results to further test the entanglement suppression conjecture. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# 量子環境における量子ビットのコヒーレンス測定
How coherence measurements of a qubit steer its quantum environment ( http://arxiv.org/abs/2404.06053v2 ) ライセンス: Link先を確認 | Chu-Dan Qiu, Yuan-De Jin, Jun-Xiang Zhang, Gang-Qin Liu, Wen-Long Ma, | (参考訳) 繰り返しラムゼー干渉測定(RIMs)は、各測定後に環境が影響を受けないままであり、全ての測定結果が独立で同一に分布していると仮定して、クビットコヒーレンスを測定するためにしばしば用いられる。
この仮定は古典的な環境では有効であるが、量子ビットから環境への非無視的なバックアクションのため、量子環境では成り立たない。
ここでは、キュービットから環境への測定バックアクションをシーケンシャルRIMに組み込むための一般的な理論的枠組みを提案する。
我々は、量子ビットのRIMが量子環境上で量子チャネルを誘導し、シーケンシャルRIMが徐々にチャネルの固定点まで量子環境を操ることを示す。
例えば、$[B,H_e]=0$と$H_e$とすると、量子環境は徐々に$B$の異なる固有状態に偏極化される; (2)$[B,H_e]\neq 0$は、その全ヒルベルト空間またはヒルベルト部分空間の最大混合状態に徐々に偏極化される;(3)$[B,H_e]\neq 0$は、その全ヒルベルト空間またはヒルベルト部分空間の最大混合状態に徐々に偏極化される;(3)$[B,H_e]\neq 0$は1ドルである。
環境ステアリングはまた、シーケンシャルRIMの計測統計を、測定結果分布が、量子チャネルの異なる固定点に対応する小さな量子環境に対して複数のピークを表示できるように、非二項の特徴を発達させる。
Repetitive Ramsey interferometry measurements (RIMs) are often used to measure qubit coherence, assuming that the environment remains unaffected after each measurement and the outcomes of all measurements are independent and identically distributed (i.i.d.). While this assumption is valid for a classical environment, it may not hold for a quantum environment due to the non-negligible backaction from qubit to environment. Here we present a general theoretical framework to incorporate the measurement backaction from qubit to environment in sequential RIMs. We show that a RIM of a qubit induces a quantum channel on the quantum environment, and sequential RIMs gradually steer the quantum environment to the fixed points of the channel. We reveal three distinct environment steering effects -- polarization, depolarization and metastable polarization, depending on the commutativity of the noise operator $B$ and the free environment Hamiltonian $H_e$: (1) if $B$ commutes with $H_e$, i.e., $[B,H_e]=0$, the quantum environment is gradually polarized to different eigenstates of $B$ as the number $m$ of repetitive RIMs increases; (2) When $[B,H_e]\neq 0$, the quantum environment is gradually depolarized to a maximally mixed state of its whole Hilbert space or a Hilbert subspace; (3) When $[B,H_e]\neq 0$ but one of $H_e$ and $B$ is a small perturbation on the other, metastable polarization can happen, such that the quantum environment is first polarized for a finite range of $m$ but becomes gradually depolarized as $m$ increases further. The environment steering also makes the measurement statistics of sequential RIMs develop non-i.i.d. features, such that the measurement result distribution can display multiple peaks for a small quantum environment, corresponding to different fixed points of the quantum channel. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# VADA: ナノ孔シークエンシングのためのデータ駆動シミュレータ
VADA: a Data-Driven Simulator for Nanopore Sequencing ( http://arxiv.org/abs/2404.08722v2 ) ライセンス: Link先を確認 | Jonas Niederle, Simon Koop, Marc Pagès-Gallego, Vlado Menkovski, | (参考訳) ナノ孔シークエンシングは、長いDNA配列を低コストでリアルタイムに解析する機能を提供し、がんの早期検出などの新しい応用を可能にする。
ナノ孔測定の複雑な性質と地上の真理データセットを得るための高コストのため、ナノ孔シミュレータが必要である。
既存のシミュレーターは手作りのルールやパラメータに依存しており、生物学的な要因の分析を可能にする内部表現を学ばない。
代わりに,自己回帰潜在変数モデルに基づく,純粋にデータ駆動によるナノ孔のシミュレーション手法であるVADAを提案する。
我々はDNAのサブシーケンスを埋め込んで、崩壊する条件付けの課題に対処する前に条件を導入します。
我々は,潜在変数に補助的回帰器を導入し,情報的潜在表現を学習するようモデルに促す。
実験的なナノ孔データに対して,本モデルが競合シミュレーション性能を実現することを実証的に実証した。
さらに,我々は,DNAラベルを予測可能な情報潜在表現を学習したことを示す。
我々は、DNAラベル以外の他の生物学的要因が、そのような学習された潜伏表現から抽出できる可能性があると仮定する。
Nanopore sequencing offers the ability for real-time analysis of long DNA sequences at a low cost, enabling new applications such as early detection of cancer. Due to the complex nature of nanopore measurements and the high cost of obtaining ground truth datasets, there is a need for nanopore simulators. Existing simulators rely on handcrafted rules and parameters and do not learn an internal representation that would allow for analysing underlying biological factors of interest. Instead, we propose VADA, a purely data-driven method for simulating nanopores based on an autoregressive latent variable model. We embed subsequences of DNA and introduce a conditional prior to address the challenge of a collapsing conditioning. We introduce an auxiliary regressor on the latent variable to encourage our model to learn an informative latent representation. We empirically demonstrate that our model achieves competitive simulation performance on experimental nanopore data. Moreover, we show we have learned an informative latent representation that is predictive of the DNA labels. We hypothesize that other biological factors of interest, beyond the DNA labels, can potentially be extracted from such a learned latent representation. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# Med-MoE:軽量医用ビジョンランゲージモデルのためのドメイン特化専門家の混在
Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models ( http://arxiv.org/abs/2404.10237v2 ) ライセンス: Link先を確認 | Songtao Jiang, Tuo Zheng, Yan Zhang, Yeying Jin, Li Yuan, Zuozhu Liu, | (参考訳) 汎用・ドメイン特化多モーダル言語モデル(LLM)の最近の進歩は、医学的意思決定において顕著な進歩をみせている。
しかし、それらは特定の分類や生成タスクのために指定されており、スケール可能なパラメータと膨大な計算量を持つ大規模データセットのモデルトレーニングや微調整が必要であり、実際は様々なリソース制約のあるシナリオで臨床効果を妨げている。
本稿では,識別的および生成的マルチモーダル医療タスクに対処する,新規で軽量なMed-MoE(Mixture-of-Experts)を提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
マルチモーダル医療画像とLCMトークンを整列させた後、インプットモダリティ間の専門家選択に適したトレーニング可能なルータとともに、インストラクションチューニングによる様々なマルチモーダル医療タスクのモデルを有効にする。
最後に、モデルはルータと複数のドメイン固有の専門家を統合することで調整される。
VQA-RAD,SLAKE,Path-VQAといったデータセットをまたいだオープン・エンドの医療質問応答(Med-VQA)と画像分類タスクの総合的な実験により,我々のモデルは,アクティベートモデルパラメータの約30~50%しか必要とせず,最先端のベースラインに匹敵する性能を達成できることが実証された。
本手法の有効性と実用性を包括的に分析し,その有効性を検証した。
Recent advancements in general-purpose or domain-specific multimodal large language models (LLMs) have witnessed remarkable progress for medical decision-making. However, they are designated for specific classification or generative tasks, and require model training or finetuning on large-scale datasets with sizeable parameters and tremendous computing, hindering their clinical utility across diverse resource-constrained scenarios in practice. In this paper, we propose a novel and lightweight framework Med-MoE (Mixture-of-Experts) that tackles both discriminative and generative multimodal medical tasks. The learning of Med-MoE consists of three steps: multimodal medical alignment, instruction tuning and routing, and domain-specific MoE tuning. After aligning multimodal medical images with LLM tokens, we then enable the model for different multimodal medical tasks with instruction tuning, together with a trainable router tailored for expert selection across input modalities. Finally, the model is tuned by integrating the router with multiple domain-specific experts, which are selectively activated and further empowered by meta expert. Comprehensive experiments on both open- and close-end medical question answering (Med-VQA) and image classification tasks across datasets such as VQA-RAD, SLAKE and Path-VQA demonstrate that our model can achieve performance superior to or on par with state-of-the-art baselines, while only requiring approximately 30\%-50\% of activated model parameters. Extensive analysis and ablations corroborate the effectiveness and practical utility of our method. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# Amortized Inferenceのためのニューラルメソッド
Neural Methods for Amortised Inference ( http://arxiv.org/abs/2404.12484v3 ) ライセンス: Link先を確認 | Andrew Zammit-Mangion, Matthew Sainsbury-Dale, Raphaël Huser, | (参考訳) 統計的推論のシミュレーションに基づく手法は、過去50年間で劇的に進化し、技術進歩のペースを維持している。
この分野は、データと推論ターゲットの間の複雑なマッピングを学習するためのニューラルネットワーク、最適化ライブラリ、グラフィック処理ユニットの表現能力を受け入れることで、新たな革命を経験している。
結果として得られるツールは、高速なフィードフォワード操作による迅速な推論を可能にするという意味で、償却される。
本稿では, 点推定, 近似ベイズ推定, 要約統計的構成, 確率近似の文脈における最近の進歩を概観する。
また、ソフトウェアをカバーし、MarkovチェーンのMonte Carloメソッドに比較して提供するメリットや、償却推論に利用可能なツールの幅広い範囲を示すための簡単なイラストも用意しています。
この記事は、関連するトピックの概要と今後の研究方向性の展望で締めくくっている。
Simulation-based methods for statistical inference have evolved dramatically over the past 50 years, keeping pace with technological advancements. The field is undergoing a new revolution as it embraces the representational capacity of neural networks, optimisation libraries and graphics processing units for learning complex mappings between data and inferential targets. The resulting tools are amortised, in the sense that they allow rapid inference through fast feedforward operations. In this article we review recent progress in the context of point estimation, approximate Bayesian inference, summary-statistic construction, and likelihood approximation. We also cover software, and include a simple illustration to showcase the wide array of tools available for amortised inference and the benefits they offer over Markov chain Monte Carlo methods. The article concludes with an overview of relevant topics and an outlook on future research directions. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# Pre-Calc: 言語モデルにおける数値化向上のための計算機の学習
Pre-Calc: Learning to Use the Calculator Improves Numeracy in Language Models ( http://arxiv.org/abs/2404.14355v3 ) ライセンス: Link先を確認 | Vishruth Veerendranath, Vishwa Shah, Kshitish Ghate, | (参考訳) 言語における量的および数値的理解は、教育や金融など多くの分野で重要な課題であるが、それでも言語モデルにとって難しい課題である。
ツールと電卓の使用は、大規模な事前訓練されたデコーダのみの言語モデルで数学的推論を改善するのに有用であるが、エンコーダを持つより小さな言語モデルでは、まだ探索されていない。
本稿では,計算機をエンコーダのみのアーキテクチャとエンコーダデコーダアーキテクチャの両方に使用するために,プリカルク(Pre-Calc)を提案する。
我々は,MAWPS,SVAMP,AsDiv-Aデータセットに対して,識別計算機用BERTとRoBERTaをプレトレーニングし,数値的な理解を必要とする下流タスクの性能を向上させる。
私たちのコードとデータはhttps://github.com/calc-cmu/pre-calc.comで公開されています。
Quantitative and numerical comprehension in language is an important task in many fields like education and finance, but still remains a challenging task for language models. While tool and calculator usage has shown to be helpful to improve mathematical reasoning in large pretrained decoder-only language models, this remains unexplored for smaller language models with encoders. In this paper, we propose Pre-Calc, a simple pre-finetuning objective of learning to use the calculator for both encoder-only and encoder-decoder architectures, formulated as a discriminative and generative task respectively. We pre-train BERT and RoBERTa for discriminative calculator use and Flan-T5 for generative calculator use on the MAWPS, SVAMP, and AsDiv-A datasets, which improves performance on downstream tasks that require numerical understanding. Our code and data are available at https://github.com/calc-cmu/pre-calc. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# ToM-LM:大言語モデルにおける外部シンボリックエクサに対する心推論理論
ToM-LM: Delegating Theory of Mind Reasoning to External Symbolic Executors in Large Language Models ( http://arxiv.org/abs/2404.15515v3 ) ライセンス: Link先を確認 | Weizhi Tang, Vaishak Belle, | (参考訳) 心の理論(りょうせい、英: Theory of Mind、ToM)とは、個人が心の状態を他人に当てはめる能力のこと。
LLM(Large Language Models)はToMの能力にいくつかの期待を示しているが、それでも複雑なToM推論に苦戦している。
提案手法では,SMCDELモデルチェッカーの外部シンボルエグゼキュータと微調整を併用し,LLMのToM推論能力を向上させる。
提案手法では,まず自然言語のペアとToM問題のシンボリック定式化表現を用いて微調整を行い,ワンショットインコンテキストの例を用いてシンボリック定式化を生成するように指示する。
生成された記号定式化はSMCDELモデルチェッカーによって実行され、透明で検証可能なToM推論を実行し、最終的な結果を与える。
提案手法であるToM-LMは, 構築されたベースラインのすべてに対して, 大幅な改善を示した。
本研究は,ToM推論の特定の構成要素の外部化,主に信念の外部化,およびToM推論の他の側面への一般化に関する新たな見解を提案する。
Theory of Mind (ToM) refers to the ability of individuals to attribute mental states to others. While Large Language Models (LLMs) have shown some promise with ToM ability, they still struggle with complex ToM reasoning. Our approach leverages an external symbolic executor, specifically the SMCDEL model checker, and fine-tuning to improve the ToM reasoning ability of LLMs. In our approach, an LLM is first fine-tuned through pairs of natural language and symbolic formulation representation of ToM problems and is then instructed to generate the symbolic formulation with a one-shot in-context example. The generated symbolic formulation is then executed by the SMCDEL model checker to perform transparent and verifiable ToM reasoning and give the final result. We demonstrate that our approach, ToM-LM, shows a significant improvement over all the constructed baselines. Our study proposes a novel view about externalizing a particular component of ToM reasoning, mainly reasoning about beliefs, and suggests generalizing it to other aspects of ToM reasoning. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# BASS: 意図を最適化した投機サンプリング
BASS: Batched Attention-optimized Speculative Sampling ( http://arxiv.org/abs/2404.15778v2 ) ライセンス: Link先を確認 | Haifeng Qian, Sujan Kumar Gonugondla, Sungsoo Ha, Mingyue Shang, Sanjay Krishna Gouda, Ramesh Nallapati, Sudipta Sengupta, Xiaofei Ma, Anoop Deoras, | (参考訳) 投機的復号化は、大規模言語モデルをホストする際のレイテンシとスループットを改善する強力な方法として登場した。
しかし、既存の実装のほとんどは単一のシーケンスを生成することに重点を置いている。
実世界の生成AIアプリケーションは、しばしば複数の応答と、バッチ環境で投機的復号化を実行する方法を必要とする。
本稿では、バッチ化された投機的復号化システムについて述べる。これは、マルチシーケンス生成遅延において新しい最先端の状態を設定し、GPUの優れた利用と、時間予算内での世代品質を示す。
例えば、1つのA100 GPU上の7.8Bサイズモデルとバッチサイズが8の場合、各シーケンスは平均速度5.8msで生成され、全体のスループットは毎秒1.1Kである。
これらの結果は、最先端のレイテンシと、最適化された正規デコードよりも2.15倍のスピードアップを示している。
通常のデコーディングが終わらない時間予算の中で、我々のシステムはHumanEval Pass@Firstの43%とPass@Allの61%のシーケンスを生成することができる。
復号化のピークGPU利用率は15.8%、正規復号化の最高値の3倍、単列投機復号化の約10倍に達する。
Speculative decoding has emerged as a powerful method to improve latency and throughput in hosting large language models. However, most existing implementations focus on generating a single sequence. Real-world generative AI applications often require multiple responses and how to perform speculative decoding in a batched setting while preserving its latency benefits poses non-trivial challenges. This paper describes a system of batched speculative decoding that sets a new state of the art in multi-sequence generation latency and that demonstrates superior GPU utilization as well as quality of generations within a time budget. For example, for a 7.8B-size model on a single A100 GPU and with a batch size of 8, each sequence is generated at an average speed of 5.8ms per token, the overall throughput being 1.1K tokens per second. These results represent state-of-the-art latency and a 2.15X speed-up over optimized regular decoding. Within a time budget that regular decoding does not finish, our system is able to generate sequences with HumanEval Pass@First of 43% and Pass@All of 61%, far exceeding what's feasible with single-sequence speculative decoding. Our peak GPU utilization during decoding reaches as high as 15.8%, more than 3X the highest of that of regular decoding and around 10X of single-sequence speculative decoding. | 翻訳日:2024-06-27 18:45:18 公開日:2024-06-26 |
# 屋外教師なし3次元物体検出のためのコモンセンスプロトタイプ
Commonsense Prototype for Outdoor Unsupervised 3D Object Detection ( http://arxiv.org/abs/2404.16493v3 ) ライセンス: Link先を確認 | Hai Wu, Shijia Zhao, Xun Huang, Chenglu Wen, Xin Li, Cheng Wang, | (参考訳) 教師なし3次元オブジェクト検出の一般的なアプローチは、クラスタベースの擬似ラベル生成と反復的自己学習プロセスに従う。
しかし、この課題はLiDARスキャンのばらつきによって発生し、誤った大きさと位置の擬似ラベルが発生し、サブパー検出性能が低下する。
そこで本研究では,非教師付き3次元物体検出のためのCommonsense Prototype-based Detector(CDD)を提案する。
CPDは、コモンセンス直観に基づいて、高品質なバウンディングボックスと高密度点を特徴とするコモンセンスプロトタイプ(CProto)を最初に構築する。
その後、CPDはCProtoの前のサイズを利用して低品質の擬似ラベルを洗練する。
さらに、CPDは、CProtoからの幾何学的知識により、スパーススキャン対象の検出精度を高める。
CPDは、Waymo Open Dataset(WOD)、PandaSet、KITTIのデータセット上で、最先端の教師なし3D検出器を大きなマージンで上回る。
さらに、CPDをWODでトレーニングし、KITTIでテストすることで、CPDは90.85%と81.01%の3D平均精度を、それぞれ緩やかな車種と中程度の車種で達成できる。
これらの成果は完全教師付き検出器に近づき,本手法の意義を浮き彫りにした。
コードはhttps://github.com/hailanyi/CPD.comで入手できる。
The prevalent approaches of unsupervised 3D object detection follow cluster-based pseudo-label generation and iterative self-training processes. However, the challenge arises due to the sparsity of LiDAR scans, which leads to pseudo-labels with erroneous size and position, resulting in subpar detection performance. To tackle this problem, this paper introduces a Commonsense Prototype-based Detector, termed CPD, for unsupervised 3D object detection. CPD first constructs Commonsense Prototype (CProto) characterized by high-quality bounding box and dense points, based on commonsense intuition. Subsequently, CPD refines the low-quality pseudo-labels by leveraging the size prior from CProto. Furthermore, CPD enhances the detection accuracy of sparsely scanned objects by the geometric knowledge from CProto. CPD outperforms state-of-the-art unsupervised 3D detectors on Waymo Open Dataset (WOD), PandaSet, and KITTI datasets by a large margin. Besides, by training CPD on WOD and testing on KITTI, CPD attains 90.85% and 81.01% 3D Average Precision on easy and moderate car classes, respectively. These achievements position CPD in close proximity to fully supervised detectors, highlighting the significance of our method. The code will be available at https://github.com/hailanyi/CPD. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# DF-SLAM:高忠実度ニューラルネットワーク高密度視覚SLAMシステムのための辞書係数表現
DF-SLAM: Dictionary Factors Representation for High-Fidelity Neural Implicit Dense Visual SLAM System ( http://arxiv.org/abs/2404.17876v2 ) ライセンス: Link先を確認 | Weifeng Wei, Jie Wang, Shuqi Deng, Jie Liu, | (参考訳) DF-SLAMと呼ばれる高忠実度ニューラル暗黙的視覚的局所化マッピングシステム(SLAM)を導入する。
本研究では,シーンの形状と外観情報を基本因子と係数因子の組み合わせとして符号化し,シーン表現に辞書因子を用いる。
シーン情報を特徴として直接エンコードするニューラル暗黙的視覚SLAM法と比較して,本手法はシーンのディテール復元能力とメモリ使用効率が向上し,モデルサイズはシーンマップのサイズに敏感であり,大規模シーンに向いている。
さらに,カラーレンダリング品質を確保しつつ,カラーレンダリングの高速化に機能統合レンダリングを採用し,ニューラルSLAM法のリアルタイム性能をさらに向上させる。
合成および実世界のデータセットに対する大規模な実験により、実時間性能、ローカライゼーション精度、シーン再構成品質の観点から、我々の手法が既存の最先端の暗黙的SLAM法と競合することを示した。
ソースコードはhttps://github.com/funcdecl/DF-SLAM.comで公開されています。
We introduce a high-fidelity neural implicit dense visual Simultaneous Localization and Mapping (SLAM) system, termed DF-SLAM. In our work, we employ dictionary factors for scene representation, encoding the geometry and appearance information of the scene as a combination of basis and coefficient factors. Compared to neural implicit dense visual SLAM methods that directly encode scene information as features, our method exhibits superior scene detail reconstruction capabilities and more efficient memory usage, while our model size is insensitive to the size of the scene map, making our method more suitable for large-scale scenes. Additionally, we employ feature integration rendering to accelerate color rendering speed while ensuring color rendering quality, further enhancing the real-time performance of our neural SLAM method. Extensive experiments on synthetic and real-world datasets demonstrate that our method is competitive with existing state-of-the-art neural implicit SLAM methods in terms of real-time performance, localization accuracy, and scene reconstruction quality. Our source code is available at https://github.com/funcdecl/DF-SLAM. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# 反復推論選好最適化
Iterative Reasoning Preference Optimization ( http://arxiv.org/abs/2404.19733v3 ) ライセンス: Link先を確認 | Richard Yuanzhe Pang, Weizhe Yuan, Kyunghyun Cho, He He, Sainbayar Sukhbaatar, Jason Weston, | (参考訳) 反復的選好最適化法は、最近、一般的な命令チューニングタスクに対してうまく機能することが示されているが、推論タスクにはほとんど改善がない(Yuan et al , 2024, Chen et al , 2024)。
本研究は、競合する生成したChain-of-Thought(CoT)候補間の選好を最適化する反復的アプローチを開発する。
我々は、修正DPO損失(Rafailov et al , 2023)を、追加の負の対数類似項でトレーニングする。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
Llama-2-70B-Chat の GSM8K, MATH, ARC-Challenge の精度は向上し,Llama-2 をベースとした他のモデルよりも優れている。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
Iterative preference optimization methods have recently been shown to perform well for general instruction tuning tasks, but typically make little improvement on reasoning tasks (Yuan et al., 2024, Chen et al., 2024). In this work we develop an iterative approach that optimizes the preference between competing generated Chain-of-Thought (CoT) candidates by optimizing for winning vs. losing reasoning steps that lead to the correct answer. We train using a modified DPO loss (Rafailov et al., 2023) with an additional negative log-likelihood term, which we find to be crucial. We show reasoning improves across repeated iterations of this scheme. While only relying on examples in the training set, our approach results in increasing accuracy on GSM8K, MATH, and ARC-Challenge for Llama-2-70B-Chat, outperforming other Llama-2-based models not relying on additionally sourced datasets. For example, we see a large improvement from 55.6% to 81.6% on GSM8K and an accuracy of 88.7% with majority voting out of 32 samples. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# 高次元回帰におけるスケーリングと再正規化
Scaling and renormalization in high-dimensional regression ( http://arxiv.org/abs/2405.00592v3 ) ライセンス: Link先を確認 | Alexander Atanasov, Jacob A. Zavatone-Veth, Cengiz Pehlevan, | (参考訳) 本稿では、確率行列理論と自由確率の基本的なツールを用いて、多種多様な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
トレーニングおよび一般化誤差の解析公式は、数行の代数において、自由確率の$S$-変換の性質から直接得られる。
これにより、モデルパフォーマンスにおけるパワーロースケーリングのソースを、簡単に特定できる。
我々は、広範囲のランダムな特徴モデルの一般化誤差を計算する。
すべてのモデルにおいて、$S$-変換は列車-テストの一般化ギャップに対応し、一般化されたクロスバリデーション推定器の類似性が得られる。
これらの手法を用いて、構造的共変量を持つランダム特徴モデルの非常に一般的なクラスに対して、きめ細かい偏差分解を導出する。
これらの新たな結果から,特徴量による分散が過度なパラメータ設定における性能を制限するような,ランダムな特徴モデルのスケーリング機構を見出すことができる。
また、ランダムな特徴モデルにおける異方性重み構造が性能を制限し、過パラメータ設定における有限幅補正のための非自明な指数を導出することを示す。
我々の結果は、ニューラルスケーリング法則の以前のモデルについて拡張し、統一的な視点を提供する。
This paper presents a succinct derivation of the training and generalization performance of a variety of high-dimensional ridge regression models using the basic tools of random matrix theory and free probability. We provide an introduction and review of recent results on these topics, aimed at readers with backgrounds in physics and deep learning. Analytic formulas for the training and generalization errors are obtained in a few lines of algebra directly from the properties of the $S$-transform of free probability. This allows for a straightforward identification of the sources of power-law scaling in model performance. We compute the generalization error of a broad class of random feature models. We find that in all models, the $S$-transform corresponds to the train-test generalization gap, and yields an analogue of the generalized-cross-validation estimator. Using these techniques, we derive fine-grained bias-variance decompositions for a very general class of random feature models with structured covariates. These novel results allow us to discover a scaling regime for random feature models where the variance due to the features limits performance in the overparameterized setting. We also demonstrate how anisotropic weight structure in random feature models can limit performance and lead to nontrivial exponents for finite-width corrections in the overparameterized setting. Our results extend and provide a unifying perspective on earlier models of neural scaling laws. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# 診療所における大規模言語モデル:総合ベンチマーク
Large Language Models in the Clinic: A Comprehensive Benchmark ( http://arxiv.org/abs/2405.00716v3 ) ライセンス: Link先を確認 | Andrew Liu, Hongjian Zhou, Yining Hua, Omid Rohanian, Anshul Thakur, Lei Clifton, David A. Clifton, | (参考訳) 臨床医を支援するための大規模言語モデル(LLM)の導入が注目されている。
既存の作業は主に、評価のための回答オプションを備えたクローズドな質問応答(QA)タスクを採用しています。
しかし、多くの臨床的決定は、事前に設定された選択肢なしで、オープンエンドの質問に答えることを含む。
診療所におけるLSMの理解を深めるため,ベンチマークCysicBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
さらに,6つの新しいデータセットと,参照QA,治療勧告,入院(長期文書)要約,患者教育,薬理学QA,新興医薬品の薬物相互作用など,現実の実践に近い複雑な臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
最後に, LLMの臨床的有用性を評価するために, 医療専門家を招待する。
The adoption of large language models (LLMs) to assist clinicians has attracted remarkable attention. Existing works mainly adopt the close-ended question-answering (QA) task with answer options for evaluation. However, many clinical decisions involve answering open-ended questions without pre-set options. To better understand LLMs in the clinic, we construct a benchmark ClinicBench. We first collect eleven existing datasets covering diverse clinical language generation, understanding, and reasoning tasks. Furthermore, we construct six novel datasets and complex clinical tasks that are close to real-world practice, i.e., referral QA, treatment recommendation, hospitalization (long document) summarization, patient education, pharmacology QA and drug interaction for emerging drugs. We conduct an extensive evaluation of twenty-two LLMs under both zero-shot and few-shot settings. Finally, we invite medical experts to evaluate the clinical usefulness of LLMs. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# コンフォーマル予測に関する情報理論の展望
An Information Theoretic Perspective on Conformal Prediction ( http://arxiv.org/abs/2405.02140v2 ) ライセンス: Link先を確認 | Alvaro H. C. Correia, Fabio Valerio Massoli, Christos Louizos, Arash Behboodi, | (参考訳) Conformal Prediction (CP) は、分布のない不確実性推定フレームワークであり、ユーザが特定した確率で真の答えを含むことが保証される予測セットを構築する。
直感的には、予測セットのサイズは不確実性の一般的な概念を符号化し、より大きな集合はより高い不確実性の度合いに関連付けられる。
本研究では,情報理論を利用して共形予測と不確実性の概念を結びつける。
より正確には、入力が与えられた対象変数の条件エントロピーによって説明されるように、本質的不確かさを上界する3つの異なる方法をCPと情報理論的不等式を組み合わせて証明する。
さらに、共形予測と情報理論の関連性について、2つの直接的かつ有用な応用を実証する。
(i)従来のアプローチを一般化し、スクラッチから機械学習モデルのエンドツーエンドトレーニングを可能にする、より原則的で効果的な整合トレーニング目標
(ii)側情報を共形予測に組み込む自然なメカニズム。
我々は,集中型およびフェデレーション型学習環境における両方の応用を実証的に検証し,その理論結果がCP手法の非効率性(平均予測セットサイズ)を低下させることを示す。
Conformal Prediction (CP) is a distribution-free uncertainty estimation framework that constructs prediction sets guaranteed to contain the true answer with a user-specified probability. Intuitively, the size of the prediction set encodes a general notion of uncertainty, with larger sets associated with higher degrees of uncertainty. In this work, we leverage information theory to connect conformal prediction to other notions of uncertainty. More precisely, we prove three different ways to upper bound the intrinsic uncertainty, as described by the conditional entropy of the target variable given the inputs, by combining CP with information theoretical inequalities. Moreover, we demonstrate two direct and useful applications of such connection between conformal prediction and information theory: (i) more principled and effective conformal training objectives that generalize previous approaches and enable end-to-end training of machine learning models from scratch, and (ii) a natural mechanism to incorporate side information into conformal prediction. We empirically validate both applications in centralized and federated learning settings, showing our theoretical results translate to lower inefficiency (average prediction set size) for popular CP methods. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# ProFLingo:大規模言語モデルのための指紋ベースの知的財産保護スキーム
ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models ( http://arxiv.org/abs/2405.02466v2 ) ライセンス: Link先を確認 | Heng Jin, Chaoyu Zhang, Shanghao Shi, Wenjing Lou, Y. Thomas Hou, | (参考訳) 近年,大規模言語モデル (LLM) が注目されている。
その「大きな」性質のため、スクラッチからLLMを訓練することは膨大な計算資源を消費する。
人工知能(AI)分野のいくつかの主要プレーヤーが独自のLLMをオープンソースにしているため、多くの個人研究者や小規模企業が、これらのオープンソースモデルに基づいて、はるかに低コストで派生LLMを構築できるようになっている。
しかし、この慣行は、ライセンス契約に従わない無許可の使用や再生の可能性を広げ、微調整はモデルの振る舞いを変え、モデルの所有権の決定を複雑にする。
LLMの現在の知的財産権(IP)保護スキームは、ホワイトボックスの設定のために設計されたか、または実際の設定での使用を制限するオリジナルのモデルに追加の修正を必要とする。
本稿では,LLMのためのブラックボックス指紋認証によるIP保護方式であるProFLingoを提案する。
ProFLingoは、オリジナルのモデルから特定の応答を引き出すクエリを生成し、ユニークな指紋を確立する。
提案手法は,疑似モデルにおけるこれらのクエリの有効性を評価し,元のモデルから派生したものかどうかを判断する。
ProFLingoは非侵襲的なアプローチを提供しており、疑似モデルに関する知識もベースモデルやトレーニングプロセスの変更も必要としない。
我々の知る限り、本手法はLSMのIP保護のための最初のブラックボックスフィンガープリント技術である。
ソースコードと生成されたクエリは、https://github.com/hengvt/ProFLingo.comで公開されています。
Large language models (LLMs) have attracted significant attention in recent years. Due to their "Large" nature, training LLMs from scratch consumes immense computational resources. Since several major players in the artificial intelligence (AI) field have open-sourced their original LLMs, an increasing number of individual researchers and smaller companies are able to build derivative LLMs based on these open-sourced models at much lower costs. However, this practice opens up possibilities for unauthorized use or reproduction that may not comply with licensing agreements, and fine-tuning can change the model's behavior, thus complicating the determination of model ownership. Current intellectual property (IP) protection schemes for LLMs are either designed for white-box settings or require additional modifications to the original model, which restricts their use in real-world settings. In this paper, we propose ProFLingo, a black-box fingerprinting-based IP protection scheme for LLMs. ProFLingo generates queries that elicit specific responses from an original model, thereby establishing unique fingerprints. Our scheme assesses the effectiveness of these queries on a suspect model to determine whether it has been derived from the original model. ProFLingo offers a non-invasive approach, which neither requires knowledge of the suspect model nor modifications to the base model or its training process. To the best of our knowledge, our method represents the first black-box fingerprinting technique for IP protection for LLMs. Our source code and generated queries are available at: https://github.com/hengvt/ProFLingo. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# 負サンプリングとデダクティブクロージャフィルタによる$\mathcal{EL}^{++}$の幾何学的オントロジー埋め込みの強化
Enhancing Geometric Ontology Embeddings for $\mathcal{EL}^{++}$ with Negative Sampling and Deductive Closure Filtering ( http://arxiv.org/abs/2405.04868v2 ) ライセンス: Link先を確認 | Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf, | (参考訳) オントロジーは、オントロジーにおけるクラス、関係、および個人を$\mathbb{R}^n$に埋め込み、エンティティ間の$\mathbb{R}^n$類似性を計算したり、新しい公理を推論することができる。
Description Logic $\mathcal{EL}^{++}$のオントロジーでは、オントロジーのモデルを明示的に生成するいくつかの埋め込みメソッドが開発されている。
しかし、これらの手法はいくつかの制限に悩まされており、証明不可能で証明不可能なステートメントを区別しないため、関連するステートメントを負として使用することができる。
さらに、推論されるが主張されないステートメントを特定するために、オントロジーの誘惑的なクロージャを使用しない。
我々は,概念記述の高次元球表現に基づく$\mathcal{EL}^{++}$オントロジーに対する埋め込み手法のセットを評価し,オントロジーの導出的クロージャの利用を目的としたいくつかの修正を取り入れた。
特に,還元的閉鎖と異なるタイプの負の双方を考慮に入れた新規な負の損失を設計した。
本研究では,本手法が知識ベースやオントロジー完了のタスクに埋め込まれたベースラインオントロジーよりも優れていることを示す。
Ontology embeddings map classes, relations, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies based on high-dimensional ball representation of concept descriptions, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# LLMの真正集約とオンライン広告への応用
Truthful Aggregation of LLMs with an Application to Online Advertising ( http://arxiv.org/abs/2405.05905v3 ) ライセンス: Link先を確認 | Ermis Soumalias, Michael J. Curry, Sven Seuken, | (参考訳) オンラインプラットフォームは、広告を自社コンテンツと一緒に表示することによって、年間数十億ドルの収益を生み出している。
現在、これらのプラットフォームはサービスにLLM(Large Language Models)を統合している。
これにより、LLM生成コンテンツから収益を生み出すことが、オンライン広告における次の大きな課題となる。
プラットフォームは広告主の価値を最大化し、ユーザの満足度を確保することを目的としている。
本稿では, LLM の微調整やモデルウェイトへのアクセスなしに動作し, 計算資源の増加に伴い, プラットフォームが目的とする最適微調整 LLM の出力に確実に収束するオークション機構を提案する。
当社のメカニズムは,広告主にとって真正な報告が支配的な戦略であることを保証し,広告主の効用と社会福祉への貢献を両立させる。
さらに、広告主に関するコンテキスト情報を組み込むことができ、コンバージェンスを大幅に加速する。
公開されているLLMを用いた実験により,当社のメカニズムは,計算オーバーヘッドの少ない広告主の価値とプラットフォーム収益を著しく向上させることが示された。
当社のモチベーションアプリケーションはオンライン広告である一方、当社の仕組みは金銭的移転を伴うあらゆる場面で適用可能であり、LCM生成された返信よりも利己的なエージェントの選好を真に集約するための汎用的なソリューションである。
Online platforms generate hundreds of billions of dollars in revenue per year by showing advertisements alongside their own content. Currently, these platforms are integrating Large Language Models (LLMs) into their services. This makes revenue generation from LLM-generated content the next major challenge in online advertising. We consider a scenario where advertisers aim to influence the responses of an LLM to align with their interests, while platforms seek to maximize advertiser value and ensure user satisfaction. We introduce an auction mechanism for this problem that operates without LLM fine-tuning or access to model weights and provably converges to the output of the optimally fine-tuned LLM for the platform's objective as computational resources increase. Our mechanism ensures that truthful reporting is a dominant strategy for advertisers and it aligns each advertiser's utility with their contribution to social welfare - an essential feature for long-term viability. Additionally, it can incorporate contextual information about the advertisers, significantly accelerating convergence. Via experiments with a publicly available LLM, we show that our mechanism significantly boosts advertiser value and platform revenue, with low computational overhead. While our motivating application is online advertising, our mechanism can be applied in any setting with monetary transfers, making it a general-purpose solution for truthfully aggregating the preferences of self-interested agents over LLM-generated replies. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# LLMは医療現場の自己診断に利用できるか?
Can Public LLMs be used for Self-Diagnosis of Medical Conditions ? ( http://arxiv.org/abs/2405.11407v2 ) ライセンス: Link先を確認 | Nikil Sharan Prabahar Balasubramanian, Sagnik Dakshit, | (参考訳) 深層学習の進歩は、基礎的な深層学習モデルの開発に大きな関心を呼んだ。
LLM(Large Language Models)の開発は、会話タスクにおける変革的パラダイムとして発展し、医療の重要な領域においてさえその統合と拡張につながっている。
LLMが広く普及し、オープンソースモデルを通じてパブリックアクセスされ、他のアプリケーションと統合されるようになると、その可能性や制限を調査する必要がある。
LLMを適用するがより深い理解を必要とする重要な課題の1つは、公衆衛生の利益に偏りのある症状に基づく、医学的状態の自己診断である。
GeminiをGoogle検索と統合し、GPT-4.0をBing検索と統合することで、検索エンジンを用いた自己診断のトレンドを会話型LLMモデルにシフトさせた。
課題の批判的な性質から、自己診断の課題における公共LLMの可能性と限界を調査し、理解することが賢明である。
そこで本研究では,1万個のサンプルを自動生成したデータセットを作成し,自己診断の一般的な課題における性能を検証した。
自己診断作業におけるGPT-4.0と料金ゲミニモデルの性能を比較し,比較精度は63.07%,6.01%であった。
また,ジェミニとGPT-4.0の課題,限界,可能性についても論じ,今後の研究の促進と一般知識の広範な影響に向けた自己診断の課題について論じる。
さらに,検索補助生成を用いた自己診断タスクの性能向上と可能性を示す。
Advancements in deep learning have generated a large-scale interest in the development of foundational deep learning models. The development of Large Language Models (LLM) has evolved as a transformative paradigm in conversational tasks, which has led to its integration and extension even in the critical domain of healthcare. With LLMs becoming widely popular and their public access through open-source models and integration with other applications, there is a need to investigate their potential and limitations. One such crucial task where LLMs are applied but require a deeper understanding is that of self-diagnosis of medical conditions based on bias-validating symptoms in the interest of public health. The widespread integration of Gemini with Google search and GPT-4.0 with Bing search has led to a shift in the trend of self-diagnosis using search engines to conversational LLM models. Owing to the critical nature of the task, it is prudent to investigate and understand the potential and limitations of public LLMs in the task of self-diagnosis. In this study, we prepare a prompt engineered dataset of 10000 samples and test the performance on the general task of self-diagnosis. We compared the performance of both the state-of-the-art GPT-4.0 and the fee Gemini model on the task of self-diagnosis and recorded contrasting accuracies of 63.07% and 6.01%, respectively. We also discuss the challenges, limitations, and potential of both Gemini and GPT-4.0 for the task of self-diagnosis to facilitate future research and towards the broader impact of general public knowledge. Furthermore, we demonstrate the potential and improvement in performance for the task of self-diagnosis using Retrieval Augmented Generation. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# 多項目質問は効率的かつロバストなLCM評価器である
Multiple-Choice Questions are Efficient and Robust LLM Evaluators ( http://arxiv.org/abs/2405.11966v4 ) ライセンス: Link先を確認 | Ziyin Zhang, Zhaokun Jiang, Lizhen Xu, Hongkun Hao, Rui Wang, | (参考訳) 我々は60のオープンソースモデルから GSM8K の回答と誤予測を収集して構築した多重選択(MC)データセット GSM-MC を提案する。
広範にわたる実験により,このベンチマークのMCバージョンにおけるLCMの性能は,元のバージョンにおける性能と強く相関し,選択や選択肢の順序を逸脱させる可能性が高く,評価時間を最大30倍に短縮することを示した。
同様の手順に従って、MATHから構築したMATH-MCと、HumanEvalとMBPPから構築したMCデータセットを推論するPythonIOを紹介する。
実験結果から,これらのMCベンチマークにおけるLCMの性能は改善の余地がほとんどないことが示唆された。
私たちのデータとコードはhttps://github.com/Geralt-Targaryen/MC-Evaluation.comで公開されています。
We present GSM-MC, a multiple-choice (MC) dataset constructed by collecting answers and incorrect predictions on GSM8K from 60 open-source models. Through extensive experiments, we show that LLMs' performance on the MC version of this popular benchmark is strongly correlated with their performance on the original version and is quite robust to distractor choices and option orders, while the evaluation time is reduced by a factor of up to 30. Following similar procedures, we introduce MATH-MC, constructed from MATH, and PythonIO, a new program reasoning MC dataset constructed from HumanEval and MBPP. Experimental results indicate that LLMs' performance on these MC benchmarks leaves much room for improvement. Our data and code are available at https://github.com/Geralt-Targaryen/MC-Evaluation. | 翻訳日:2024-06-27 18:35:32 公開日:2024-06-26 |
# 超ティニー言語モデル
Super Tiny Language Models ( http://arxiv.org/abs/2405.14159v2 ) ライセンス: Link先を確認 | Dylan Hillier, Leon Guertler, Cheston Tan, Palaash Agrawal, Chen Ruirui, Bobby Cheng, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、自然言語処理の大幅な改善につながったが、高い計算量とエネルギー需要のため、課題も生じている。
本稿では,パラメータ数を大幅に削減して高い性能を実現することを目的とした,Super Tiny Language Models (STLM) に着目した一連の研究成果を紹介する。
我々は,プーリング機構によるバイトレベルのトークン化,ウェイトタイリング,効率的なトレーニング戦略など,革新的な手法を探求する。
これらの手法は従来のモデルと比較してパラメータ数を大幅に削減することを目的としています -- 今後の研究では、ベーストランスフォーマーモデルの性能を維持・改善する手段として、これらの上に構築することを目的としています。
この一連の論文は、トークンフリーモデル、セルフプレイベースのトレーニング、代替的なトレーニング目標など、さまざまなサブプロブレムについて検討する。
10M、50M、100Mパラメータのモデルをターゲットにします。
我々の最終的な目標は、広範囲のアプリケーションに対して、高性能な言語モデルをよりアクセスしやすく、実用的なものにすることです。
The rapid advancement of large language models (LLMs) has led to significant improvements in natural language processing but also poses challenges due to their high computational and energy demands. This paper introduces a series of research efforts focused on Super Tiny Language Models (STLMs), which aim to deliver high performance with significantly reduced parameter counts. We explore innovative techniques such as byte-level tokenization with a pooling mechanism, weight tying, and efficient training strategies. These methods aim to significantly reduce reduce the parameter count compared to traditional models -- in future works, we aim to build on these in a way that maintains and improves upon the performance of base transformer models. This series of papers will explore into various subproblems, including tokenizer-free models, self-play based training, and alternative training objectives. We will target models with 10M, 50M, and 100M parameters. Our ultimate goal is to make high-performance language models more accessible and practical for a wide range of applications. | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# GCondenser: グラフ凝縮のベンチマーク
GCondenser: Benchmarking Graph Condensation ( http://arxiv.org/abs/2405.14246v2 ) ライセンス: Link先を確認 | Yilun Liu, Ruihong Qiu, Zi Huang, | (参考訳) グラフ表現学習には大規模なグラフが有用であるが、これらのグラフの豊富なデータは、トレーニングプロセスの効率を妨げている。
グラフ凝縮(GC)は、大きなグラフを効果的なモデルトレーニングをサポートする非常に小さなグラフに圧縮することでこの問題を軽減する。
近年, 凝縮グラフの有効性向上のための様々な手法が提案されているが, 様々なGC手法による包括的, 実践的評価は無視されている。
本稿では,大規模グラフ凝縮ベンチマークGCondenserを提案する。
GCondenserには標準化されたGCパラダイムが含まれており、凝縮、バリデーション、評価手順で構成され、新しいGCメソッドやデータセットの拡張を可能にする。
GCondenserでは,既存の手法の有効性を示す総合的なパフォーマンススタディが実施されている。
GCondenserは、https://github.com/superallen13/GCondenserで公開されている。
Large-scale graphs are valuable for graph representation learning, yet the abundant data in these graphs hinders the efficiency of the training process. Graph condensation (GC) alleviates this issue by compressing the large graph into a significantly smaller one that still supports effective model training. Although recent research has introduced various approaches to improve the effectiveness of the condensed graph, comprehensive and practical evaluations across different GC methods are neglected. This paper proposes the first large-scale graph condensation benchmark, GCondenser, to holistically evaluate and compare mainstream GC methods. GCondenser includes a standardised GC paradigm, consisting of condensation, validation, and evaluation procedures, as well as enabling extensions to new GC methods and datasets. With GCondenser, a comprehensive performance study is conducted, presenting the effectiveness of existing methods. GCondenser is open-sourced and available at https://github.com/superallen13/GCondenser. | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# 動作中のアンテナポインティング補正の学習:ブラックボックスの効率的な校正
Learning Antenna Pointing Correction in Operations: Efficient Calibration of a Black Box ( http://arxiv.org/abs/2405.15247v2 ) ライセンス: Link先を確認 | Leif Bergerhoff, | (参考訳) ダウンタイムを必要としない運用アンテナシステムに対して,効率的なオフラインポインティングキャリブレーション手法を提案する。
提案手法は校正作業を最小限に抑え,地上局運用における監視・制御の目的で一般的に使用される技術信号情報を活用する。
標準アンテナインタフェースと運用衛星接触データを用いて,データセット生成をトレーニングするためのロバストな戦略を考案した。
この上に、線形回帰を用いて適切な座標変換のパラメータを学習する。
本実験では,実環境における提案手法の有用性を示す。
We propose an efficient offline pointing calibration method for operational antenna systems which does not require any downtime. Our approach minimizes the calibration effort and exploits technical signal information which is typically used for monitoring and control purposes in ground station operations. Using a standard antenna interface and data from an operational satellite contact, we come up with a robust strategy for training data set generation. On top of this, we learn the parameters of a suitable coordinate transform by means of linear regression. In our experiments, we show the usefulness of the method in a real-world setup. | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# MindStar: 推論時間における事前学習LDMにおける数学推論の強化
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time ( http://arxiv.org/abs/2405.16265v4 ) ライセンス: Link先を確認 | Jikun Kang, Xin Zhe Li, Xi Chen, Amirreza Kazemi, Qianyi Sun, Boxing Chen, Dong Li, Xu He, Quan He, Feng Wen, Jianye Hao, Jun Yao, | (参考訳) 大きな言語モデル(LLM)は様々なタスクで顕著なパフォーマンスを達成するが、数学的な疑問に答えるなど複雑な推論タスクに苦しむことが多い。
この問題に対処する最近の取り組みは、主に教師付き微調整技術や自己改善技術による数学的データセットの活用に焦点を当てている。
しかし、これらの手法は、しばしば準備が難しい高品質なデータセットに依存するか、あるいは微調整のためにかなりの計算資源を必要とする。
LLMが正しい答えを生成する方法を知っているが、正しい推論経路を選択するのに苦労しているという発見に触発されて、我々は純粋に推論に基づく探索手法であるMindStar (M*)を提案する。
本手法は,探索問題として推論タスクを定式化し,最適な推論経路を特定するための2つの探索アイデアを提案する。
GSM8KとMATHの両方のデータセット上でM*フレームワークを評価し,その性能を既存のオープンソースLLMと比較した。
その結果,M* は Llama-2-13B や Mistral-7B などのオープンソースモデルの推論能力を大幅に向上し,GPT-3.5 や Grok-1 に匹敵する性能が得られたが,モデルサイズや計算コストは大幅に削減された。
Although Large Language Models (LLMs) achieve remarkable performance across various tasks, they often struggle with complex reasoning tasks, such as answering mathematical questions. Recent efforts to address this issue have primarily focused on leveraging mathematical datasets through supervised fine-tuning or self-improvement techniques. However, these methods often depend on high-quality datasets that are difficult to prepare, or they require substantial computational resources for fine-tuning. Inspired by findings that LLMs know how to produce the right answer but struggle to select the correct reasoning path, we propose a purely inference-based searching method -- MindStar (M*). This method formulates reasoning tasks as searching problems and proposes two search ideas to identify the optimal reasoning paths. We evaluate the M* framework on both the GSM8K and MATH datasets, comparing its performance with existing open and closed-source LLMs. Our results demonstrate that M* significantly enhances the reasoning abilities of open-source models, such as Llama-2-13B and Mistral-7B, and achieves comparable performance to GPT-3.5 and Grok-1, but with substantially reduced model size and computational costs. | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# 分散スパース機械学習のためのGPU-Accelerated Bi-linear ADMMアルゴリズム
A GPU-Accelerated Bi-linear ADMM Algorithm for Distributed Sparse Machine Learning ( http://arxiv.org/abs/2405.16267v2 ) ライセンス: Link先を確認 | Alireza Olama, Andreas Lundell, Jan Kronqvist, Elham Ahmadi, Eduardo Camponogara, | (参考訳) 本稿では,計算ノードネットワーク上で定義された大規模正規化スパース機械学習(SML)問題を解くことを目的とした,Bi-cADMM(Bi-linear consensus Alternating Direction Method of Multipliers)を提案する。
数学的には、これらは大域的決定ベクトル上の凸局所損失関数の最小化問題であり、所望の間隔を強制するための明示的な$\ell_0$ノルム制約に従う。
検討されたSML問題は、スパース線形回帰やロジスティック回帰、スパースソフトマックス回帰、スパースサポートベクトルマシンなど、異なるスパース回帰と分類モデルを一般化する。
Bi-cADMMは、元の非凸SML問題の線形コンセンサス再構成と、並列計算に適する小さなサブプロブレムに問題を分割する階層的な分解戦略を利用する。
Bi-cADMMでは、この分解戦略は2相アプローチに基づいている。
最初はデータのサンプル分解を行い、ローカルデータセットを計算ノードに分散する。
その後、各ノードで利用可能なグラフィクス処理ユニット(GPU)上で、データの遅延機能分解が行われる。
この手法により、Bi-cADMMはGPU上で計算集約的なデータ中心計算を実行でき、CPUはよりコスト効率のよい計算を処理できる。
提案アルゴリズムは、Parallel Sparse Fitting Toolbox (PsFiT)と呼ばれるオープンソースのPythonパッケージで実装され、公開されている。
最後に,分散データセットを特徴とする各種SML問題に対する数値ベンチマークにより,アルゴリズムの効率性と拡張性を示す。
This paper introduces the Bi-linear consensus Alternating Direction Method of Multipliers (Bi-cADMM), aimed at solving large-scale regularized Sparse Machine Learning (SML) problems defined over a network of computational nodes. Mathematically, these are stated as minimization problems with convex local loss functions over a global decision vector, subject to an explicit $\ell_0$ norm constraint to enforce the desired sparsity. The considered SML problem generalizes different sparse regression and classification models, such as sparse linear and logistic regression, sparse softmax regression, and sparse support vector machines. Bi-cADMM leverages a bi-linear consensus reformulation of the original non-convex SML problem and a hierarchical decomposition strategy that divides the problem into smaller sub-problems amenable to parallel computing. In Bi-cADMM, this decomposition strategy is based on a two-phase approach. Initially, it performs a sample decomposition of the data and distributes local datasets across computational nodes. Subsequently, a delayed feature decomposition of the data is conducted on Graphics Processing Units (GPUs) available to each node. This methodology allows Bi-cADMM to undertake computationally intensive data-centric computations on GPUs, while CPUs handle more cost-effective computations. The proposed algorithm is implemented within an open-source Python package called Parallel Sparse Fitting Toolbox (PsFiT), which is publicly available. Finally, computational experiments demonstrate the efficiency and scalability of our algorithm through numerical benchmarks across various SML problems featuring distributed datasets. | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# 汎用インコンテキスト学習のベンチマーク
Benchmarking General-Purpose In-Context Learning ( http://arxiv.org/abs/2405.17234v5 ) ライセンス: Link先を確認 | Fan Wang, Chuan Lin, Yang Cao, Yu Kang, | (参考訳) In-context Learning (ICL) は、人工的な最適化技術に頼ることなく、生成モデルに新しいタスクを効果的かつ効率的に処理する権限を与える。
本稿では,より広い範囲のタスク,すなわち汎用インコンテクスト学習(GPICL)に対処するためのICLの拡張について検討する。
この目的のために、GPICLの機能のトレーニングと評価に特化した2つの軽量ベンチマークを導入する。
各ベンチマークには、大きなタスク分散を特徴とする膨大なタスクが含まれており、帰納的バイアスを最小限に抑えるメタトレーニングを促進する。
これらのタスクは、連続した生成と相互作用を通じて、コンテキスト内長期学習を促進するためにも使われる。
これらの特徴は、言語モデリング、意思決定、世界モデリングといった分野にまたがって、コンテキストと履歴の相互作用を活用する必要がある。
ベースラインモデルに対する我々の実験は、最小限の帰納バイアスとICLを基礎とするメタトレーニングが、私たちが議論したすべての領域で実現可能であることを示した。
さらに,ICLやGPICLにはパラメータのスケールだけでは重要ではない可能性が示唆され,コンテキストやメモリ状態のスケールの増加など,代替的なアプローチが提案されている。
In-context learning (ICL) empowers generative models to address new tasks effectively and efficiently on the fly, without relying on any artificially crafted optimization techniques. In this paper, we study extending ICL to address a broader range of tasks with an extended learning horizon and higher improvement potential, namely General-Purpose In-Context Learning (GPICL). To this end, we introduce two lightweight benchmarks specifically crafted to train and evaluate GPICL functionalities. Each benchmark encompasses a vast number of tasks characterized by significant task variance, facilitating meta-training that minimizes inductive bias. These tasks are also crafted to promote long-horizon in-context learning through continuous generation and interaction. These characteristics necessitate the models to leverage contexts and history interactions to enhance their capabilities, across domains such as language modeling, decision-making, and world modeling. Our experiments on the baseline models demonstrate that meta-training with minimal inductive bias and ICL from the ground up is feasible across all the domains we've discussed. Additionally, our findings indicate that the scale of parameters alone may not be crucial for ICL or GPICL, suggesting alternative approaches such as increasing the scale of contexts and memory states. | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# DoRA:動的ランク分布を考慮したパラメータ効率の良いファインチューニング
DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution ( http://arxiv.org/abs/2405.17357v3 ) ライセンス: Link先を確認 | Yulong Mao, Kaiyu Huang, Changhao Guan, Ganglin Bao, Fengran Mo, Jinan Xu, | (参考訳) 微調整された大規模な事前学習モデルは、本質的にリソース集約的なタスクである。
モデルの性能を高めることができるが、かなりの計算コストを発生させ、下流タスクの実践的な応用に挑戦する。
Low-Rank Adaptation (LoRA)のような既存のパラメータ効率の細かいチューニング(PEFT)手法は、ウェイト行列間の差分パラメータ予算要件を無視したバイパスフレームワークに依存しており、最適以下の微調整結果をもたらす可能性がある。
この問題に対処するために,動的低ランク適応法(DoRA)を導入する。
DoRAは、高いランクのLoRA層を構造化シングルランクのコンポーネントに分解し、トレーニング中の特定のタスクに重点を置いたパラメータ予算を動的に刈り取ることができる。
実験結果から,DoRAはLoRAやフルモデルファインチューニングと比較して競争性能が向上し,ストレージパラメータの予算が同じであれば,各種の強力なベースラインよりも優れることが示された。
私たちのコードはhttps://github.com/MIkumikumi0116/DoRAで利用可能です。
Fine-tuning large-scale pre-trained models is inherently a resource-intensive task. While it can enhance the capabilities of the model, it also incurs substantial computational costs, posing challenges to the practical application of downstream tasks. Existing parameter-efficient fine-tuning (PEFT) methods such as Low-Rank Adaptation (LoRA) rely on a bypass framework that ignores the differential parameter budget requirements across weight matrices, which may lead to suboptimal fine-tuning outcomes. To address this issue, we introduce the Dynamic Low-Rank Adaptation (DoRA) method. DoRA decomposes high-rank LoRA layers into structured single-rank components, allowing for dynamic pruning of parameter budget based on their importance to specific tasks during training, which makes the most of the limited parameter budget. Experimental results demonstrate that DoRA can achieve competitive performance compared with LoRA and full model fine-tuning, and outperform various strong baselines with the same storage parameter budget. Our code is available at https://github.com/MIkumikumi0116/DoRA | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# 深層学習に基づく水中画像強調に関する総合調査
A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning ( http://arxiv.org/abs/2405.19684v3 ) ライセンス: Link先を確認 | Xiaofeng Cong, Yu Zhao, Jie Gui, Junming Hou, Dacheng Tao, | (参考訳) 水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
今後の進歩を促進するため、いくつかの観点からUIEタスクの概要を詳述する。
まず,物理モデル,データ構築プロセス,評価指標,損失関数を紹介する。
次に, ネットワークアーキテクチャ, 学習戦略, 学習段階, 補助タスク, ドメイン・パースペクティブ, および非絡み合い融合の6つの側面を考慮し, 最近のアルゴリズムを分類し, 議論する。
第3に、既存の文献の様々な実験的な設定のため、包括的で偏見のない比較が現在利用できない。
これを解決するために、複数のベンチマークデータセットにまたがる最先端アルゴリズムの定量的および定性的な評価を行う。
最後に,UIEにおける今後の研究の要点を特定する。
UIEのリソースのコレクションは、https://github.com/YuZhao1999/UIE}にある。
Underwater image enhancement (UIE) presents a significant challenge within computer vision research. Despite the development of numerous UIE algorithms, a thorough and systematic review is still absent. To foster future advancements, we provide a detailed overview of the UIE task from several perspectives. Firstly, we introduce the physical models, data construction processes, evaluation metrics, and loss functions. Secondly, we categorize and discuss recent algorithms based on their contributions, considering six aspects: network architecture, learning strategy, learning stage, auxiliary tasks, domain perspective, and disentanglement fusion. Thirdly, due to the varying experimental setups in the existing literature, a comprehensive and unbiased comparison is currently unavailable. To address this, we perform both quantitative and qualitative evaluations of state-of-the-art algorithms across multiple benchmark datasets. Lastly, we identify key areas for future research in UIE. A collection of resources for UIE can be found at {https://github.com/YuZhao1999/UIE}. | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# Jina CLIP:あなたのCLIPモデルもテキストレトリバー
Jina CLIP: Your CLIP Model Is Also Your Text Retriever ( http://arxiv.org/abs/2405.20204v2 ) ライセンス: Link先を確認 | Andreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao, | (参考訳) Contrastive Language-Image Pretraining (CLIP) は、一般的な埋め込み空間における画像とテキストを固定サイズのベクトルにマッピングすることで、モデルをトレーニングするために広く使われている。
これらのモデルは、マルチモーダル情報検索および関連するタスクの鍵となる。
しかし、CLIPモデルは、通常、特殊なテキストモデルに比べてテキストのみのタスクではパフォーマンスが劣る。
これにより、テキストのみのタスクとマルチモーダルタスクの別々の埋め込みとモデルを保持する情報検索システムの非効率性が生じる。
本稿では,この問題に対処する新しいマルチタスクコントラストトレーニング手法を提案し,テキスト画像とテキストテキスト検索の両タスクにおける最先端性能を実現するために,jina-clip-v1モデルをトレーニングするために使用する。
Contrastive Language-Image Pretraining (CLIP) is widely used to train models to align images and texts in a common embedding space by mapping them to fixed-sized vectors. These models are key to multimodal information retrieval and related tasks. However, CLIP models generally underperform in text-only tasks compared to specialized text models. This creates inefficiencies for information retrieval systems that keep separate embeddings and models for text-only and multimodal tasks. We propose a novel, multi-task contrastive training method to address this issue, which we use to train the jina-clip-v1 model to achieve the state-of-the-art performance on both text-image and text-text retrieval tasks. | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# LLMにおける2つのペルソナ:ロールプレイングとパーソナライズに関する調査
Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization ( http://arxiv.org/abs/2406.01171v2 ) ライセンス: Link先を確認 | Yu-Min Tseng, Yu-Chao Huang, Teng-Yun Hsiao, Wei-Lin Chen, Chao-Wei Huang, Yu Meng, Yun-Nung Chen, | (参考訳) 対話文学で最初に採用されたペルソナの概念は、大きな言語モデル(LLM)を特定の文脈(例えばパーソナライズされた検索、LSM-as-a-judge)に合わせるための有望なフレームワークとして復活してきた。
しかし、LSMにおけるペルソナの活用に関する研究は、比較的非組織化されており、体系的な分類学が欠如している。
ギャップを埋めるために、フィールドの現状を分類するための総合的な調査を提示する。
LLMロールプレイング(LLMロールプレイング)、LLMパーソナライゼーション(LLMパーソナライゼーション)、LLMパーソナライゼーション(LLMパーソナライゼーション)という2つの研究の行を識別する。
さらに,LLMの人格評価のための既存手法についても紹介する。
本稿では,LLMにおけるロールプレイングとパーソナライズに関する最初の調査について,ペルソナの統一的な視点で紹介する。
私たちは、将来の取り組みを促進するために、紙コレクションを継続的に維持しています。
The concept of persona, originally adopted in dialogue literature, has re-surged as a promising framework for tailoring large language models (LLMs) to specific context (e.g., personalized search, LLM-as-a-judge). However, the growing research on leveraging persona in LLMs is relatively disorganized and lacks a systematic taxonomy. To close the gap, we present a comprehensive survey to categorize the current state of the field. We identify two lines of research, namely (1) LLM Role-Playing, where personas are assigned to LLMs, and (2) LLM Personalization, where LLMs take care of user personas. Additionally, we introduce existing methods for LLM personality evaluation. To the best of our knowledge, we present the first survey for role-playing and personalization in LLMs under the unified view of persona. We continuously maintain a paper collection to foster future endeavors: https://github.com/MiuLab/PersonaLLM-Survey | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# AIによるテキスト検出は対向的摂動に頑健か?
Are AI-Generated Text Detectors Robust to Adversarial Perturbations? ( http://arxiv.org/abs/2406.01179v2 ) ライセンス: Link先を確認 | Guanhua Huang, Yuchen Zhang, Zhe Li, Yongjian You, Mingze Wang, Zhouwang Yang, | (参考訳) 大規模言語モデル(LLM)の普及は、AI生成テキストの潜在的な誤用に対する懸念を引き起こしている。
AI生成テキスト(AIGT)の現在の検出器は、人間生成テキストとAI生成テキストを区別する際の逆転の原因となる文字や単語の微妙な変化など、敵の摂動に対する堅牢性に欠ける。
本稿では,既存のAIGT検出手法の堅牢性について検討し,新しい検出器であるシームズ校正再構成ネットワーク(SCRN)を導入する。
SCRNは、テキストからのノイズの追加と除去に再構成ネットワークを使用し、局所的な摂動に対して堅牢な意味表現を抽出する。
また、異なる雑音下でモデルが等しく信頼されるように訓練するためのシムズ校正手法を提案し、逆方向の摂動に対するモデルの頑健性を向上させる。
4つの公開データセットの実験により、SCRNは全てのベースライン法を上回り、6.5\%-18.25\%の絶対精度の向上を達成した。
さらに、クロスドメイン、クロスジャンル、ミックスソースのシナリオにおいて、優れた一般化性を示す。
コードは \url{https://github.com/CarlanLark/Robust-AIGC-Detector} で公開されている。
The widespread use of large language models (LLMs) has sparked concerns about the potential misuse of AI-generated text, as these models can produce content that closely resembles human-generated text. Current detectors for AI-generated text (AIGT) lack robustness against adversarial perturbations, with even minor changes in characters or words causing a reversal in distinguishing between human-created and AI-generated text. This paper investigates the robustness of existing AIGT detection methods and introduces a novel detector, the Siamese Calibrated Reconstruction Network (SCRN). The SCRN employs a reconstruction network to add and remove noise from text, extracting a semantic representation that is robust to local perturbations. We also propose a siamese calibration technique to train the model to make equally confidence predictions under different noise, which improves the model's robustness against adversarial perturbations. Experiments on four publicly available datasets show that the SCRN outperforms all baseline methods, achieving 6.5\%-18.25\% absolute accuracy improvement over the best baseline method under adversarial attacks. Moreover, it exhibits superior generalizability in cross-domain, cross-genre, and mixed-source scenarios. The code is available at \url{https://github.com/CarlanLark/Robust-AIGC-Detector}. | 翻訳日:2024-06-27 18:25:45 公開日:2024-06-26 |
# 潜在MDPにおけるRLはトラクタブルである:オフ・プライシ・アセスメントによるオンライン保証
RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation ( http://arxiv.org/abs/2406.01389v2 ) ライセンス: Link先を確認 | Jeongyeol Kwon, Shie Mannor, Constantine Caramanis, Yonathan Efroni, | (参考訳) 多くの実世界の決定問題では、部分的に観察された、隠された、あるいは潜伏した情報が、相互作用を通して固定されている。
このような決定問題は、遅延マルコフ決定過程(LMDP)としてモデル化することができ、遅延変数は相互作用の開始時に選択され、エージェントには開示されない。
過去10年間で、異なる構造的仮定の下でのLMDPの解法は著しく進歩した。
しかし、一般的なLMDPでは、既存の下界と確実に一致するような学習アルゴリズムは存在しない(Kwon et al , 2021)。
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
本研究は、LMDPにおける外部評価保証とカバレッジ係数の役割に関する新たな視点を、部分的に観察された環境における探索の文脈で見落としている視点から構築したものである。
具体的には,新たな非政治評価レムマを確立し,LMDPに対する新しいカバレッジ係数を導入する。
次に,これらの手法を用いて,楽観的な探索アルゴリズムの最適に近い保証を導出する方法を示す。
これらの結果は,LMDPを超えた幅広い対話型学習問題,特に部分的に観察された環境において有用であると考えられる。
In many real-world decision problems there is partially observed, hidden or latent information that remains fixed throughout an interaction. Such decision problems can be modeled as Latent Markov Decision Processes (LMDPs), where a latent variable is selected at the beginning of an interaction and is not disclosed to the agent. In the last decade, there has been significant progress in solving LMDPs under different structural assumptions. However, for general LMDPs, there is no known learning algorithm that provably matches the existing lower bound (Kwon et al., 2021). We introduce the first sample-efficient algorithm for LMDPs without any additional structural assumptions. Our result builds off a new perspective on the role of off-policy evaluation guarantees and coverage coefficients in LMDPs, a perspective, that has been overlooked in the context of exploration in partially observed environments. Specifically, we establish a novel off-policy evaluation lemma and introduce a new coverage coefficient for LMDPs. Then, we show how these can be used to derive near-optimal guarantees of an optimistic exploration algorithm. These results, we believe, can be valuable for a wide range of interactive learning problems beyond LMDPs, and especially, for partially observed environments. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# Xmodel-LM技術報告
Xmodel-LM Technical Report ( http://arxiv.org/abs/2406.02856v4 ) ライセンス: Link先を確認 | Yichuan Wang, Yang Liu, Yu Yan, Qun Wang, Xucheng Huang, Ling Jiang, | (参考訳) 約2兆個のトークンで事前トレーニングした,コンパクトで効率的な1.1B言語モデルであるXmodel-LMを紹介する。
ダウンストリームタスク最適化に基づいて、中国語と英語のコーパスのバランスをとる自己構築データセット(Xdata)に基づいて、Xmodel-LMは、そのサイズが小さいにもかかわらず、顕著なパフォーマンスを示す。
特に、同様の規模の既存のオープンソース言語モデルを上回っている。
私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelLMで公開されています。
We introduce Xmodel-LM, a compact and efficient 1.1B language model pre-trained on around 2 trillion tokens. Trained on our self-built dataset (Xdata), which balances Chinese and English corpora based on downstream task optimization, Xmodel-LM exhibits remarkable performance despite its smaller size. It notably surpasses existing open-source language models of similar scale. Our model checkpoints and code are publicly accessible on GitHub at https://github.com/XiaoduoAILab/XmodelLM. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# コンフォーマル回帰のための正規化流れ
Normalizing Flows for Conformal Regression ( http://arxiv.org/abs/2406.03346v2 ) ライセンス: Link先を確認 | Nicolo Colombo, | (参考訳) Conformal Prediction (CP)アルゴリズムは、ラベル付きデータに基づいて出力を校正することで予測モデルの不確実性を推定する。
同じキャリブレーション方式は、通常、変更なしにどんなモデルやデータにも適用される。
得られた予測間隔は、構成によって有効であるが、入力空間上に均一に分布しない場合、非効率、すなわち不要に大きい可能性がある。
キャリブレーション過程をトレーニングすることで、間隔をローカライズする一般的なスキームを提案する。
標準予測誤差は、オブジェクト属性に明示的に依存する最適化された距離メートル法に置き換えられる。
最適な計量を学ぶことは、エラーと入力の合同分布に作用する正規化フローを訓練するのと同じである。
PapadopoulosらによるError Reweighting CPアルゴリズム(2008年)とは異なり、このフレームワークは名目と経験的条件の妥当性のギャップを推定できる。
この手法は、キャリブレーションサンプルの再重み付けに基づく既存の局所適応型CP戦略と互換性があり、再トレーニングせずに任意の点予測モデルに適用できる。
Conformal Prediction (CP) algorithms estimate the uncertainty of a prediction model by calibrating its outputs on labeled data. The same calibration scheme usually applies to any model and data without modifications. The obtained prediction intervals are valid by construction but could be inefficient, i.e. unnecessarily big, if the prediction errors are not uniformly distributed over the input space. We present a general scheme to localize the intervals by training the calibration process. The standard prediction error is replaced by an optimized distance metric that depends explicitly on the object attributes. Learning the optimal metric is equivalent to training a Normalizing Flow that acts on the joint distribution of the errors and the inputs. Unlike the Error Reweighting CP algorithm of Papadopoulos et al. (2008), the framework allows estimating the gap between nominal and empirical conditional validity. The approach is compatible with existing locally-adaptive CP strategies based on re-weighting the calibration samples and applies to any point-prediction model without retraining. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# マルチエージェントの模倣学習: 価値は簡単,レグレトは難しい
Multi-Agent Imitation Learning: Value is Easy, Regret is Hard ( http://arxiv.org/abs/2406.04219v2 ) ライセンス: Link先を確認 | Jingwu Tang, Gokul Swamy, Fei Fang, Zhiwei Steven Wu, | (参考訳) 本研究では,エージェントのグループを協調させようとする学習者の視点を,専門家の実証に基づくマルチエージェント模倣学習(MAIL)問題として考察する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱に対する堅牢性は保証されない。
直感的には、これは戦略的な逸脱が反現実的な量に依存する可能性があるためである。
これに対し、マルコフゲームにおけるMAILの代替目的の研究を開始し、グループ内のエージェントによる潜在的な逸脱を明示的に説明する後悔のギャップを表現した。
まず、価値と後悔のギャップの関係を詳細に調査する。
まず、単一エージェントILアルゴリズムの直接拡張により、値ギャップを効率よく最小化できる一方で、値等価性さえも、任意に大きな後悔ギャップをもたらす可能性があることを示す。
これは、後悔の同値性を達成することは、MAILにおける価値同値性を達成することよりも難しいことを意味する。
そして、後悔のギャップを最小限に抑えることができるオンライン凸最適化を効率よく削減する。
(a)専門家(MALICE)又は
(b)クエリ可能なエキスパート(BLADES)へのアクセス。
We study a multi-agent imitation learning (MAIL) problem where we take the perspective of a learner attempting to coordinate a group of agents based on demonstrations of an expert doing so. Most prior work in MAIL essentially reduces the problem to matching the behavior of the expert within the support of the demonstrations. While doing so is sufficient to drive the value gap between the learner and the expert to zero under the assumption that agents are non-strategic, it does not guarantee robustness to deviations by strategic agents. Intuitively, this is because strategic deviations can depend on a counterfactual quantity: the coordinator's recommendations outside of the state distribution their recommendations induce. In response, we initiate the study of an alternative objective for MAIL in Markov Games we term the regret gap that explicitly accounts for potential deviations by agents in the group. We first perform an in-depth exploration of the relationship between the value and regret gaps. First, we show that while the value gap can be efficiently minimized via a direct extension of single-agent IL algorithms, even value equivalence can lead to an arbitrarily large regret gap. This implies that achieving regret equivalence is harder than achieving value equivalence in MAIL. We then provide a pair of efficient reductions to no-regret online convex optimization that are capable of minimizing the regret gap (a) under a coverage assumption on the expert (MALICE) or (b) with access to a queryable expert (BLADES). | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# 文書要約のためのキー要素インフォームドsLLMチューニング
Key-Element-Informed sLLM Tuning for Document Summarization ( http://arxiv.org/abs/2406.04625v2 ) ライセンス: Link先を確認 | Sangwon Ryu, Heejin Do, Yunsu Kim, Gary Geunbae Lee, Jungseul Ok, | (参考訳) 大きな言語モデル(LLM)の顕著な進歩により、高品質なテキスト要約が可能になった。
しかし、この機能は現在、かなりのサイズのLLMまたは使用料のプロプライエタリなLLMを通じてのみアクセス可能である。
これに対し、容易なアクセシビリティと低コストの小型LCM(sLLM)が広く研究されているが、特に入力ドキュメントが長い場合、キー情報やエンティティの欠落に悩まされることが多い。
そこで我々は,文書中のキー要素を識別し,これらのキー要素をキャプチャする要約を生成するためにsLLMを指示する,いわゆるKEITSumというキー要素インフォームド命令チューニングを提案する。
対話とニュースデータセットの実験結果から、KEITSumを用いたsLLMは、プロプライエタリなLLMと競合する、高い関連性と幻覚の少ない高品質な要約を提供することを示した。
Remarkable advances in large language models (LLMs) have enabled high-quality text summarization. However, this capability is currently accessible only through LLMs of substantial size or proprietary LLMs with usage fees. In response, smaller-scale LLMs (sLLMs) of easy accessibility and low costs have been extensively studied, yet they often suffer from missing key information and entities, i.e., low relevance, in particular, when input documents are long. We hence propose a key-element-informed instruction tuning for summarization, so-called KEITSum, which identifies key elements in documents and instructs sLLM to generate summaries capturing these key elements. Experimental results on dialogue and news datasets demonstrate that sLLM with KEITSum indeed provides high-quality summarization with higher relevance and less hallucinations, competitive to proprietary LLM. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# 一般配電学習 : ディープラーニングの理論的枠組み
General Distribution Learning: A theoretical framework for Deep Learning ( http://arxiv.org/abs/2406.05666v4 ) ライセンス: Link先を確認 | Binchuan Qi, Li Li, Wei Gong, | (参考訳) 古典的学習理論フレームワークには、深層学習(DL)に関する未解決の研究質問が数多く残されている。
これには、過度にパラメータ化されたニューラルネットワーク(NN)の顕著な一般化機能、目的の非凸性にもかかわらず効率的な最適化性能、一般化のためのフラットミニマのメカニズム、物理的な問題を解決するためのディープアーキテクチャの例外的なパフォーマンスが含まれる。
本稿では、分類、回帰、パラメータ推定を含む、機械学習と統計タスクの包括的範囲に対処するために設計された、新しい理論学習フレームワークであるGeneral Distribution Learning (GD Learning)を紹介する。
従来の統計機械学習とは別に、GD Learningは真の基礎となる分布に焦点を当てている。
GD Learningでは、古典的な統計学習フレームワークにおける予測誤差に対応する学習誤差を、モデルとアルゴリズムによる適合エラーと、限られたサンプリングデータによって導入されたサンプリングエラーに分割する。
このフレームワークは、特にデータ不足を特徴とするシナリオにおいて、事前の知識を著しく取り入れ、パフォーマンスを向上させる。
GD Learningフレームワーク内では、モデルヤコビ行列の固有値の勾配ノルムと不均一性を最小化することにより、非凸最適化における大域的最適解にアプローチできることを実証する。
この知見は勾配構造制御アルゴリズムの開発に繋がる。
GD Learningはまた、オーバーパラメータ化や非凸最適化、バイアス分散トレードオフ、フラットミニマのメカニズムなど、ディープラーニングに関する新たな洞察を提供する。
There remain numerous unanswered research questions on deep learning (DL) within the classical learning theory framework. These include the remarkable generalization capabilities of overparametrized neural networks (NNs), the efficient optimization performance despite non-convexity of objectives, the mechanism of flat minima for generalization, and the exceptional performance of deep architectures in solving physical problems. This paper introduces General Distribution Learning (GD Learning), a novel theoretical learning framework designed to address a comprehensive range of machine learning and statistical tasks, including classification, regression and parameter estimation. Departing from traditional statistical machine learning, GD Learning focuses on the true underlying distribution. In GD Learning, learning error, corresponding to the expected error in classical statistical learning framework, is divided into fitting errors due to models and algorithms, as well as sampling errors introduced by limited sampling data. The framework significantly incorporates prior knowledge, especially in scenarios characterized by data scarcity, thereby enhancing performance. Within the GD Learning framework, we demonstrate that the global optimal solutions in non-convex optimization can be approached by minimizing the gradient norm and the non-uniformity of the eigenvalues of the model's Jacobian matrix. This insight leads to the development of the gradient structure control algorithm. GD Learning also offers fresh insights into the questions on deep learning, including overparameterization and non-convex optimization, bias-variance trade-off, and the mechanism of flat minima. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# RGB-Sonar Tracking ベンチマークと空間的クロスアテンション・トランストラッカ
RGB-Sonar Tracking Benchmark and Spatial Cross-Attention Transformer Tracker ( http://arxiv.org/abs/2406.07189v3 ) ライセンス: Link先を確認 | Yunfeng Li, Bo Wang, Jiuran Sun, Xueyi Wu, Ye Li, | (参考訳) 視覚カメラとソナーは自然に水中環境において補完的である。
2つのモードからの情報を組み合わせることで、水中の目標をよりよく観測することができる。
しかし、この問題はこれまでの研究では十分に注目されていない。
そこで本研究では,RGB-Sonar (RGB-S) トラッキングタスクを新たに導入し,RGBとソナーの相互作用による水中目標の効率的な追跡を実現する方法について検討する。
具体的には,50のシーケンスと87000以上の高品質な注釈付きバウンディングボックスを含むRGBS50ベンチマークデータセットを提案する。
実験の結果、RGBS50ベンチマークが現在人気の高いSOTトラッカーに挑戦していることが示された。
第2に,新しい空間的クロスアテンション層と2つの独立したグローバル統合モジュールからなる空間的クロスアテンションモジュール(SCAM)を含む,SCANetと呼ばれるRGB-Sトラッカーを提案する。
空間的相互アテンションは、RGB画像とソナー画像の空間的ミスアライメントの問題を克服するために用いられる。
第3に、RGB-Sトレーニングデータセットの欠如を克服するために、SOTデータに基づくRGB-Sシミュレーショントレーニング手法(SRST)を提案する。
RGBイメージをソナーライクなサリエンシイメージに変換して擬似データペアを構築することで、モデルがRGB-Sライクなデータのセマンティック構造を学習できるようにする。
包括的実験により,提案手法はRGBとソナーモードの相互作用を効果的に達成し,SCANetは提案したベンチマークで最先端の性能を達成することが示された。
コードはhttps://github.com/LiYunfengLYF/RGBS50で入手できる。
Vision camera and sonar are naturally complementary in the underwater environment. Combining the information from two modalities will promote better observation of underwater targets. However, this problem has not received sufficient attention in previous research. Therefore, this paper introduces a new challenging RGB-Sonar (RGB-S) tracking task and investigates how to achieve efficient tracking of an underwater target through the interaction of RGB and sonar modalities. Specifically, we first propose an RGBS50 benchmark dataset containing 50 sequences and more than 87000 high-quality annotated bounding boxes. Experimental results show that the RGBS50 benchmark poses a challenge to currently popular SOT trackers. Second, we propose an RGB-S tracker called SCANet, which includes a spatial cross-attention module (SCAM) consisting of a novel spatial cross-attention layer and two independent global integration modules. The spatial cross-attention is used to overcome the problem of spatial misalignment of between RGB and sonar images. Third, we propose a SOT data-based RGB-S simulation training method (SRST) to overcome the lack of RGB-S training datasets. It converts RGB images into sonar-like saliency images to construct pseudo-data pairs, enabling the model to learn the semantic structure of RGB-S-like data. Comprehensive experiments show that the proposed spatial cross-attention effectively achieves the interaction between RGB and sonar modalities and SCANet achieves state-of-the-art performance on the proposed benchmark. The code is available at https://github.com/LiYunfengLYF/RGBS50. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# タンパク質言語モデルは最適か?
Are Protein Language Models Compute Optimal? ( http://arxiv.org/abs/2406.07249v2 ) ライセンス: Link先を確認 | Yaiza Serrano, Álvaro Ciudad, Alexis Molina, | (参考訳) タンパク質言語モデル (pLMs) は生物学的研究に変化をもたらしたが、その改善を規定するスケーリング法則は未解明のままである。
NLPスケーリング法則からの方法論の適用により,固定された計算予算内でのモデルパラメータとトレーニングトークンの最適比を検討した。
本研究は,pLMサイズが計算予算に比例してスケールし,モデルサイズが大きくなるにつれて性能が低下することを示した。
以上の結果から,広く使用されているpLMは計算最適ではない可能性が示唆され,より大きなモデルの方がより効率的に収束できる可能性が示唆された。
トークンセットの縮小で35Mモデルをトレーニングし,ESM-2 (15B) や xTrimoPGLM (100B) のような大規模モデルに匹敵する複雑な結果を得た。
この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
While protein language models (pLMs) have transformed biological research, the scaling laws governing their improvement remain underexplored. By adapting methodologies from NLP scaling laws, we investigated the optimal ratio between model parameters and training tokens within a fixed compute budget. Our study reveals that pLM sizes scale sublinearly with compute budget, showing diminishing returns in performance as model size increases, and we identify a performance plateau in training loss comparable to the one found in relevant works in the field. Our findings suggest that widely-used pLMs might not be compute-optimal, indicating that larger models could achieve convergence more efficiently. Training a 35M model on a reduced token set, we attained perplexity results comparable to larger models like ESM-2 (15B) and xTrimoPGLM (100B) with a single dataset pass. This work paves the way towards more compute-efficient pLMs, democratizing their training and practical application in computational biology. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# 3次元視覚言語推論における状況認識
Situational Awareness Matters in 3D Vision Language Reasoning ( http://arxiv.org/abs/2406.07544v2 ) ライセンス: Link先を確認 | Yunze Man, Liang-Yan Gui, Yu-Xiong Wang, | (参考訳) 3D空間で複雑な視覚言語推論タスクを実行できることは、家庭用ロボットや人間中心のAIを開発する上で重要なマイルストーンとなる。
本研究では,3次元視覚言語推論における重要な課題として,(1)自律エージェントが言語プロンプトに基づいて自己配置を行うという2つの重要な要素を取り入れた状況認識があることを実証する。
2) エージェントは, 計算された位置の観点から, オープンエンドの質問に答える。
この課題に対処するために,3次元視覚言語推論のためのエンドツーエンドの状況認識モデルであるSIG3Dを紹介する。
我々は,3Dシーンをスパースボクセル表現にトークン化し,言語基底の状況推定器を提案し,次いで質問応答モジュールを定位する。
SQA3DとScanQAデータセットの実験では、SIG3Dは、状況推定と質問応答において、大きなマージン(例えば、状況推定精度の30%以上向上)で最先端のモデルより優れていた。
その後の分析は、アーキテクチャ設計の選択を裏付け、視覚的およびテキスト的トークンの異なる機能を探究し、3次元質問応答の領域における状況認識の重要性を強調します。
Being able to carry out complicated vision language reasoning tasks in 3D space represents a significant milestone in developing household robots and human-centered embodied AI. In this work, we demonstrate that a critical and distinct challenge in 3D vision language reasoning is situational awareness, which incorporates two key components: (1) The autonomous agent grounds its self-location based on a language prompt. (2) The agent answers open-ended questions from the perspective of its calculated position. To address this challenge, we introduce SIG3D, an end-to-end Situation-Grounded model for 3D vision language reasoning. We tokenize the 3D scene into sparse voxel representation and propose a language-grounded situation estimator, followed by a situated question answering module. Experiments on the SQA3D and ScanQA datasets show that SIG3D outperforms state-of-the-art models in situation estimation and question answering by a large margin (e.g., an enhancement of over 30% on situation estimation accuracy). Subsequent analysis corroborates our architectural design choices, explores the distinct functions of visual and textual tokens, and highlights the importance of situational awareness in the domain of 3D question answering. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# CIMRL: 安全な自動運転のためのシミュレーションと強化学習を組み合わせる
CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving ( http://arxiv.org/abs/2406.08878v3 ) ライセンス: Link先を確認 | Jonathan Booher, Khashayar Rohanimanesh, Junhong Xu, Vladislav Isenbaev, Ashwin Balakrishna, Ishan Gupta, Wei Liu, Aleksandr Petiushko, | (参考訳) 現代の自動運転のアプローチは、模倣学習を通じて大量の人間の運転データで訓練された学習されたコンポーネントに大きく依存している。
しかし、これらの手法には大量の高価なデータ収集が必要であり、ロングテールシナリオを安全に処理し、時間とともにエラーを複雑化するという課題に直面している。
同時に、純粋な強化学習(RL)手法は、運転のような報酬設定を疎外し、制約し、かつ決定し難いパフォーマンスポリシーを学習することができない。
これらの課題はどちらも、自動運転車のような安全上重要なアプリケーションに、純粋にクローン化されたポリシーを展開させる。
本稿では,模倣動作の先行と安全性制約を活用することで,シミュレーションにおける運転方針のトレーニングを可能にするCIMRL(Combining imitation and Reinforcement Learning)アプローチを提案する。
CIMRLは広範な報酬仕様を必要とせず、純粋なクローンメソッドの閉ループ挙動を改善している。
RLと模倣を組み合わせることで,本手法は閉ループシミュレーション駆動ベンチマークにおいて最先端の結果が得られることを示す。
Modern approaches to autonomous driving rely heavily on learned components trained with large amounts of human driving data via imitation learning. However, these methods require large amounts of expensive data collection and even then face challenges with safely handling long-tail scenarios and compounding errors over time. At the same time, pure Reinforcement Learning (RL) methods can fail to learn performant policies in sparse, constrained, and challenging-to-define reward settings like driving. Both of these challenges make deploying purely cloned policies in safety critical applications like autonomous vehicles challenging. In this paper we propose Combining IMitation and Reinforcement Learning (CIMRL) approach - a framework that enables training driving policies in simulation through leveraging imitative motion priors and safety constraints. CIMRL does not require extensive reward specification and improves on the closed loop behavior of pure cloning methods. By combining RL and imitation, we demonstrate that our method achieves state-of-the-art results in closed loop simulation driving benchmarks. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# 千論:長文物語におけるリッチキャラクタ表現
CHIRON: Rich Character Representations in Long-Form Narratives ( http://arxiv.org/abs/2406.10190v2 ) ライセンス: Link先を確認 | Alexander Gurung, Mirella Lapata, | (参考訳) キャラクタは長文物語に不可欠なものであるが、既存の物語分析・生成システムでは理解されていない。
従来の作業では,グラフベースの手法や簡単な文字記述による文字の簡略化が見られたが,プロのライターへのアドバイスからヒントを得て,複雑な文字を表現するという課題に対処することを目的としている。
文字に関するテキスト情報を整理・フィルタリングする「文字シート」に基づく表現であるCHIRONを提案する。
質問応答による文字情報にLLMを誘導するジェネレーションモジュールと,自動推論とドメイン固有包絡モデルを用いて文字に関する偽事実を除去するバリデーションモジュールの2つのステップで構築する。
実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。
また,CHIRONから派生した指標を用いて,物語のキャラクター中心性を自動的に推定し,これらの指標が人間の判断と一致することを示す。
Characters are integral to long-form narratives, but are poorly understood by existing story analysis and generation systems. While prior work has simplified characters via graph-based methods and brief character descriptions, we aim to better tackle the problem of representing complex characters by taking inspiration from advice given to professional writers. We propose CHIRON, a new `character sheet' based representation that organizes and filters textual information about characters. We construct CHIRON sheets in two steps: a Generation Module that prompts an LLM for character information via question-answering and a Validation Module that uses automated reasoning and a domain-specific entailment model to eliminate false facts about a character. We validate CHIRON via the downstream task of masked-character prediction, where our experiments show CHIRON is better and more flexible than comparable summary-based baselines. We also show that metrics derived from CHIRON can be used to automatically infer character-centricity in stories, and that these metrics align with human judgments. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# ニュースイベント検出のための大規模言語モデル強化クラスタリング
Large Language Model Enhanced Clustering for News Event Detection ( http://arxiv.org/abs/2406.10552v2 ) ライセンス: Link先を確認 | Adane Nega Tarekegn, | (参考訳) ニュースの世界は継続的に進化し続けており、世界中の情報が増え続けている。
この巨大なデータリポジトリ内のイベントの自動検出は、さまざまなプラットフォーム間で重要なニュースを監視、識別、分類するために不可欠である。
本稿では,大規模言語モデル(LLM)とクラスタリング分析を組み合わせて,GDELT(Global Database of Events, Language, and Tone)からニュースイベントを検出するイベント検出フレームワークを提案する。
このフレームワークは、イベント検出タスク(キーワード抽出とテキスト埋め込み)と後検出タスク(イベント要約とトピックラベリング)の両方を通じてイベントクラスタリングを強化する。
また、各種テキスト埋め込みがクラスタリング結果の質に及ぼす影響を評価し、ロバストなニュース分類を確実にする。
さらに,クラスタリング結果の有効性とロバスト性を評価するために,新しいクラスタ安定性評価指標(CSAI)を導入する。
CSAIは遅延特徴ベクトルを用いてクラスタリングの品質を計測する新しい方法を提供する。
実験の結果,LCMの埋め込みとクラスタリングアルゴリズムを組み合わせることで,CSAIスコアがより堅牢であることを示す。
さらに、イベント検出タスクは意味のある洞察を生成し、イベントクラスタリング結果の効果的な解釈を容易にする。
実験結果から,提案フレームワークは貴重な洞察を与え,ニュースレポートの精度と深度を向上する可能性が示唆された。
The news landscape is continuously evolving, with an ever-increasing volume of information from around the world. Automated event detection within this vast data repository is essential for monitoring, identifying, and categorizing significant news occurrences across diverse platforms. This paper presents an event detection framework that leverages Large Language Models (LLMs) combined with clustering analysis to detect news events from the Global Database of Events, Language, and Tone (GDELT). The framework enhances event clustering through both pre-event detection tasks (keyword extraction and text embedding) and post-event detection tasks (event summarization and topic labeling). We also evaluate the impact of various textual embeddings on the quality of clustering outcomes, ensuring robust news categorization. Additionally, we introduce a novel Cluster Stability Assessment Index (CSAI) to assess the validity and robustness of clustering results. CSAI utilizes latent feature vectors to provide a new way of measuring clustering quality. Our experiments indicate that combining LLM embeddings with clustering algorithms yields the best results, demonstrating greater robustness in terms of CSAI scores. Moreover, post-event detection tasks generate meaningful insights, facilitating effective interpretation of event clustering results. Overall, our experimental results indicate that the proposed framework offers valuable insights and could enhance the accuracy and depth of news reporting. | 翻訳日:2024-06-27 18:16:00 公開日:2024-06-26 |
# LLMにおける脱獄事件の理解に向けて--表現空間分析
Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis ( http://arxiv.org/abs/2406.10794v2 ) ライセンス: Link先を確認 | Yuping Lin, Pengfei He, Han Xu, Yue Xing, Makoto Yamada, Hui Liu, Jiliang Tang, | (参考訳) 大規模言語モデル(LLM)は、有害な内容を出力するためにLLMを誤解させるジェイルブレーキング(jailbreaking)と呼ばれるタイプの攻撃を受けやすい。
多様なジェイルブレイク攻撃戦略があるが、なぜある方法が成功し、他の方法が失敗するのかについての統一的な理解はない。
本稿では, LLMの表現空間における有害かつ無害なプロンプトの挙動を考察し, ジェイルブレイク攻撃の本質的特性について検討する。
彼らは有害なプロンプトの表現を有害なプロンプトから無害なプロンプトへと移動させるのに効果的である。
我々は、既存のジェイルブレイク攻撃の目的に隠された表現を活用して、受け入れ方向に沿って攻撃を移動させ、提案した目的を用いて上記の仮説を検証する実験を行う。
この研究は、LSMが有害情報をどのように理解するかを理解するための新たな洞察を与えてくれることを願っている。
Large language models (LLMs) are susceptible to a type of attack known as jailbreaking, which misleads LLMs to output harmful contents. Although there are diverse jailbreak attack strategies, there is no unified understanding on why some methods succeed and others fail. This paper explores the behavior of harmful and harmless prompts in the LLM's representation space to investigate the intrinsic properties of successful jailbreak attacks. We hypothesize that successful attacks share some similar properties: They are effective in moving the representation of the harmful prompt towards the direction to the harmless prompts. We leverage hidden representations into the objective of existing jailbreak attacks to move the attacks along the acceptance direction, and conduct experiments to validate the above hypothesis using the proposed objective. We hope this study provides new insights into understanding how LLMs understand harmfulness information. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# 低資源シナリオ下でのLLMはどの程度優れているか? 総合的評価
How Good are LLMs at Relation Extraction under Low-Resource Scenario? Comprehensive Evaluation ( http://arxiv.org/abs/2406.11162v2 ) ライセンス: Link先を確認 | Dawulie Jinensibieke, Mieradilijiang Maimaiti, Wentao Xiao, Yuanhang Zheng, Xiaobo Wang, | (参考訳) 関係抽出(RE)は、構造化されていないテキストを構造化情報に変換する重要な技術として、特に知識グラフ開発における枠組みの中で機能する。
その重要性は、下流の様々なタスクにおける重要な役割によって強調されている。
ニューラルネットワークと事前学習言語モデルに基づく従来のRE法に加えて、大規模な言語モデル(LLM)もREの研究分野で活用されている。
しかし、低リソース言語(LRL)では、データ不足の問題により、従来のRE法とLLMベースの手法の両方がReに対して不十分に動作する。
そこで本研究では,3つの地域(中央アジア,東南アジア,中東)において,低リソース関係抽出データセットを10LRLで構築する。
コーパスは、有効な多言語機械翻訳を使用して、オリジナルの公開可能な英語REデータセット(NYT10、FewRel、CrossRE)を翻訳することで構築される。
次に、言語パープレキシティ(PPL)を使用して、翻訳されたデータセットから低品質データをフィルタリングする。
最後に、これらの生成されたLRL REデータセット上で、実験的な研究を行い、複数のオープンソースLLMの性能を検証した。
Relation Extraction (RE) serves as a crucial technology for transforming unstructured text into structured information, especially within the framework of Knowledge Graph development. Its importance is emphasized by its essential role in various downstream tasks. Besides the conventional RE methods which are based on neural networks and pre-trained language models, large language models (LLMs) are also utilized in the research field of RE. However, on low-resource languages (LRLs), both conventional RE methods and LLM-based methods perform poorly on RE due to the data scarcity issues. To this end, this paper constructs low-resource relation extraction datasets in 10 LRLs in three regions (Central Asia, Southeast Asia and Middle East). The corpora are constructed by translating the original publicly available English RE datasets (NYT10, FewRel and CrossRE) using an effective multilingual machine translation. Then, we use the language perplexity (PPL) to filter out the low-quality data from the translated datasets. Finally, we conduct an empirical study and validate the performance of several open-source LLMs on these generated LRL RE datasets. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# ChatGPTは、禁止されている国では科学にもっと使われる
Where there's a will there's a way: ChatGPT is used more for science in countries where it is prohibited ( http://arxiv.org/abs/2406.11583v3 ) ライセンス: Link先を確認 | Honglin Bao, Mengyi Sun, Misha Teplitskiy, | (参考訳) AIの規制は重要な社会的課題であるが、どの規制方法が効果的かは不明だ。
本研究は、ChatGPTに着目し、地理的にAIサービスを制限する効果を測定する。
OpenAIは中国やロシアを含むいくつかの国でChatGPTアクセスを制限している。
制限が有効であれば、これらの国ではChatGPTの使用は最小限にすべきである。
そこで我々は,ChatGPTの初期バージョンに見られる特徴的単語使用量に基づく分類器を用いて,その使用量を測定した。
我々は、ChatGPTの事前およびポストChatGPTの「ポリケート」抽象化に基づいて分類器を訓練し、自己報告されたAI使用論文を含む検証セットにおいて、GPTZeroとZeroGPTよりも優れた性能を示した。
Arxiv、BioRxiv、MedRxivのプリプリントに分類器を適用すると、2023年8月までにChatGPTが約12.6%使用され、制限された国では7.7%高用量であった。
このギャップは、中国の最初の主要な法的LLMが広く利用できるようになる前に現れた。
高い需要のため、制限のない国での使用がさらに増加していた可能性をテストするため、高い需要のアジア諸国(英語は公用語ではない)を比較し、制限のある国では使用が増加していた。
ChatGPTの使用は、より高いビューやダウンロードと相関していたが、引用やジャーナルの配置は行わなかった。
全体として、ChatGPTを地理的に制限することは、おそらく広範囲にわたる回避策のために、科学や他の分野では効果がないことが証明されている。
Regulating AI is a key societal challenge, but which regulation methods are effective is unclear. This study measures the effectiveness of restricting AI services geographically, focusing on ChatGPT. OpenAI restricts ChatGPT access in several countries, including China and Russia. If restrictions are effective, ChatGPT use should be minimal in these countries. We measured use with a classifier based on distinctive word usage found in early versions of ChatGPT, e.g. "delve." We trained the classifier on pre- and post-ChatGPT "polished" abstracts and found it outperformed GPTZero and ZeroGPT on validation sets, including papers with self-reported AI use. Applying the classifier to preprints from Arxiv, BioRxiv, and MedRxiv showed ChatGPT was used in about 12.6% of preprints by August 2023, with 7.7% higher usage in restricted countries. The gap appeared before China's first major legal LLM became widely available. To test the possibility that, due to high demand, use in restricted countries would have been even higher without restrictions, we compared Asian countries with high expected demand (where English is not an official language) and found that use was higher in those with restrictions. ChatGPT use was correlated with higher views and downloads, but not citations or journal placement. Overall, restricting ChatGPT geographically has proven ineffective in science and possibly other domains, likely due to widespread workarounds. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# GoogleのChrome反トラストのパラドックス
Google's Chrome Antitrust Paradox ( http://arxiv.org/abs/2406.11856v2 ) ライセンス: Link先を確認 | Shaoor Munir, Konrad Kollnig, Anastasia Shuba, Zubair Shafiq, | (参考訳) この記事では、Googleのブラウザ市場における優位性について述べ、GoogleのChromeブラウザが、他の市場におけるGoogleの優位性を主張する上で、いかに重要な役割を担っているかを強調します。
Googleは、Google Chromeはオープンソース技術上に構築された中立的なプラットフォームである、と認識しているが、我々は、Chromeはオンライン広告、パブリッシング、ブラウザ市場自体におけるその優位性を強化するGoogleの戦略に欠かせないと論じている。
Googleの戦略的買収、反競争的プラクティス、いわゆる"プライバシコントロール"の実装に関する調査では、ChromeがWebへの中立的なゲートウェイには程遠いことが示されています。
むしろGoogleは、競争とイノベーションを損なうために、市場力を維持、拡張するための重要なツールとして機能する。
われわれは、ChromeがGoogleの広告とパブリッシングにおける地位を、強制や自己紹介などのプラクティスを通じて強化するだけでなく、Googleの市場管理戦略の基盤となる"pay-to-play"パラダイムに広告のクロートを活用するのにも役立っているかを検討する。
我々はまた、歴史的反トラストの先例を参考に、規制の介入や改善の可能性についても論じる。
我々は、GoogleがChromeを悪用しているという分析から動機付けられた3つのソリューションを提案する: 特定の反競争的なプラクティスをターゲットにした行動的改善、Googleの部門を内部的に分離する構造的改善、GoogleからのChromeの離脱。
Chromeの優位性とGoogleのエコシステムにおける重要な役割にもかかわらず、反トラストの精査から逃れた。
このギャップに対処することは、イノベーションを育み、消費者の利益を守り、競争力のあるデジタル環境を確保することによる、現在の市場の不均衡と将来の課題を解決するのに役立ちます。
This article delves into Google's dominance of the browser market, highlighting how Google's Chrome browser is playing a critical role in asserting Google's dominance in other markets. While Google perpetuates the perception that Google Chrome is a neutral platform built on open-source technologies, we argue that Chrome is instrumental in Google's strategy to reinforce its dominance in online advertising, publishing, and the browser market itself. Our examination of Google's strategic acquisitions, anti-competitive practices, and the implementation of so-called "privacy controls," shows that Chrome is far from a neutral gateway to the web. Rather, it serves as a key tool for Google to maintain and extend its market power, often to the detriment of competition and innovation. We examine how Chrome not only bolsters Google's position in advertising and publishing through practices such as coercion, and self-preferencing, it also helps leverage its advertising clout to engage in a "pay-to-play" paradigm, which serves as a cornerstone in Google's larger strategy of market control. We also discuss potential regulatory interventions and remedies, drawing on historical antitrust precedents. We propose a triad of solutions motivated from our analysis of Google's abuse of Chrome: behavioral remedies targeting specific anti-competitive practices, structural remedies involving an internal separation of Google's divisions, and divestment of Chrome from Google. Despite Chrome's dominance and its critical role in Google's ecosystem, it has escaped antitrust scrutiny -- a gap our article aims to bridge. Addressing this gap is instrumental to solve current market imbalances and future challenges brought on by increasingly hegemonizing technology firms, ensuring a competitive digital environment that nurtures innovation and safeguards consumer interests. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# スロット状態空間モデル
Slot State Space Models ( http://arxiv.org/abs/2406.12272v3 ) ライセンス: Link先を確認 | Jindong Jiang, Fei Deng, Gautam Singh, Minseung Lee, Sungjin Ahn, | (参考訳) S4、S5、Mambaのような最近の状態空間モデル(SSM)は、長距離時間依存性モデリングにおいて顕著な計算上の利点を示している。
しかし、多くのシーケンスモデリング問題において、基礎となるプロセスは本質的にモジュラーであり、このモジュラー構造を模倣する帰納的バイアスを持つことは興味深い。
本稿では,情報分離の維持・促進を目的として,独立したメカニズムをSSMに組み込む新しいフレームワークであるSlotSSMを紹介する。
モノリシックな状態ベクトルを保持する従来のSSMとは異なり、SlotSSMはスロットと呼ばれる複数のベクトルの集合として状態を維持する。
重要なことは、状態遷移はスロットごとに独立に行われ、自己注意のボトルネックを通じて実装されたスロット間の疎相互作用である。
実験では,オブジェクト中心の映像理解,3次元視覚推論,映像予測タスクにおいて,複数のオブジェクトとその長距離時間依存性のモデル化を含むモデルを評価する。
提案手法は,既存のシーケンス・モデリング手法に比べて性能が大幅に向上することがわかった。
Recent State Space Models (SSMs) such as S4, S5, and Mamba have shown remarkable computational benefits in long-range temporal dependency modeling. However, in many sequence modeling problems, the underlying process is inherently modular and it is of interest to have inductive biases that mimic this modular structure. In this paper, we introduce SlotSSMs, a novel framework for incorporating independent mechanisms into SSMs to preserve or encourage separation of information. Unlike conventional SSMs that maintain a monolithic state vector, SlotSSMs maintains the state as a collection of multiple vectors called slots. Crucially, the state transitions are performed independently per slot with sparse interactions across slots implemented via the bottleneck of self-attention. In experiments, we evaluate our model in object-centric video understanding, 3D visual reasoning, and video prediction tasks, which involve modeling multiple objects and their long-range temporal dependencies. We find that our proposed design offers substantial performance gains over existing sequence modeling methods. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# 量子自己持続振動子の極限サイクルへの進化ダイナミクス
Evolution Dynamics Toward the Limit Cycle of a Quantum Self-Sustained Oscillator ( http://arxiv.org/abs/2406.12337v2 ) ライセンス: Link先を確認 | Hendry M. Lim, Donny Dwiputra, M Shoufie Ukhtary, Ahmad R. T. Nugraha, | (参考訳) 量子自己持続振動子のリミットサイクルへと進化する際の力学は、量子同期のような関連する問題を解くのに有用であるが、十分に研究されていない。
本稿では、フォック、熱、コヒーレント状態から始まる準調和極限サイクルを示す自己持続型発振器の最も単純な形である量子レイリー・ヴァン・デル・ポル(RvdP)発振器の進化について検討する。
位相空間のダイナミクスは初期状態によって大きく異なり、極限サイクルへの1つの進化は、他のサイクルよりもずっと長くかかり、最小時間パラメータが存在するかもしれない。
得られたダイナミクスを,コヒーレンス崩壊と固有状態占有の再分配の観点から記述する。
The dynamics of a quantum self-sustained oscillator as it evolves toward its limit cycle may be useful in solving related problems like those in quantum synchronization, yet is inadequately studied. Here we investigate the evolution of a quantum Rayleigh-van der Pol (RvdP) oscillator, the simplest form of a self-sustained oscillator exhibiting a quasiharmonic limit cycle, starting from Fock, thermal, and coherent states. We find that the phase-space dynamics significantly differ depending on the initial state -- one evolution toward the limit cycle may take much longer than another and a least-time parameter may be present. We describe the resulting dynamics in terms of the coherence decay and the redistribution of eigenstate occupation. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# 対訳 マルチ・ダウリング・バンド
Adversarial Multi-dueling Bandits ( http://arxiv.org/abs/2406.12475v2 ) ライセンス: Link先を確認 | Pratik Gajane, | (参考訳) 本稿では,敵対的マルチダウリング・バンディットにおける後悔の最小化の問題を紹介する。
デュエルバンディットでは敵の嗜好が研究されているが、マルチダウリングバンディットでは研究されていない。
この設定では、学習者は各ラウンドで$m \geq 2$ Armを選択し、選択された任意の選好行列に基づいて最も好まれるアームのアイデンティティをフィードバックとして観察する。
そこで我々は,ペアワイズ・サブセット選択モデルから生成されると考えられるような選好フィードバックから学習するために,新しいアルゴリズム MiDEX (Multi Dueling EXP3) を導入する。
我々は、期待されるMiDEXの累積的な$T$ラウンド後悔を、K$アームの集合のボルダ・ウィンナーと比較すると、$O((K \log K)^{1/3} T^{2/3})$で上界であることを証明する。
さらに、提案アルゴリズムがほぼ最適であることを示すこの設定において、期待される後悔に対して、$\Omega(K^{1/3} T^{2/3})$の低い境界を証明した。
We introduce the problem of regret minimization in adversarial multi-dueling bandits. While adversarial preferences have been studied in dueling bandits, they have not been explored in multi-dueling bandits. In this setting, the learner is required to select $m \geq 2$ arms at each round and observes as feedback the identity of the most preferred arm which is based on an arbitrary preference matrix chosen obliviously. We introduce a novel algorithm, MiDEX (Multi Dueling EXP3), to learn from such preference feedback that is assumed to be generated from a pairwise-subset choice model. We prove that the expected cumulative $T$-round regret of MiDEX compared to a Borda-winner from a set of $K$ arms is upper bounded by $O((K \log K)^{1/3} T^{2/3})$. Moreover, we prove a lower bound of $\Omega(K^{1/3} T^{2/3})$ for the expected regret in this setting which demonstrates that our proposed algorithm is near-optimal. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# LayerMerge: レイヤのプルーニングとマージによるニューラルネットワーク深さ圧縮
LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging ( http://arxiv.org/abs/2406.12837v2 ) ライセンス: Link先を確認 | Jinuk Kim, Marwa El Halabi, Mingi Ji, Hyun Oh Song, | (参考訳) 近年の研究では、畳み込みニューラルネットワークにおけるレイヤ数の削減は、ネットワークの性能を維持しながら効率を向上させることが示されている。
既存の深度圧縮法では、冗長な非線形活性化関数を除去し、連続する畳み込み層を単一の層にマージする。
しかし、これらの手法は、ネットワークの深さを減らすことで得られたレイテンシ低減を著しく損なうため、マージされたレイヤのカーネルサイズが大きくなるという重大な欠点に悩まされる。
畳み込み層とアクティベーション関数を併用することにより,この問題に対処できることを示す。
そこで本研究では,どのアクティベーション層と畳み込み層を除去するかを選択するディープ圧縮手法であるLayerMergeを提案する。
対応する選択問題は指数探索空間を含むため、新しい代理最適化問題を定式化し、動的プログラミングにより効率よく解く。
実験結果から,本手法は画像分類および生成タスクにおいて,既存のネットワークアーキテクチャ上での深度圧縮およびレイヤプルーニング手法を一貫して上回ることを示す。
コードをhttps://github.com/snu-mllab/LayerMerge.comでリリースします。
Recent works show that reducing the number of layers in a convolutional neural network can enhance efficiency while maintaining the performance of the network. Existing depth compression methods remove redundant non-linear activation functions and merge the consecutive convolution layers into a single layer. However, these methods suffer from a critical drawback; the kernel size of the merged layers becomes larger, significantly undermining the latency reduction gained from reducing the depth of the network. We show that this problem can be addressed by jointly pruning convolution layers and activation functions. To this end, we propose LayerMerge, a novel depth compression method that selects which activation layers and convolution layers to remove, to achieve a desired inference speed-up while minimizing performance loss. Since the corresponding selection problem involves an exponential search space, we formulate a novel surrogate optimization problem and efficiently solve it via dynamic programming. Empirical results demonstrate that our method consistently outperforms existing depth compression and layer pruning methods on various network architectures, both on image classification and generation tasks. We release the code at https://github.com/snu-mllab/LayerMerge. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# スプラッター・ア・ビデオ(動画)
Splatter a Video: Video Gaussian Representation for Versatile Processing ( http://arxiv.org/abs/2406.13870v2 ) ライセンス: Link先を確認 | Yang-Tian Sun, Yi-Hua Huang, Lin Ma, Xiaoyang Lyu, Yan-Pei Cao, Xiaojuan Qi, | (参考訳) ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、様々な下流タスクにおいて重要な、長年にわたる問題である。
しかし、現在の手法は、3D構造がないために複雑な動きをモデル化するのに苦労するか、操作に不適な暗黙の3D表現に依存している。
これらの課題に対処するため、私たちは、ビデオを3Dガウスに埋め込む、新しい3D表現-ビデオガウス表現を導入しました。
提案した表現は,3次元標準空間における映像の外観を,露骨なガウスをプロキシとして用いてモデル化し,各ガウスを映像運動のための3次元運動に関連付ける。
このアプローチは層状アトラスや体積ピクセル行列よりも本質的で明示的な表現を提供する。
このような表現を得るために、基礎モデルから光学的流れや深度などの2D先行情報を蒸留し、この不規則な環境下での学習を規則化する。
広範にわたる応用は、我々の新しいビデオ表現の汎用性を示している。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
プロジェクトページ:https://sunyangtian.github.io/spatter_a_video_web/
Video representation is a long-standing problem that is crucial for various down-stream tasks, such as tracking,depth prediction,segmentation,view synthesis,and editing. However, current methods either struggle to model complex motions due to the absence of 3D structure or rely on implicit 3D representations that are ill-suited for manipulation tasks. To address these challenges, we introduce a novel explicit 3D representation-video Gaussian representation -- that embeds a video into 3D Gaussians. Our proposed representation models video appearance in a 3D canonical space using explicit Gaussians as proxies and associates each Gaussian with 3D motions for video motion. This approach offers a more intrinsic and explicit representation than layered atlas or volumetric pixel matrices. To obtain such a representation, we distill 2D priors, such as optical flow and depth, from foundation models to regularize learning in this ill-posed setting. Extensive applications demonstrate the versatility of our new video representation. It has been proven effective in numerous video processing tasks, including tracking, consistent video depth and feature refinement, motion and appearance editing, and stereoscopic video generation. Project page: https://sunyangtian.github.io/spatter_a_video_web/ | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# テキストガイド画像編集における約7ステップの非可逆整合蒸留
Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps ( http://arxiv.org/abs/2406.14539v2 ) ライセンス: Link先を確認 | Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk, | (参考訳) 拡散蒸留は、いくつかのサンプリングステップで忠実なテキスト・画像生成を実現するための非常に有望な方向を示す。
しかし、近年の成功にもかかわらず、既存の蒸留モデルは、実際の画像反転のような拡散能力の完全なスペクトルを提供していないため、多くの正確な画像操作が可能である。
本研究の目的は, 蒸留されたテキストから画像への拡散モデルに, 実画像の潜在空間へのエンコードを効果的に行うことにある。
そこで本研究では,高品質な画像合成と高精度な画像符号化を,わずか3~4ステップで実現する,汎用的な一貫性蒸留フレームワークであるinvertible Consistency Distillation (iCD)を導入する。
テキストから画像への拡散モデルの逆転問題は、高分類器のないガイダンス尺度によって悪化するが、動的ガイダンスは、生成性能の顕著な劣化を伴わずに、再構成エラーを著しく低減することに気づく。
その結果、ダイナミックガイダンスを備えたiCDは、より高価な最先端の代替品と競合するゼロショットテキスト誘導画像編集において、非常に効果的なツールである可能性が示された。
Diffusion distillation represents a highly promising direction for achieving faithful text-to-image generation in a few sampling steps. However, despite recent successes, existing distilled models still do not provide the full spectrum of diffusion abilities, such as real image inversion, which enables many precise image manipulation methods. This work aims to enrich distilled text-to-image diffusion models with the ability to effectively encode real images into their latent space. To this end, we introduce invertible Consistency Distillation (iCD), a generalized consistency distillation framework that facilitates both high-quality image synthesis and accurate image encoding in only 3-4 inference steps. Though the inversion problem for text-to-image diffusion models gets exacerbated by high classifier-free guidance scales, we notice that dynamic guidance significantly reduces reconstruction errors without noticeable degradation in generation performance. As a result, we demonstrate that iCD equipped with dynamic guidance may serve as a highly effective tool for zero-shot text-guided image editing, competing with more expensive state-of-the-art alternatives. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# マルチエージェント・コラボレーション・アタック:ディベートによる大規模言語モデルコラボレーションにおける敵対的アタックの調査
MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate ( http://arxiv.org/abs/2406.14711v2 ) ライセンス: Link先を確認 | Alfonso Amayuelas, Xianjun Yang, Antonis Antoniades, Wenyue Hua, Liangming Pan, William Wang, | (参考訳) 大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。
パラメータサイズと推論時間の短縮とともに、それらの能力の進歩により、これらのモデルをエージェントとしての使用が促進され、複数のモデル間の相互作用が複雑なタスクの実行を可能にした。
このようなコラボレーションには、特別なモデル(例えばコーディング)の使用、複数の計算による信頼性の向上、分散思考の強化など、いくつかの利点がある。
このように、言語モデルの協調的な利用は、今後数年で大幅に増加することが期待されている。
本研究では,敵対者の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
我々は,システム精度とモデル合意に焦点をあてて,敵の有効性を評価するために,関連する指標を導入する。
本研究は,他者に影響を与えるモデルが持つ説得力の重要性を明らかにするものである。
さらに、より説得力のある議論を生成するための推論時手法を検討し、プロンプトベースの緩和の可能性を防衛戦略として評価する。
Large Language Models (LLMs) have shown exceptional results on current benchmarks when working individually. The advancement in their capabilities, along with a reduction in parameter size and inference times, has facilitated the use of these models as agents, enabling interactions among multiple models to execute complex tasks. Such collaborations offer several advantages, including the use of specialized models (e.g. coding), improved confidence through multiple computations, and enhanced divergent thinking, leading to more diverse outputs. Thus, the collaborative use of language models is expected to grow significantly in the coming years. In this work, we evaluate the behavior of a network of models collaborating through debate under the influence of an adversary. We introduce pertinent metrics to assess the adversary's effectiveness, focusing on system accuracy and model agreement. Our findings highlight the importance of a model's persuasive ability in influencing others. Additionally, we explore inference-time methods to generate more compelling arguments and evaluate the potential of prompt-based mitigation as a defensive strategy. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# プライベートデータによる安全な学習 - 大規模言語モデルのためのフェデレーション学習フレームワーク
Safely Learning with Private Data: A Federated Learning Framework for Large Language Model ( http://arxiv.org/abs/2406.14898v2 ) ライセンス: Link先を確認 | JiaYing Zheng, HaiNan Zhang, LingXiang Wang, WangJie Qiu, HongWei Zheng, ZhiMing Zheng, | (参考訳) 公開データよりも大きく、高品質なプライベートデータは、大きな言語モデル(LLM)を大幅に改善することができる。
しかし、プライバシー上の懸念から、このデータは複数のサイロに分散されることが多く、LLMトレーニングの安全な利用が課題となっている。
Federated Learning(FL)は、分散プライベートデータでモデルをトレーニングするのに理想的なソリューションだが、クライアントに対する高い計算要求のため、従来のFedAvgのようなフレームワークはLLMには適さない。
代替のスプリットラーニングでは、ほとんどのトレーニングパラメータをサーバにオフロードし、ローカルに埋め込み層と出力層をトレーニングすることで、LLMにもっと適している。
それでも、セキュリティと効率の面で大きな課題に直面している。
まず、埋め込みの勾配は攻撃を受けやすいため、プライベートデータのリバースエンジニアリングにつながる可能性がある。
さらに、サーバが一度にひとつのクライアントのトレーニング要求のみを処理することの制限は、並列トレーニングを妨げ、トレーニング効率に深刻な影響を与えます。
本稿では,FL-GLMというLDMのためのフェデレートラーニングフレームワークを提案する。このフレームワークは,サーバ側とピア側の両方の攻撃によるデータ漏洩を防止し,トレーニング効率を向上する。
具体的には、まず入力ブロックと出力ブロックをローカルクライアントに配置し、サーバからの埋め込み勾配攻撃を防止する。
第2に,クライアントサーバ間通信において,ピアクライアントからのリバースエンジニアリング攻撃を防止するために,キー暗号化を用いる。
最後に、クライアントバッチやサーバ階層といった最適化手法を採用し、サーバの実際の計算能力に基づいて異なる加速度手法を採用する。
NLUおよび生成タスクの実験結果から,FL-GLMは集中型チャットGLMモデルに匹敵する指標を達成し,フェデレートした学習フレームワークの有効性を検証した。
Private data, being larger and quality-higher than public data, can greatly improve large language models (LLM). However, due to privacy concerns, this data is often dispersed in multiple silos, making its secure utilization for LLM training a challenge. Federated learning (FL) is an ideal solution for training models with distributed private data, but traditional frameworks like FedAvg are unsuitable for LLM due to their high computational demands on clients. An alternative, split learning, offloads most training parameters to the server while training embedding and output layers locally, making it more suitable for LLM. Nonetheless, it faces significant challenges in security and efficiency. Firstly, the gradients of embeddings are prone to attacks, leading to potential reverse engineering of private data. Furthermore, the server's limitation of handle only one client's training request at a time hinders parallel training, severely impacting training efficiency. In this paper, we propose a Federated Learning framework for LLM, named FL-GLM, which prevents data leakage caused by both server-side and peer-client attacks while improving training efficiency. Specifically, we first place the input block and output block on local client to prevent embedding gradient attacks from server. Secondly, we employ key-encryption during client-server communication to prevent reverse engineering attacks from peer-clients. Lastly, we employ optimization methods like client-batching or server-hierarchical, adopting different acceleration methods based on the actual computational capabilities of the server. Experimental results on NLU and generation tasks demonstrate that FL-GLM achieves comparable metrics to centralized chatGLM model, validating the effectiveness of our federated learning framework. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# フェア, マニピュレーション・ロバスト, 透明ソリション
Fair, Manipulation-Robust, and Transparent Sortition ( http://arxiv.org/abs/2406.15009v2 ) ライセンス: Link先を確認 | Carmel Baharav, Bailey Flanigan, | (参考訳) 政治的代表者の無作為な選考であるソーティションは、市民集会のような熟考過程の参加者を選ぶために世界中でますます使われている。
近年,選別アルゴリズムの研究が盛んに行われており,その課題はボランティアのプールの中からパネルを選択することである。
このパネルは、キー集団の部分群の表現を強制するクォータを満たさなければならない。
過去の研究は、任意の凸等度目標によって測定されるように、ボランティアが選択する確率が最大に等しいことを保証しながら、このタスクを達成するためのアルゴリズム的なアプローチに貢献してきた。
問題は、どの平等目標が正しいか、ということです。
過去の研究は主にミニマックスとレキシミンの目的を研究しており、これは各ボランティアが与える最大選択率と最小選択確率を最大化している。
ミニマックスは操作に強いが、任意に不公平であり、反対に、レキシミンは極めて公平だが任意に操作可能である。
このギャップを考慮して、ボランティアが選択の機会が少なすぎることを保証することにより、これらの理想を同時に達成することを目的とした新しい平等目標であるGoldilocksを提案する。
我々は、Goldilocksがこれらのイデアルを達成する範囲を理論的に制限し、重要な意味では、Goldilocksは与えられた場合において最も有効な解のうちの1つを回復することを示した。
次に、Goldilocksの出力が変換され、第3のゴールであるTransparencyを達成するケースに境界を拡張します。
実データにおけるGoldilocksの実証分析は、さらに有望である: この目的は、ほとんどの実データインスタンスにおいて、ほぼインスタンス最適化の最小値と最大選択確率を同時に達成することである。
Sortition, the random selection of political representatives, is increasingly being used around the world to choose participants of deliberative processes like Citizens' Assemblies. Motivated by sortition's practical importance, there has been a recent flurry of research on sortition algorithms, whose task it is to select a panel from among a pool of volunteers. This panel must satisfy quotas enforcing representation of key population subgroups. Past work has contributed an algorithmic approach for fulfilling this task while ensuring that volunteers' chances of selection are maximally equal, as measured by any convex equality objective. The question, then, is: which equality objective is the right one? Past work has mainly studied the objectives Minimax and Leximin, which respectively minimize the maximum and maximize the minimum chance of selection given to any volunteer. Recent work showed that both of these objectives have key weaknesses: Minimax is highly robust to manipulation but is arbitrarily unfair; oppositely, Leximin is highly fair but arbitrarily manipulable. In light of this gap, we propose a new equality objective, Goldilocks, that aims to achieve these ideals simultaneously by ensuring that no volunteer receives too little or too much chance of selection. We theoretically bound the extent to which Goldilocks achieves these ideals, finding that in an important sense, Goldilocks recovers among the best available solutions in a given instance. We then extend our bounds to the case where the output of Goldilocks is transformed to achieve a third goal, Transparency. Our empirical analysis of Goldilocks in real data is even more promising: we find that this objective achieves nearly instance-optimal minimum and maximum selection probabilities simultaneously in most real instances -- an outcome not even guaranteed to be possible for any algorithm. | 翻訳日:2024-06-27 18:06:11 公開日:2024-06-26 |
# 繰り返し繰り返し核ノルム最小化による効率的な低ランク同定
Efficient Low-rank Identification via Accelerated Iteratively Reweighted Nuclear Norm Minimization ( http://arxiv.org/abs/2406.15713v2 ) ライセンス: Link先を確認 | Hao Wang, Ye Wang, Xiangyu Yang, | (参考訳) 本稿では、滑らかな函数の和と行列のSchatten-$p$ノルムを最小化する問題を考察する。
我々の貢献は、非凸な低ランク化問題を解くために設計された、反復的に再重み付けされた核ノルム法を提案することである。
2つの主要な小説が我々のアプローチを特徴づけている。
まず、提案手法はランク識別特性を持ち、有限個の反復で定常点の「正しい」ランクを証明できる。
次に,パラメータの平滑化のための適応的更新手法を提案する。
この戦略は、「正しい」ランクを検出すると、ゼロ特異値に関連するパラメータを定数として自動的に修正し、残りのパラメータを0に素早く駆動する。
この適応的な振る舞いは、アルゴリズムを数回繰り返した後にスムーズな問題を効果的に解決するアルゴリズムに変換し、我々の作業を、低ランク最適化のための既存の反復的に重み付けされた方法とは切り離す。
提案アルゴリズムのグローバル収束を証明し、反復のすべての極限点が臨界点であることを保証する。
さらに、Kurdyka-{\L}ojasiewicz性質の下で局所収束速度解析を行う。
合成データと実データの両方を用いて数値実験を行い、既存の手法よりもアルゴリズムの効率と優越性を実証する。
This paper considers the problem of minimizing the sum of a smooth function and the Schatten-$p$ norm of the matrix. Our contribution involves proposing accelerated iteratively reweighted nuclear norm methods designed for solving the nonconvex low-rank minimization problem. Two major novelties characterize our approach. Firstly, the proposed method possesses a rank identification property, enabling the provable identification of the "correct" rank of the stationary point within a finite number of iterations. Secondly, we introduce an adaptive updating strategy for smoothing parameters. This strategy automatically fixes parameters associated with zero singular values as constants upon detecting the "correct" rank while quickly driving the rest of the parameters to zero. This adaptive behavior transforms the algorithm into one that effectively solves smooth problems after a few iterations, setting our work apart from existing iteratively reweighted methods for low-rank optimization. We prove the global convergence of the proposed algorithm, guaranteeing that every limit point of the iterates is a critical point. Furthermore, a local convergence rate analysis is provided under the Kurdyka-{\L}ojasiewicz property. We conduct numerical experiments using both synthetic and real data to showcase our algorithm's efficiency and superiority over existing methods. | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# BigCodeBench: さまざまな関数呼び出しと複雑な命令によるベンチマークコード生成
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions ( http://arxiv.org/abs/2406.15877v2 ) ライセンス: Link先を確認 | Terry Yue Zhuo, Minh Chien Vu, Jenny Chim, Han Hu, Wenhao Yu, Ratnadira Widyasari, Imam Nur Bani Yusuf, Haolan Zhan, Junda He, Indraneil Paul, Simon Brunner, Chen Gong, Thong Hoang, Armel Randy Zebaze, Xiaoheng Hong, Wen-Ding Li, Jean Kaddour, Ming Xu, Zhihan Zhang, Prateek Yadav, Naman Jain, Alex Gu, Zhoujun Cheng, Jiawei Liu, Qian Liu, Zijian Wang, David Lo, Binyuan Hui, Niklas Muennighoff, Daniel Fried, Xiaoning Du, Harm de Vries, Leandro Von Werra, | (参考訳) 自動化されたソフトウェアエンジニアリングは、プログラミングにおける最近のLarge Language Models(LLMs)の進歩によって、非常に力強くなっています。
現在のベンチマークでは、LLMは人間の開発者のような様々なソフトウェアエンジニアリングタスクを実行できることが示されているが、その評価の大部分は、短くて自己完結したアルゴリズムタスクに限られている。
困難で実用的なプログラミングタスクを解決するには、さまざまな関数呼び出しをデータ分析やWeb開発といった機能を効率的に実装するためのツールとして活用する必要がある。
さらに、複数のツールを使ってタスクを解くには、複雑な命令を正確に理解することで構成的推論が必要である。
これら2つの特徴をフルフィルすることは、LLMにとって大きな課題となる。
このベンチマークでは、LLMが139のライブラリと7つのドメインから1,140のきめ細かいプログラミングタスクのツールとして複数の関数呼び出しを呼び出している。
LLMを厳格に評価するために、各プログラムタスクは5.6のテストケースを含み、平均的なブランチカバレッジは99%である。
また,ベンチの自然言語指向の変種であるベンチ(Benchi)を提案する。
60個のLDMを広範囲に評価したところ、LLMは機能コールを正確に使用するための複雑な命令に従うことができず、スコアは最大60%で、人間の97%よりも大幅に低かった。
結果は、この地域のさらなる進歩の必要性を浮き彫りにした。
Automated software engineering has been greatly empowered by the recent advances in Large Language Models (LLMs) for programming. While current benchmarks have shown that LLMs can perform various software engineering tasks like human developers, the majority of their evaluations are limited to short and self-contained algorithmic tasks. Solving challenging and practical programming tasks requires the capability of utilizing diverse function calls as tools to efficiently implement functionalities like data analysis and web development. In addition, using multiple tools to solve a task needs compositional reasoning by accurately understanding complex instructions. Fulfilling both of these characteristics can pose a great challenge for LLMs. To assess how well LLMs can solve challenging and practical programming tasks, we introduce Bench, a benchmark that challenges LLMs to invoke multiple function calls as tools from 139 libraries and 7 domains for 1,140 fine-grained programming tasks. To evaluate LLMs rigorously, each programming task encompasses 5.6 test cases with an average branch coverage of 99%. In addition, we propose a natural-language-oriented variant of Bench, Benchi, that automatically transforms the original docstrings into short instructions only with essential information. Our extensive evaluation of 60 LLMs shows that LLMs are not yet capable of following complex instructions to use function calls precisely, with scores up to 60%, significantly lower than the human performance of 97%. The results underscore the need for further advancements in this area. | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# InterCLIP-MEP:マルチモーダルサーカスム検出のための対話型CLIPとメモリ拡張予測器
InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection ( http://arxiv.org/abs/2406.16464v2 ) ライセンス: Link先を確認 | Junjie Chen, Subin Huang, | (参考訳) ソーシャルメディアにおけるサルカズムの頻度は、テキストと画像の組み合わせを通して伝えられ、感情分析と意図的マイニングにおいて重要な課題が提示される。
現在のマルチモーダル・サルカズム検出法は、刺激的な手がかりからの偏見に苦しむことが証明されており、テキストと画像の間の複雑な相互作用を表面的に理解している。
これらの問題に対処するため,マルチモーダルサルカズム検出のための堅牢なフレームワークであるInterCLIP-MEPを提案する。
InterCLIP-MEPは、CLIPの改良版であるInteractive CLIP(InterCLIP)をバックボーンとして導入し、各エンコーダにクロスモーダル情報を埋め込んでサンプル表現を強化する。
さらに、メモリ拡張予測器(MEP)にInterCLIPを適用するための新しいトレーニング戦略が設計されている。
MEPは動的デュアルチャネルメモリを使用してテストサンプルの貴重な履歴情報を記憶し、このメモリを非パラメトリック分類器として利用して最終的な予測を導出する。
InterCLIPを用いてテキストと画像の相互作用をより効果的にエンコードし、MEPを組み込むことで、InterCLIP-MEPはマルチモーダルサルカズムをより堅牢に認識する。
実験により、InterCLIP-MEPはMMSD2.0ベンチマークで最先端のパフォーマンスを達成することが示された。
コードとデータはhttps://github.com/CoderChen01/InterCLIP-MEPで公開されている。
The prevalence of sarcasm in social media, conveyed through text-image combinations, presents significant challenges for sentiment analysis and intention mining. Current multi-modal sarcasm detection methods have been proven to struggle with biases from spurious cues, leading to a superficial understanding of the complex interactions between text and image. To address these issues, we propose InterCLIP-MEP, a robust framework for multi-modal sarcasm detection. InterCLIP-MEP introduces a refined variant of CLIP, Interactive CLIP (InterCLIP), as the backbone, enhancing sample representations by embedding cross-modality information in each encoder. Furthermore, a novel training strategy is designed to adapt InterCLIP for a Memory-Enhanced Predictor (MEP). MEP uses dynamic dual-channel memory to store valuable historical knowledge of test samples and then leverages this memory as a non-parametric classifier to derive the final prediction. By using InterCLIP to encode text-image interactions more effectively and incorporating MEP, InterCLIP-MEP offers a more robust recognition of multi-modal sarcasm. Experiments demonstrate that InterCLIP-MEP achieves state-of-the-art performance on the MMSD2.0 benchmark. Code and data are available at https://github.com/CoderChen01/InterCLIP-MEP. | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# $\text{Alpha}^2$:Deep Reinforcement Learning を用いた論理式アルファの発見
$\text{Alpha}^2$: Discovering Logical Formulaic Alphas using Deep Reinforcement Learning ( http://arxiv.org/abs/2406.16505v2 ) ライセンス: Link先を確認 | Feng Xu, Yan Yin, Xinyu Zhang, Tianyuan Liu, Shengyi Jiang, Zongzhang Zhang, | (参考訳) アルファは量的取引のシグナルを提供する上で重要である。
業界は、その解釈可能性と分析の容易さに関する公式アルファの発見を、表現的だが過度に適合する黒ボックスアルファと比較して高く評価している。
本研究では, 公式αの発見に焦点をあてる。
公式αのコレクションを自動生成する以前の研究は、主に遺伝的プログラミング(GP)に基づいており、これは初期集団に敏感で、局所最適に変換し、計算速度を遅くするという問題に悩まされていることが知られている。
近年, アルファ発見のための深部強化学習(DRL)の取り組みは, アルファ相関や妥当性などの重要な実践的考察に完全には対応していない。
本稿では,プログラム構築としてアルファ発見プロセスを定式化し,DRLを用いたアルファ発見のための新しいフレームワークを提案する。
我々のエージェントである$\text{Alpha}^2$は評価基準に最適化されたアルファプログラムを組み立てます。
DRLでガイドされた探索アルゴリズムは、潜在的なアルファ結果の値推定に基づいて探索空間をナビゲートする。
評価基準はアルファのパフォーマンスと多様性の両方を奨励し、最終的な取引戦略を改善する。
探索αの定式化はまた、事前計算次元解析の利点をもたらし、アルファの論理的健全性を確保し、膨大な探索空間を広範囲に切断する。
実世界の株式市場での実証実験では、様々な論理的かつ効果的なアルファを識別する$\text{Alpha}^2$の能力を示し、最終的な取引戦略の性能を大幅に向上させる。
私たちのメソッドのコードはhttps://github.com/x35f/alpha2.orgで公開されています。
Alphas are pivotal in providing signals for quantitative trading. The industry highly values the discovery of formulaic alphas for their interpretability and ease of analysis, compared with the expressive yet overfitting-prone black-box alphas. In this work, we focus on discovering formulaic alphas. Prior studies on automatically generating a collection of formulaic alphas were mostly based on genetic programming (GP), which is known to suffer from the problems of being sensitive to the initial population, converting to local optima, and slow computation speed. Recent efforts employing deep reinforcement learning (DRL) for alpha discovery have not fully addressed key practical considerations such as alpha correlations and validity, which are crucial for their effectiveness. In this work, we propose a novel framework for alpha discovery using DRL by formulating the alpha discovery process as program construction. Our agent, $\text{Alpha}^2$, assembles an alpha program optimized for an evaluation metric. A search algorithm guided by DRL navigates through the search space based on value estimates for potential alpha outcomes. The evaluation metric encourages both the performance and the diversity of alphas for a better final trading strategy. Our formulation of searching alphas also brings the advantage of pre-calculation dimensional analysis, ensuring the logical soundness of alphas, and pruning the vast search space to a large extent. Empirical experiments on real-world stock markets demonstrates $\text{Alpha}^2$'s capability to identify a diverse set of logical and effective alphas, which significantly improves the performance of the final trading strategy. The code of our method is available at https://github.com/x35f/alpha2. | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# Responsible Foundation Model Development Cheatsheet: ツールとリソースのレビュー
The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources ( http://arxiv.org/abs/2406.16746v2 ) ライセンス: Link先を確認 | Shayne Longpre, Stella Biderman, Alon Albalak, Hailey Schoelkopf, Daniel McDuff, Sayash Kapoor, Kevin Klyman, Kyle Lo, Gabriel Ilharco, Nay San, Maribeth Rauh, Aviya Skowron, Bertie Vidgen, Laura Weidinger, Arvind Narayanan, Victor Sanh, David Adelani, Percy Liang, Rishi Bommasani, Peter Henderson, Sasha Luccioni, Yacine Jernite, Luca Soldaini, | (参考訳) ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。
私たちは、責任ある開発プラクティスを形作るのに役立つために、Foundation Model Development Cheatsheetを紹介します。
私たちは、インフォームドデータの選択、処理、理解、正確で制限対応のアーティファクトドキュメント、効率的なモデルトレーニング、トレーニングからの環境影響の認識の促進、能力、リスク、クレームの慎重なモデル評価、責任あるモデルリリース、ライセンス、デプロイメントプラクティスをサポートするリソース(ソフトウェア、ドキュメント、フレームワーク、ガイド、実用的なツールなど)を調査するための、多くの事前作業に取り組んでいます。
このキュレートされたリソースの収集が、より責任ある開発を導くのに役立つことを願っています。
このリストをキュレートするプロセスにより、AI開発エコシステムをレビューし、既存のプラクティスに欠落しているツール、誤用、あるいは過剰使用されているツールを明らかにしました。
私たちはそれを見つける。
(i)データソーシング、モデル評価、モニタリングのためのツールは、倫理的・現実的なニーズに過小評価されている。
(二)モデル安全性、能力、環境影響の評価には再現性と透明性が欠如している。
三 テキスト、特に英語を中心とした分析が多言語・多モーダル分析に支配され続けていること。
(4)単にモデルではなくシステムの評価が必要であり、その能力と影響が文脈で評価される。
Foundation model development attracts a rapidly expanding body of contributors, scientists, and applications. To help shape responsible development practices, we introduce the Foundation Model Development Cheatsheet: a growing collection of 250+ tools and resources spanning text, vision, and speech modalities. We draw on a large body of prior work to survey resources (e.g. software, documentation, frameworks, guides, and practical tools) that support informed data selection, processing, and understanding, precise and limitation-aware artifact documentation, efficient model training, advance awareness of the environmental impact from training, careful model evaluation of capabilities, risks, and claims, as well as responsible model release, licensing and deployment practices. We hope this curated collection of resources helps guide more responsible development. The process of curating this list, enabled us to review the AI development ecosystem, revealing what tools are critically missing, misused, or over-used in existing practices. We find that (i) tools for data sourcing, model evaluation, and monitoring are critically under-serving ethical and real-world needs, (ii) evaluations for model safety, capabilities, and environmental impact all lack reproducibility and transparency, (iii) text and particularly English-centric analyses continue to dominate over multilingual and multi-modal analyses, and (iv) evaluation of systems, rather than just models, is needed so that capabilities and impact are assessed in context. | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# 五輪アリーナのメダルランキング:最も知能なAIは誰だ?
OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? ( http://arxiv.org/abs/2406.16772v2 ) ライセンス: Link先を確認 | Zhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu, | (参考訳) オリンピックアリーナ(オリンピックレベル、多分野、超知能AIのマルチモーダルベンチマーク)によって測定された、これまでで最もインテリジェントなAIモデルは誰ですか?
具体的には、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てます。
本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
1)Claude-3.5-SonnetはGPT-4oよりも高い総合的な性能を示し、少数の被験者(物理, 化学, 生物学)でGPT-4oを上回った。
2) Gemini-1.5-Pro と GPT-4V は GPT-4o と Claude-3.5-Sonnet のすぐ後ろで連続的にランクされるが、その間には明らかな性能差がある。
(3) オープンソースコミュニティのAIモデルのパフォーマンスは、これらのプロプライエタリなモデルに大きく遅れています。
(4) このベンチマークにおけるこれらのモデルの性能は満足度に欠けており、超知能を達成するまでにはまだ長い道のりが残っていることを示唆している。
このベンチマークでは、最新の強力なモデルのパフォーマンスを継続的に追跡し、評価することを約束しています(https://github.com/GAIR-NLP/OlympicArena.comで利用可能です)。
In this report, we pose the following question: Who is the most intelligent AI model to date, as measured by the OlympicArena (an Olympic-level, multi-discipline, multi-modal benchmark for superintelligent AI)? We specifically focus on the most recently released models: Claude-3.5-Sonnet, Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic medal Table approach to rank AI models based on their comprehensive performance across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2) Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The performance of AI models from the open-source community significantly lags behind these proprietary models. (4) The performance of these models on this benchmark has been less than satisfactory, indicating that we still have a long way to go before achieving superintelligence. We remain committed to continuously tracking and evaluating the performance of the latest powerful models on this benchmark (available at https://github.com/GAIR-NLP/OlympicArena). | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# Adam-mini: より少ない学習率でより多くのものを得る
Adam-mini: Use Fewer Learning Rates To Gain More ( http://arxiv.org/abs/2406.16793v3 ) ライセンス: Link先を確認 | Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun, | (参考訳) 我々は、メモリフットプリントを45%から50%削減したAdamWよりも、オンパーまたは優れたパフォーマンスを実現する最適化器Adam-miniを提案する。
Adam-miniは、Adamの学習率リソースを削減してメモリを削減する(つまり、1/\sqrt{v}$)。
これらの学習率の90%を$v$で$\geq$とすると、(1)ヘッセン構造に関する提案した原理に従って、パラメータをブロックに慎重に分割し、(2)各パラメータブロックに1つのよい学習率を割り当てれば、無害に除去できることがわかった。
さらに、これらのパラメータブロックのそれぞれに対して、Adamより優れた1つの高品質の学習率が存在し、検索に十分なリソースが確保できることが分かりました。
次に、優れた学習率を見つけるためのコスト効率のよい方法を提供し、Adam-miniを提案する。
実験により,Adam-mini が 125M から 7B までの大きさの様々な言語モデルにおいて,事前学習,教師付き微調整,RLHF に対して,Adam-mini がAdamW よりも同等以上の性能を示すことを確認した。
Adam-miniのメモリフットプリントの削減により、GPUとCPU間の通信オーバーヘッドが軽減され、スループットが向上する。
例えば、Adam-miniは、Llama2-7Bを2\times$ A800-80GBで事前トレーニングする際にAdamWよりも49.6%高いスループットを達成した。
We propose Adam-mini, an optimizer that achieves on-par or better performance than AdamW with 45% to 50% less memory footprint. Adam-mini reduces memory by cutting down the learning rate resources in Adam (i.e., $1/\sqrt{v}$). We find that $\geq$ 90% of these learning rates in $v$ could be harmlessly removed if we (1) carefully partition the parameters into blocks following our proposed principle on Hessian structure; (2) assign a single but good learning rate to each parameter block. We further find that, for each of these parameter blocks, there exists a single high-quality learning rate that can outperform Adam, provided that sufficient resources are available to search it out. We then provide one cost-effective way to find good learning rates and propose Adam-mini. Empirically, we verify that Adam-mini performs on par or better than AdamW on various language models sized from 125M to 7B for pre-training, supervised fine-tuning, and RLHF. The reduced memory footprint of Adam-mini also alleviates communication overheads among GPUs and CPUs, thereby increasing throughput. For instance, Adam-mini achieves 49.6% higher throughput than AdamW when pre-training Llama2-7B on $2\times$ A800-80GB GPUs, which saves 33% wall-clock time for pre-training. | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# ECGrecover:心電図信号補完のためのディープラーニングアプローチ
ECGrecover: a Deep Learning Approach for Electrocardiogram Signal Completion ( http://arxiv.org/abs/2406.16901v2 ) ライセンス: Link先を確認 | Alex Lence, Ahmad Fall, Federica Granese, Blaise Hanczar, Joe-Elie Salem, Jean-Daniel Zucker, Edi Prifti, | (参考訳) 本研究は,未完成部分から完全12誘導ECG信号を再構成することの課題に対処する。
私たちは2つの主要なscenariiに焦点を当てます。
一 心電図リード内の欠落信号セグメントの再構成及び
(二 単葉から行方不明の鉛を回収すること。)
再建問題に対処するために,新しい目的関数を訓練したU-Netアーキテクチャを用いたモデルを提案する。
この関数は、再構成された信号と実際の信号の間の振幅の距離と信号トレンドを組み合わせることで、ECGの空間的側面と時間的側面の両方を組み込む。
実生活データセットと一般公開データセットの両方を用いた総合的な評価を通じて、提案手法は、生成的敵ネットワークとCopyPaste戦略に基づく最先端の手法を一貫して上回っていることを示す。
提案モデルでは,標準歪み測定において優れた性能を示し,特にP,Q,R,S,T波の座標において重要なECG特性を保っている。
2つの新しい臨床応用が我々の研究の意義を強調している。
ひとつは、AIベースのアプリケーション(自動アノテーションとリスク量子化)で利用するために、紙に格納されたECGをデジタル化する必要性が高まっていることだ。
2つ目は、ECGを記録するウェアラブルデバイスが広く使われていることだ。
どちらの場合も、無視できない量の情報が失われ、記録されないため、我々のアプローチはこれらの制限を克服するために回復することを目的としている。
In this work, we address the challenge of reconstructing the complete 12-lead ECG signal from incomplete parts of it. We focus on two main scenarii: (i) reconstructing missing signal segments within an ECG lead and (ii) recovering missing leads from a single-lead. We propose a model with a U-Net architecture trained on a novel objective function to address the reconstruction problem. This function incorporates both spatial and temporal aspects of the ECG by combining the distance in amplitude between the reconstructed and real signals with the signal trend. Through comprehensive assessments using both a real-life dataset and a publicly accessible one, we demonstrate that the proposed approach consistently outperforms state-of-the-art methods based on generative adversarial networks and a CopyPaste strategy. Our proposed model demonstrates superior performance in standard distortion metrics and preserves critical ECG characteristics, particularly the P, Q, R, S, and T wave coordinates. Two emerging clinical applications emphasize the relevance of our work. The first is the increasing need to digitize paper-stored ECGs for utilization in AI-based applications (automatic annotation and risk-quantification), often limited to digital ECG complete 10s recordings. The second is the widespread use of wearable devices that record ECGs but typically capture only a small subset of the 12 standard leads. In both cases, a non-negligible amount of information is lost or not recorded, which our approach aims to recover to overcome these limitations. | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# 抑うつ認識のためのマルチスケールコントラストを用いたマルチモーダル生理信号表現学習
Multimodal Physiological Signals Representation Learning via Multiscale Contrasting for Depression Recognition ( http://arxiv.org/abs/2406.16968v2 ) ライセンス: Link先を確認 | Kai Shao, Rui Wang, Yixue Hao, Long Hu, Min Chen, Hans Arno Jacobsen, | (参考訳) 機能的近赤外分光法(fNIRS)や脳波法(EEG)などの生理的信号に基づく抑うつ認識は大きな進歩を遂げている。
しかし、既存のほとんどの研究は、複雑な時空間パターンにおける同じ刺激課題の下での多モード生理的信号の相補性と意味的一貫性を無視している。
本稿では,抑うつ認識のためのマルチスケールコントラストを用いたシームズアーキテクチャを用いたマルチモーダル生理学的信号表現学習フレームワークを提案する。
まず、fNIRSとEEGは、時間領域データ拡張戦略に基づいて異なるが相関したデータに変換される。
そして,重み共有型マルチスケール時空間畳み込みにより,fNIRSとEEGの表現を学習する時空間コントラストモジュールを設計する。
さらに、刺激タスクに関連する意味表現の学習を強化するために、fNIRSとEEGの意味的類似性を最大化することを目的とした意味一貫性コントラストモジュールを提案する。
公開および自己収集された多モード生理信号データセットに関する大規模な実験は、MRLMCが最先端のモデルよりも優れていることを示している。
さらに,提案するフレームワークは,下流タスクをマルチモーダル時系列に転送することができる。
Depression recognition based on physiological signals such as functional near-infrared spectroscopy (fNIRS) and electroencephalogram (EEG) has made considerable progress. However, most existing studies ignore the complementarity and semantic consistency of multimodal physiological signals under the same stimulation task in complex spatio-temporal patterns. In this paper, we introduce a multimodal physiological signals representation learning framework using Siamese architecture via multiscale contrasting for depression recognition (MRLMC). First, fNIRS and EEG are transformed into different but correlated data based on a time-domain data augmentation strategy. Then, we design a spatio-temporal contrasting module to learn the representation of fNIRS and EEG through weight-sharing multiscale spatio-temporal convolution. Furthermore, to enhance the learning of semantic representation associated with stimulation tasks, a semantic consistency contrast module is proposed, aiming to maximize the semantic similarity of fNIRS and EEG. Extensive experiments on publicly available and self-collected multimodal physiological signals datasets indicate that MRLMC outperforms the state-of-the-art models. Moreover, our proposed framework is capable of transferring to multimodal time series downstream tasks. | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# 深部音響モデルの解釈のための音響ネットワーク分割
AND: Audio Network Dissection for Interpreting Deep Acoustic Models ( http://arxiv.org/abs/2406.16990v2 ) ライセンス: Link先を確認 | Tung-Yu Wu, Yu-Xiang Lin, Tsui-Wei Weng, | (参考訳) ニューロンレベルの解釈は、特定の知覚または構造的な入力パターンに応答するニューロンを調査することによって、ネットワークの挙動と特性を説明することを目的としている。
視覚領域と言語領域には新たな研究があるが、音響モデルについての調査は行われていない。
このギャップを埋めるために,まず最初の$\textbf{A}$udio $\textbf{N}$etwork $\textbf{D}$issection frameworkを導入する。
$\textit{AND}$は、オーディオ間の相互音響的特徴とアイデンティティを要約するためにLLMを使用する。
大規模な実験を行い、$\textit{AND}$'sの正確な情報的記述を検証する。
さらに、生成した記述に基づいて概念固有のプルーニングを行うことにより、オーディオマシンのアンラーニングに$\textit{AND}$の潜在的使用を実証する。
最後に、$\textit{AND}$で解析した2つの音響モデル挙動について述べる。
(i)ハイレベルな抽象概念ではなく,基本的音響特徴を組み合わせた音響を識別するモデル。
(ii)訓練戦略はモデル行動やニューロンの解釈可能性に影響を及ぼし、教師付きトレーニングはニューロンに徐々に注意を絞るよう誘導する一方、自己教師型学習は、高レベルの特徴を探索するためにニューロンが多義的であることを奨励する。
Neuron-level interpretations aim to explain network behaviors and properties by investigating neurons responsive to specific perceptual or structural input patterns. Although there is emerging work in the vision and language domains, none is explored for acoustic models. To bridge the gap, we introduce $\textit{AND}$, the first $\textbf{A}$udio $\textbf{N}$etwork $\textbf{D}$issection framework that automatically establishes natural language explanations of acoustic neurons based on highly-responsive audio. $\textit{AND}$ features the use of LLMs to summarize mutual acoustic features and identities among audio. Extensive experiments are conducted to verify $\textit{AND}$'s precise and informative descriptions. In addition, we demonstrate a potential use of $\textit{AND}$ for audio machine unlearning by conducting concept-specific pruning based on the generated descriptions. Finally, we highlight two acoustic model behaviors with analysis by $\textit{AND}$: (i) models discriminate audio with a combination of basic acoustic features rather than high-level abstract concepts; (ii) training strategies affect model behaviors and neuron interpretability -- supervised training guides neurons to gradually narrow their attention, while self-supervised learning encourages neurons to be polysemantic for exploring high-level features. | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# 心電図による死亡リスク予測のベンチマーク
Benchmarking mortality risk prediction from electrocardiograms ( http://arxiv.org/abs/2406.17002v2 ) ライセンス: Link先を確認 | Platon Lukyanenko, Joshua Mayourian, Mingxuan Liu, John K. Triedman, Sunil J. Ghelani, William G. La Cava, | (参考訳) 近年の高インパクト研究は、大規模な病院所有の心電図データベースを利用して、患者の死亡をモデル化し予測している。
MIMIC-IV(英語: MIMIC-IV)は、2023年9月にリリースされた、アメリカ合衆国の病院システムから80,000のECGを含む、最初の同等のパブリックデータセットである。
これまでで最大のパブリックECGデータセットはCode-15で、ブラジルの定期治療中に収集された345,000のECGが含まれている。
これらのデータセットは、より広範な聴衆にECGサバイバルモデリングを探求するための優れたリソースを提供する。
ここでは,2つのニューラルネットワークアーキテクチャを用いて,Code-15とMIMIC-IVの生存率モデル性能をベンチマークし,分類器出力に基づいて訓練されたCox回帰に対する4つのディープサバイバルモデルアプローチを比較し,性能を1年から10年評価する。
以上の結果から,AUROCとAUPRCのスコアは過去の作業(0.8)と妥当なAUPRCスコア(MIMIC-IV: 0.4-0.5, Code-15: 0.05-0.13)に匹敵する結果を得た(MIMIC-IV: 27\%, Code-15: 4\%)。
反対のデータセット上でモデルを評価する場合、AUROCと一致値は0.1-0.15減少し、コホート差による可能性がある。
すべてのコードと結果が公開されています。
Several recent high-impact studies leverage large hospital-owned electrocardiographic (ECG) databases to model and predict patient mortality. MIMIC-IV, released September 2023, is the first comparable public dataset and includes 800,000 ECGs from a U.S. hospital system. Previously, the largest public ECG dataset was Code-15, containing 345,000 ECGs collected during routine care in Brazil. These datasets now provide an excellent resource for a broader audience to explore ECG survival modeling. Here, we benchmark survival model performance on Code-15 and MIMIC-IV with two neural network architectures, compare four deep survival modeling approaches to Cox regressions trained on classifier outputs, and evaluate performance at one to ten years. Our results yield AUROC and concordance scores comparable to past work (circa 0.8) and reasonable AUPRC scores (MIMIC-IV: 0.4-0.5, Code-15: 0.05-0.13) considering the fraction of ECG samples linked to a mortality (MIMIC-IV: 27\%, Code-15: 4\%). When evaluating models on the opposite dataset, AUROC and concordance values drop by 0.1-0.15, which may be due to cohort differences. All code and results are made public. | 翻訳日:2024-06-27 17:56:11 公開日:2024-06-26 |
# バイレベルアプローチによる符号付き測度に対する平均Langevinダイナミクス
Mean-Field Langevin Dynamics for Signed Measures via a Bilevel Approach ( http://arxiv.org/abs/2406.17054v2 ) ライセンス: Link先を確認 | Guillaume Wang, Alireza Mousavi-Hosseini, Lénaïc Chizat, | (参考訳) 平均場ランゲヴィン力学(英: Mean-field Langevin dynamics、MLFD)は、多様体上の確率測度に対する凸最適化に取り組む相互作用粒子法の一種。
しかし、無限幅の2層ニューラルネットワークのリスク最小化やスパースデコンボリューションといった重要な問題は、本来は確率よりもむしろ符号のセット上で定義されている。本稿では、符号のついた測度よりも最適化問題を凸させるためにMFLDフレームワークを拡張する方法について検討する。
特にMFLDの収束速度を低雑音状態の2レベル低減に適用し, 2つの結果を得た。
第一に、このダイナミクスは、スズキら(2023年)のアニーリングスケジュールに適応し、固定乗算精度の向上をもたらす。
第二に、二レベルアプローチで単一ニューロンを学習する問題を考察し、次元と雑音レベルに多項式的に依存する局所指数収束率を求める(先行解析の結果生じる指数依存と比較する)。
Mean-field Langevin dynamics (MLFD) is a class of interacting particle methods that tackle convex optimization over probability measures on a manifold, which are scalable, versatile, and enjoy computational guarantees. However, some important problems -- such as risk minimization for infinite width two-layer neural networks, or sparse deconvolution -- are originally defined over the set of signed, rather than probability, measures. In this paper, we investigate how to extend the MFLD framework to convex optimization problems over signed measures. Among two known reductions from signed to probability measures -- the lifting and the bilevel approaches -- we show that the bilevel reduction leads to stronger guarantees and faster rates (at the price of a higher per-iteration complexity). In particular, we investigate the convergence rate of MFLD applied to the bilevel reduction in the low-noise regime and obtain two results. First, this dynamics is amenable to an annealing schedule, adapted from Suzuki et al. (2023), that results in improved convergence rates to a fixed multiplicative accuracy. Second, we investigate the problem of learning a single neuron with the bilevel approach and obtain local exponential convergence rates that depend polynomially on the dimension and noise level (to compare with the exponential dependence that would result from prior analyses). | 翻訳日:2024-06-27 17:46:26 公開日:2024-06-26 |
# 非構造化データに対する多段階知識検索と推論
Multi-step Knowledge Retrieval and Inference over Unstructured Data ( http://arxiv.org/abs/2406.17987v1 ) ライセンス: Link先を確認 | Aditya Kalyanpur, Kailash Saravanakumar, Victor Barres, CJ McFate, Lori Moon, Nati Seifu, Maksim Eremeev, Jose Barrera, Eric Brown, David Ferrucci, | (参考訳) 大規模言語モデル(LLM)と生成AIの出現は、さまざまな領域にわたる自然言語アプリケーションに革命をもたらした。
しかし、医学、法学、金融などの分野における高い意思決定タスクは、純粋なLLMやRAG(Retrieval-Augmented-Generation)アプローチが提供できないような精度、包括性、論理的一貫性のレベルを必要とする。
Elemental Cognition (EC)では,これらの問題に対処するニューロシンボリックAIプラットフォームを開発した。
このプラットフォームは、知識抽出とアライメントのための微調整LDMと、論理推論、計画、対話的制約解決のための堅牢なシンボリック推論エンジンを統合している。
このプラットフォーム上に構築されたコラボレーティブリサーチアシスタントであるColaについて説明する。
本稿では,これらの領域に固有の多段階推論の課題について論じ,既存のLCM手法の限界を批判し,Coraのニューロシンボリックアプローチがこれらの問題にどのように効果的に対処するかを示す。
本稿では,システムアーキテクチャの概要,知識抽出と形式推論の鍵となるアルゴリズム,そしてCoraの優れた性能をよく知られたLCMやRAGのベースラインと比較した予備評価結果について述べる。
The advent of Large Language Models (LLMs) and Generative AI has revolutionized natural language applications across various domains. However, high-stakes decision-making tasks in fields such as medical, legal and finance require a level of precision, comprehensiveness, and logical consistency that pure LLM or Retrieval-Augmented-Generation (RAG) approaches often fail to deliver. At Elemental Cognition (EC), we have developed a neuro-symbolic AI platform to tackle these problems. The platform integrates fine-tuned LLMs for knowledge extraction and alignment with a robust symbolic reasoning engine for logical inference, planning and interactive constraint solving. We describe Cora, a Collaborative Research Assistant built on this platform, that is designed to perform complex research and discovery tasks in high-stakes domains. This paper discusses the multi-step inference challenges inherent in such domains, critiques the limitations of existing LLM-based methods, and demonstrates how Cora's neuro-symbolic approach effectively addresses these issues. We provide an overview of the system architecture, key algorithms for knowledge extraction and formal reasoning, and present preliminary evaluation results that highlight Cora's superior performance compared to well-known LLM and RAG baselines. | 翻訳日:2024-06-27 15:07:42 公開日:2024-06-26 |
# DICE:単一画像からの手と顔のインタラクションのエンドツーエンドな変形キャプチャ
DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image ( http://arxiv.org/abs/2406.17988v1 ) ライセンス: Link先を確認 | Qingxuan Wu, Zhiyang Dou, Sirui Xu, Soshi Shimada, Chen Wang, Zhengming Yu, Yuan Liu, Cheng Lin, Zeyu Cao, Taku Komura, Vladislav Golyanik, Christian Theobalt, Wenping Wang, Lingjie Liu, | (参考訳) 単一の画像からの変形による3Dハンドフェイスインタラクションの再構築は、AR、VR、ゲームにおける幅広い応用において、難しいが重要な課題である。
課題は、シングルビューの対面相互作用における自己閉塞、手と顔の間の多様な空間的関係、複雑な変形、およびシングルビューの設定の曖昧さに起因している。
本手法は,3次元アノテーションを用いたスタジオ合成データに基づく接触・変形推定ネットワークによって導かれるグローバルな適合性最適化を実現する。
しかし,手話インタラクションデータの3Dアノテーションに依存しているため,Decafは時間を要する最適化プロセスと限定的な一般化能力に悩まされている。
これらの問題に対処するため、DICEは1つの画像から変形を認識可能な手顔インタラクションリコブエリーのエンド・ツー・エンドの手法である。
DICEは、Transformerベースのアーキテクチャを使用して、手、顔、接触、変形のポーズを同時に推定する。
局所的な変形場とグローバルメッシュ頂点位置の回帰を2つのネットワークブランチに切り離し、精密で堅牢なハンドフェイスメッシュ回復のための変形と接触推定を強化する。
一般化性を向上させるために,本研究では,3次元地平線アノテーションを使わずに,地平線画像を用いたトレーニングセットを弱教師付きトレーニング手法を提案する。
実験により,DICEは標準ベンチマークと実機データに対して,精度と物理的妥当性の点で最先端の性能を達成できることが実証された。
さらに,この手法はNvidia 4090 GPU上で20fpsの対話速度で動作させるのに対して,Decafでは1枚の画像に対して15秒以上を要する。
私たちのコードは出版時に公開されます。
Reconstructing 3D hand-face interactions with deformations from a single image is a challenging yet crucial task with broad applications in AR, VR, and gaming. The challenges stem from self-occlusions during single-view hand-face interactions, diverse spatial relationships between hands and face, complex deformations, and the ambiguity of the single-view setting. The first and only method for hand-face interaction recovery, Decaf, introduces a global fitting optimization guided by contact and deformation estimation networks trained on studio-collected data with 3D annotations. However, Decaf suffers from a time-consuming optimization process and limited generalization capability due to its reliance on 3D annotations of hand-face interaction data. To address these issues, we present DICE, the first end-to-end method for Deformation-aware hand-face Interaction reCovEry from a single image. DICE estimates the poses of hands and faces, contacts, and deformations simultaneously using a Transformer-based architecture. It features disentangling the regression of local deformation fields and global mesh vertex locations into two network branches, enhancing deformation and contact estimation for precise and robust hand-face mesh recovery. To improve generalizability, we propose a weakly-supervised training approach that augments the training set using in-the-wild images without 3D ground-truth annotations, employing the depths of 2D keypoints estimated by off-the-shelf models and adversarial priors of poses for supervision. Our experiments demonstrate that DICE achieves state-of-the-art performance on a standard benchmark and in-the-wild data in terms of accuracy and physical plausibility. Additionally, our method operates at an interactive rate (20 fps) on an Nvidia 4090 GPU, whereas Decaf requires more than 15 seconds for a single image. Our code will be publicly available upon publication. | 翻訳日:2024-06-27 15:07:42 公開日:2024-06-26 |
# スパースアクティベーションを用いたニューラルネットワークの学習
Learning Neural Networks with Sparse Activations ( http://arxiv.org/abs/2406.17989v1 ) ライセンス: Link先を確認 | Pranjal Awasthi, Nishanth Dikkala, Pritish Kamath, Raghu Meka, | (参考訳) 多くの成功したニューラルネットワークアーキテクチャに存在するコアコンポーネントは、2つの完全に接続されたレイヤのMLPブロックであり、その間に非線形アクティベーションがある。
トランスアーキテクチャーを含む経験的に観察される興味深い現象は、トレーニング後、このMLPブロックの隠された層における活性化が、任意の入力に対して極めて緩い傾向があることである。
ネットワークから削除できるニューロンやウェイトが存在する従来のスパシティとは異なり、この活性化空間の形式は、より効率的なネットワークを得るために利用するのが困難である。
本研究は,活性化空間を示すMLP層のPAC学習性に関する公式な研究を開始する。
このような関数のクラスが、非スパースな関数よりも証明可能な計算的および統計的優位性をもたらすことを示す様々な結果を示す。
我々の希望は、より理論的な {\em 活性化されたネットワークの理解が、実際にアクティベーション空間を活用できる方法に繋がることである。
A core component present in many successful neural network architectures, is an MLP block of two fully connected layers with a non-linear activation in between. An intriguing phenomenon observed empirically, including in transformer architectures, is that, after training, the activations in the hidden layer of this MLP block tend to be extremely sparse on any given input. Unlike traditional forms of sparsity, where there are neurons/weights which can be deleted from the network, this form of {\em dynamic} activation sparsity appears to be harder to exploit to get more efficient networks. Motivated by this we initiate a formal study of PAC learnability of MLP layers that exhibit activation sparsity. We present a variety of results showing that such classes of functions do lead to provable computational and statistical advantages over their non-sparse counterparts. Our hope is that a better theoretical understanding of {\em sparsely activated} networks would lead to methods that can exploit activation sparsity in practice. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# 大規模言語モデルを用いた効果的な質問応答生成のための明示的多様性条件
Explicit Diversity Conditions for Effective Question Answer Generation with Large Language Models ( http://arxiv.org/abs/2406.17990v1 ) ライセンス: Link先を確認 | Vikas Yadav, Hyuk Joon Kwon, Vijay Srinivasan, Hongxia Jin, | (参考訳) 質問応答生成(QAG)は、特に低リソース領域において、質問応答システムの精度を向上させる効果的なデータ拡張手法である。
最近の事前訓練型および大規模言語モデルに基づくQAG手法は大きな進歩を遂げているが、冗長なQAペア生成の重大な問題に直面し、下流のQAシステムに影響を及ぼす。
サンプリングや多様なビームサーチのような暗黙の多様性技術は有効な解法として証明されているが、しばしばより小さな多様性をもたらす。
我々は,QA生成における空間的側面,質問タイプ,実体に着目し,QAGの多様性を著しく増大させる,明確な多様性条件を提示する。
我々の研究は、既存の広く採用されている暗黙の多様性技術よりも、下流QAタスクの大幅な改善を示すことで、多様な質問応答合成データを生成するための明示的な多様性条件の必要性を強調した。
特に、下流QAモデルをトレーニングする際、明確な多様性条件から生成されたQAペアは、SQuADDUの暗黙のサンプリング技術から平均4.1%の正確な一致と4.5%のF1の改善をもたらす。
我々の研究は、低リソースデータセット(SubjQA)において、平均ダウンストリームQAパフォーマンスが約12%向上する、明確な多様性条件の必要性を強調しています。
Question Answer Generation (QAG) is an effective data augmentation technique to improve the accuracy of question answering systems, especially in low-resource domains. While recent pretrained and large language model-based QAG methods have made substantial progress, they face the critical issue of redundant QA pair generation, affecting downstream QA systems. Implicit diversity techniques such as sampling and diverse beam search are proven effective solutions but often yield smaller diversity. We present explicit diversity conditions for QAG, focusing on spatial aspects, question types, and entities, substantially increasing diversity in QA generation. Our work emphasizes the need of explicit diversity conditions for generating diverse question-answer synthetic data by showing significant improvements in downstream QA task over existing widely adopted implicit diversity techniques. In particular, generated QA pairs from explicit diversity conditions when used to train the downstream QA model results in an average 4.1% exact match and 4.5% F1 improvement over QAG from implicit sampling techniques on SQuADDU. Our work emphasizes the need for explicit diversity conditions even more in low-resource datasets (SubjQA), where average downstream QA performance improvements are around 12% EM. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# キャッチ・シャメレオン:大規模言語モデルを用いて生成した情報の進化を検出する
Catching Chameleons: Detecting Evolving Disinformation Generated using Large Language Models ( http://arxiv.org/abs/2406.17992v1 ) ライセンス: Link先を確認 | Bohan Jiang, Chengshuai Zhao, Zhen Tan, Huan Liu, | (参考訳) 大規模言語モデル(LLM)が生成する偽情報の検出は近年進歩しているが、現在の研究は、この偽情報の絶え間ない性質を見落としている。
本研究では, LLM生成した偽情報の進化を検出する上で, 困難かつ実用的な研究課題について検討する。
情報化は、LSMとその変異体を急速に発展させ、常に進化する。
その結果、検出モデルは重大な課題に直面している。
第一に、各偽情報生成装置に対して個別のモデルを訓練するのは非効率である。
第2に、LLM生成した偽情報を逐次的に発生する場合のシナリオの性能は低下する。
この問題に対処するために,プレトレーニング言語モデル(PLM)の一般的な事実チェック機能と,各種LLMの独立情報生成特性を併用したパラメータ効率の高いDLD(Detecting Evolving LLM-Generative Disinformation)を提案する。
特に、学習した特徴は、知識の蓄積と変換を容易にするために連続的に連結される。
DELDは、偽情報のセマンティック埋め込みと訓練可能なソフトプロンプトを統合することで、モデル固有の知識を引き出すことでラベル不足の問題に対処する。
実験の結果, <textit{DELD} は最先端の手法よりも優れていた。
さらに,本手法は,異なるLLMにおける情報生成のユニークなパターンに対する重要な洞察を与え,この研究の行において貴重な視点を提供する。
Despite recent advancements in detecting disinformation generated by large language models (LLMs), current efforts overlook the ever-evolving nature of this disinformation. In this work, we investigate a challenging yet practical research problem of detecting evolving LLM-generated disinformation. Disinformation evolves constantly through the rapid development of LLMs and their variants. As a consequence, the detection model faces significant challenges. First, it is inefficient to train separate models for each disinformation generator. Second, the performance decreases in scenarios when evolving LLM-generated disinformation is encountered in sequential order. To address this problem, we propose DELD (Detecting Evolving LLM-generated Disinformation), a parameter-efficient approach that jointly leverages the general fact-checking capabilities of pre-trained language models (PLM) and the independent disinformation generation characteristics of various LLMs. In particular, the learned characteristics are concatenated sequentially to facilitate knowledge accumulation and transformation. DELD addresses the issue of label scarcity by integrating the semantic embeddings of disinformation with trainable soft prompts to elicit model-specific knowledge. Our experiments show that \textit{DELD} significantly outperforms state-of-the-art methods. Moreover, our method provides critical insights into the unique patterns of disinformation generation across different LLMs, offering valuable perspectives in this line of research. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# 量子エラー補正のための古典的処理要件の管理
Managing Classical Processing Requirements for Quantum Error Correction ( http://arxiv.org/abs/2406.17995v1 ) ライセンス: Link先を確認 | Satvik Maurya, Swamit Tannu, | (参考訳) 量子エラー補正では、デコーダがエラー補正回路によって生成されたシンドロームを処理する必要がある。
これらのデコーダは、プログラムの実行に必要なメモリと時間を指数関数的に増加させるアンデコーダシンドロームのバックログを避けるために、生成されるよりも早くシンドロームを処理しなければならない。
これにより、高速なハードウェアデコーダが開発され、デコーダが高速化された。
誤り訂正量子コンピュータを利用するアプリケーションは、数百から数千の論理量子ビットを必要とし、全ての論理量子ビットに対してハードウェアデコーダを提供するのは非常にコストがかかる。
本研究では,ハードウェアデコーダの数を削減し,プログラムの実行性能や信頼性を犠牲にすることなく,メモリのトレードオフをナビゲートするフレームワークを提案する。
作業負荷を中心とする特徴付けを通じて、100MB未満のメモリを消費しながら、プログラムの実行に必要なハードウェアデコーダ数を最大10倍に削減できる効率的なデコーダスケジューリングポリシーを提案する。
Quantum Error Correction requires decoders to process syndromes generated by the error-correction circuits. These decoders must process syndromes faster than they are being generated to prevent a backlog of undecoded syndromes that can exponentially increase the memory and time required to execute the program. This has resulted in the development of fast hardware decoders that accelerate decoding. Applications utilizing error-corrected quantum computers will require hundreds to thousands of logical qubits and provisioning a hardware decoder for every logical qubit can be very costly. In this work, we present a framework to reduce the number of hardware decoders and navigate the compute-memory trade-offs without sacrificing the performance or reliability of program execution. Through workload-centric characterizations, we propose efficient decoder scheduling policies which can reduce the number of hardware decoders required to run a program by up to 10x while consuming less than 100 MB of memory. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# Changen2: マルチテンポラルリモートセンシングジェネレーティブチェンジファウンデーションモデル
Changen2: Multi-Temporal Remote Sensing Generative Change Foundation Model ( http://arxiv.org/abs/2406.17998v1 ) ライセンス: Link先を確認 | Zhuo Zheng, Stefano Ermon, Dongjun Kim, Liangpei Zhang, Yanfei Zhong, | (参考訳) 地球表面の時間的ダイナミクスに対する我々の理解は、深部視覚モデルによって進歩しており、訓練には多くのラベル付きマルチテンポラル画像を必要とすることが多い。
しかし、高価で知識集約的なため、大規模なマルチ時間リモートセンシング画像の収集、前処理、注釈付けは簡単ではない。
本稿では、これらのデータ問題を緩和し、安価で自動的な生成モデルに基づくデータ生成装置を提案する。
私たちの一番のアイデアは、時間とともに確率的な変化プロセスをシミュレートすることです。
本稿では,確率的変化過程を確率的グラフィカルモデル (GPCM) として記述し,複雑なシミュレーション問題をよりトラクタブルな2つのサブプロブレム,すなわちイベントシミュレーションと意味的変化合成に分解する。
この2つの問題を解決するために,ラベル付きあるいはラベルなしの単一時間画像から時系列画像とその意味と変化ラベルを生成することができる分解能スカラー拡散変換器を備えたGPCMであるChangen2を提案する。
Changen2は、自己スーパービジョンを通じて大規模にトレーニングできる生成的変更基盤モデルであり、ラベルのない単一時間画像から変更監視信号を生成することができる。
既存のファンデーションモデルとは異なり、Changen2は変更データを合成して、変更検出のためのタスク固有のファンデーションモデルをトレーニングする。
得られたモデルには、固有のゼロショット変化検出機能と優れた転送性がある。
実験によると、Changen2は時空間スケーラビリティに優れており、256$^2$ピクセルで訓練されたChangen2モデルは、任意の長さと解像度の時系列を1,024$^2$ピクセルで生成できる。
事前訓練されたChangen2モデルは、優れたゼロショット性能(LEVIR-CDで3%、S2LookingとSECONDで約10%)と、複数のタイプの変更タスク間での転送性を示す。
Our understanding of the temporal dynamics of the Earth's surface has been advanced by deep vision models, which often require lots of labeled multi-temporal images for training. However, collecting, preprocessing, and annotating multi-temporal remote sensing images at scale is non-trivial since it is expensive and knowledge-intensive. In this paper, we present change data generators based on generative models, which are cheap and automatic, alleviating these data problems. Our main idea is to simulate a stochastic change process over time. We describe the stochastic change process as a probabilistic graphical model (GPCM), which factorizes the complex simulation problem into two more tractable sub-problems, i.e., change event simulation and semantic change synthesis. To solve these two problems, we present Changen2, a GPCM with a resolution-scalable diffusion transformer which can generate time series of images and their semantic and change labels from labeled or unlabeled single-temporal images. Changen2 is a generative change foundation model that can be trained at scale via self-supervision, and can produce change supervisory signals from unlabeled single-temporal images. Unlike existing foundation models, Changen2 synthesizes change data to train task-specific foundation models for change detection. The resulting model possesses inherent zero-shot change detection capabilities and excellent transferability. Experiments suggest Changen2 has superior spatiotemporal scalability, e.g., Changen2 model trained on 256$^2$ pixel single-temporal images can yield time series of any length and resolutions of 1,024$^2$ pixels. Changen2 pre-trained models exhibit superior zero-shot performance (narrowing the performance gap to 3% on LEVIR-CD and approximately 10% on both S2Looking and SECOND, compared to fully supervised counterparts) and transferability across multiple types of change tasks. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# シュレーディンガーの猫状態へのエンタングリング : ベル状態の種や猫の交替による
Entangling Schrödinger's cat states by seeding a Bell state or swapping the cats ( http://arxiv.org/abs/2406.17999v1 ) ライセンス: Link先を確認 | Daisuke Hoshi, Toshiaki Nagase, Sangil Kwon, Daisuke Iyama, Takahiko Kamiya, Shiori Fujii, Hiroto Mukai, Shahnawaz Ahmed, Anton Frisk Kockum, Shohei Watabe, Fumiki Yoshihara, Jaw-Shen Tsai, | (参考訳) 量子情報処理では、離散変数(DV)と連続変数(CV)空間における量子状態の構造に基づく2つの主要な研究方向が出現している。
これら2つのアプローチを統合することで、それぞれ固有の制限を克服し、新たなポテンシャルを解放できることがますます認識されている。
ここでは,超伝導Kerrパラメトリック発振器(KPOs)に応用したDV-CVハイブリッドアプローチにより,2つの簡単な方法により,一対のSchr\"odinger's cat状態が絡み合うことを示す。
第1の方法は、フォック状態ベース(DVエンコーディング)とキャット状態ベース(CVエンコーディング)のベル状態間の絡み合い保存および決定論的変換を含む。
この手法により、フォック状態ベースで開発された従来のスキームを用いて、キャット状態ベースで量子ネットワークを構築することができる。
2番目のメソッドでは、Fock-stateエンコーディングで使用される手順に従って、$\sqrt{\textrm{iSWAP}}$ gate 操作が2つの猫状態の間で実行される。
このCV符号上のDV様ゲート操作は、KPOシステムにおける普遍的な量子ゲートセットのデモンストレーションを完了させるだけでなく、ボソニックモードにおける以前のSWAPゲート実装と比較して、より高速で簡単なゲート操作を可能にする。
我々の研究は、DV-CVハイブリッド化のシンプルながら強力なアプリケーションを提供しながら、この平面KPOシステムのスケーラビリティを強調しています。
In quantum information processing, two primary research directions have emerged: one based on discrete variables (DV) and the other on the structure of quantum states in a continuous-variable (CV) space. It is increasingly recognized that integrating these two approaches could unlock new potentials, overcoming the inherent limitations of each. Here, we show that such a DV-CV hybrid approach, applied to superconducting Kerr parametric oscillators (KPOs), enables us to entangle a pair of Schr\"odinger's cat states by two straightforward methods. The first method involves the entanglement-preserving and deterministic conversion between Bell states in the Fock-state basis (DV encoding) and those in the cat-state basis (CV encoding). This method would allow us to construct quantum networks in the cat-state basis using conventional schemes originally developed for the Fock-state basis. In the second method, the $\sqrt{\textrm{iSWAP}}$ gate operation is implemented between two cat states following the procedure used for Fock-state encoding. This DV-like gate operation on CV encoding not only completes the demonstration of a universal quantum gate set in a KPO system but also enables faster and simpler gate operations compared to previous SWAP gate implementations on bosonic modes. Our work offers a simple yet powerful application of DV-CV hybridization while also highlighting the scalability of this planar KPO system. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# カーネル法のためのスケーラブルなデュアルコーディネートダイス
Scalable Dual Coordinate Descent for Kernel Methods ( http://arxiv.org/abs/2406.18001v1 ) ライセンス: Link先を確認 | Zishan Shao, Aditya Devarakonda, | (参考訳) 二重座標 Descent (DCD) とブロック二重座標 Descent (BDCD) は凸最適化問題を解決するための重要な反復法である。
本研究では,カーネルサポートベクトルマシン(K-SVM)とカーネルリッジ回帰(K-RR)問題に対するスケーラブルなDCDおよびBDCD手法を開発する。
分散メモリ並列マシンでは、これらのメソッドのスケーラビリティはイテレーション毎に通信する必要があるため制限される。
通信が桁違いに高価である現代のハードウェアでは、DCDおよびBDCD方式の実行時間は通信コストに支配される。
K-SVM と K-RR の問題をそれぞれ解くために DCD と BDCD の$s$-step バリアントを導出することで,この通信ボトルネックに対処する。
$s$-stepの変種は、追加の帯域幅と計算を犠牲にして$s$の調整可能な係数で通信の頻度を減少させる。
$s$-stepの変種は、正確な算術で既存のメソッドと同じ解を計算する。
数値実験により、$s$-step の変種は、大きな値が$s$であっても有限算術において数値的に安定であることを示す。
我々は,新たに設計された変種の計算と通信コストを,先行順まで拘束する理論的解析を行う。
最後に,CとMPIで記述された高性能実装を開発し,Cray EXクラスタ上でのスケーリング実験を行う。
新しい$s$-stepは、最大$512$コアを使用する既存のメソッドよりも9.8\times$の強力なスケーリングスピードアップを実現した。
Dual Coordinate Descent (DCD) and Block Dual Coordinate Descent (BDCD) are important iterative methods for solving convex optimization problems. In this work, we develop scalable DCD and BDCD methods for the kernel support vector machines (K-SVM) and kernel ridge regression (K-RR) problems. On distributed-memory parallel machines the scalability of these methods is limited by the need to communicate every iteration. On modern hardware where communication is orders of magnitude more expensive, the running time of the DCD and BDCD methods is dominated by communication cost. We address this communication bottleneck by deriving $s$-step variants of DCD and BDCD for solving the K-SVM and K-RR problems, respectively. The $s$-step variants reduce the frequency of communication by a tunable factor of $s$ at the expense of additional bandwidth and computation. The $s$-step variants compute the same solution as the existing methods in exact arithmetic. We perform numerical experiments to illustrate that the $s$-step variants are also numerically stable in finite-arithmetic, even for large values of $s$. We perform theoretical analysis to bound the computation and communication costs of the newly designed variants, up to leading order. Finally, we develop high performance implementations written in C and MPI and present scaling experiments performed on a Cray EX cluster. The new $s$-step variants achieved strong scaling speedups of up to $9.8\times$ over existing methods using up to $512$ cores. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# 限定教師監督による復号は、教師を信頼する時を理解する必要がある
Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher ( http://arxiv.org/abs/2406.18002v1 ) ライセンス: Link先を確認 | Hyunjong Ok, Jegwang Ryu, Jaeho Lee, | (参考訳) sLLMはどのようにしてLLMの監督を効果的に活用し、その生成品質を向上するか?
この問題は、使用可能なLLMインスペクタの数を制限しないシナリオでよく研究されており、さらなるトレーニングなしにインスペクタを利用する多くのデコードアルゴリズムが誕生している。
しかし, LLM が生成できるトークンが数個しかないと仮定する, 限られた監督シナリオの下では, 有効戦略が何であるかは, いまだ不明である。
そこで本研究では,初期トークン上でのsLLMとLLM予測を効果的に集約し,sLLMによるトークン生成をより正確に条件付けるアルゴリズムを開発した。
批判的には、sLLMの信頼性に基づいて、LLM予測を適応的に過信または無視することが重要である。
幅広いモデルやデータセットの実験を通じて,従来の復号法よりも一貫した改善が得られたことを実証した。
How can sLLMs efficiently utilize the supervision of LLMs to improve their generative quality? This question has been well studied in scenarios where there is no restriction on the number of LLM supervisions one can use, giving birth to many decoding algorithms that utilize supervision without further training. However, it is still unclear what is an effective strategy under the limited supervision scenario, where we assume that no more than a few tokens can be generated by LLMs. To this end, we develop an algorithm to effectively aggregate the sLLM and LLM predictions on initial tokens so that the generated tokens can more accurately condition the subsequent token generation by sLLM only. Critically, we find that it is essential to adaptively overtrust or disregard the LLM prediction based on the confidence of the sLLM. Through our experiments on a wide range of models and datasets, we demonstrate that our method provides a consistent improvement over conventional decoding strategies. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# 骨格変換による骨格に基づく行動認識のための表現的キーポイント
Expressive Keypoints for Skeleton-based Action Recognition via Skeleton Transformation ( http://arxiv.org/abs/2406.18011v1 ) ライセンス: Link先を確認 | Yijie Yang, Jinlu Zhang, Jiaxu Zhang, Zhigang Tu, | (参考訳) 骨格に基づく行動認識の領域では、粗い身体のキーポイントに依存する従来の方法は、微妙な人間の行動を捉えるには不十分である。
本研究では,手と足の詳細を組み込んだ表現的キーポイントを提案する。
表現的キーポイントを効率的にモデル化するために、スケルトン変換戦略が提示され、重要重量を割り振ることで、キーポイントを徐々に縮小し、顕著な関節を優先する。
さらに、プラグアンドプレイのインスタンスプールモジュールを使用して、計算コストを増大させることなく、アプローチをマルチパーソンシナリオに拡張します。
7つのデータセットに対する大規模な実験結果から,骨格に基づく人間の行動認識の最先端技術と比較して,本手法の優位性が示された。
コードはhttps://github.com/YijieYang23/SkeleT-GCNで公開されている。
In the realm of skeleton-based action recognition, the traditional methods which rely on coarse body keypoints fall short of capturing subtle human actions. In this work, we propose Expressive Keypoints that incorporates hand and foot details to form a fine-grained skeletal representation, improving the discriminative ability for existing models in discerning intricate actions. To efficiently model Expressive Keypoints, the Skeleton Transformation strategy is presented to gradually downsample the keypoints and prioritize prominent joints by allocating the importance weights. Additionally, a plug-and-play Instance Pooling module is exploited to extend our approach to multi-person scenarios without surging computation costs. Extensive experimental results over seven datasets present the superiority of our method compared to the state-of-the-art for skeleton-based human action recognition. Code is available at https://github.com/YijieYang23/SkeleT-GCN. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# 適応的なビュー合成を用いた多目的シーンにおけるビュー不変の画素異常検出
View-Invariant Pixelwise Anomaly Detection in Multi-object Scenes with Adaptive View Synthesis ( http://arxiv.org/abs/2406.18012v1 ) ライセンス: Link先を確認 | Subin Varghese, Vedhus Hoskere, | (参考訳) インフラ資産の検査と監視には、通常、定期的に撮影されるシーンの視覚異常を特定する必要がある。
手動で収集した画像や、同じ場面で同じシーンから無人航空機などのロボットで撮影された画像は、通常は完全に一致していない。
監視されたセグメンテーション手法は既知の問題を特定するために応用できるが、未知の異常が発生した場合、教師なしの異常検出手法が必要である。
現在の無監督画素レベルの異常検出法は主に、カメラの位置が知られ、一定である産業環境で開発された。
しかし,画像が完全に整列していない場合には,これらの手法が一般化に失敗する。
本稿では,2つの不完全整列画像間の教師なし異常検出の問題点を,Scene Anomaly Detection (Scene AD) と呼ぶ。
提案するScene AD問題に対処するために,OmniADと呼ばれる新しいネットワークを提案する。
具体的には, 逆蒸留法を改良し, 画素レベルの異常検出性能を40%向上させる。
このネットワークの性能は、新しいビュー合成とカメラのローカライゼーションを活用して一般化を改善する2つの新しいデータ拡張戦略によってさらに向上することが示されている。
新しいデータセットであるToyCityは、複数のオブジェクトを持つ最初のScene ADデータセットであり、確立された単一のオブジェクト中心のデータセットであるMADにも当てはまる。
https://drags99.github.io/OmniAD/
The inspection and monitoring of infrastructure assets typically requires identifying visual anomalies in scenes periodically photographed over time. Images collected manually or with robots such as unmanned aerial vehicles from the same scene at different instances in time are typically not perfectly aligned. Supervised segmentation methods can be applied to identify known problems, but unsupervised anomaly detection approaches are required when unknown anomalies occur. Current unsupervised pixel-level anomaly detection methods have mainly been developed for industrial settings where the camera position is known and constant. However, we find that these methods fail to generalize to the case when images are not perfectly aligned. We term the problem of unsupervised anomaly detection between two such imperfectly aligned sets of images as Scene Anomaly Detection (Scene AD). We present a novel network termed OmniAD to address the Scene AD problem posed. Specifically, we refine the anomaly detection method reverse distillation to achieve a 40% increase in pixel-level anomaly detection performance. The network's performance is further demonstrated to improve with two new data augmentation strategies proposed that leverage novel view synthesis and camera localization to improve generalization. We validate our approach with qualitative and quantitative results on a new dataset, ToyCity, the first Scene AD dataset with multiple objects, as well as on the established single object-centric dataset, MAD. https://drags99.github.io/OmniAD/ | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# 非断熱力学下における一次元トポロジカルチェーンにおける量子状態輸送の普遍的スケーリング
Universal scaling of quantum state transport in one-dimensional topological chain under nonadiabatic dynamics ( http://arxiv.org/abs/2406.18016v1 ) ライセンス: Link先を確認 | Lingzi Huang, Menghua Deng, Chen Sun, Fuxiang Li, | (参考訳) 連続相転移によって系が駆動されるとき、トポロジカル欠陥の密度は、キブル・ズールク機構によって予測されるように、ゆるいスケーリング挙動とクエンチング速度とを示す。
本研究では,このアイデアを一般化し,一次元トポロジカルシステムにおいて,そのトポロジカル量子相転移点を通る線形駆動を受ける量子状態輸送のスケーリングに対処する。
駆動速度における量子状態の輸送距離,幅,ピークマグニチュードの電力-法則依存性について述べる。
重要なことに、パワーロー指数はエッジ状態とバルク状態に対して異なる。
我々の結果は、量子状態移動に関する新しい視点を提供し、キブル・ズールクの振る舞いと非断熱量子力学の場を豊かにする。
When a system is driven across a continuous phase transition, the density of topological defects demonstrates a power-law scaling behavior versus the quenching rate, as predicted by Kibble-Zurek mechanism. In this study, we generalized this idea and address the scaling of quantum state transport in a one-dimensional topological system subject to a linear drive through its topological quantum phase transition point. We illustrate the power-law dependencies of the quantum state's transport distance, width, and peak magnitude on the driving velocity. Crucially, the power-law exponents are distinct for the edge state and bulk state. Our results offer a novel perspective on quantum state transfer and enriches the field of Kibble-Zurek behaviors and nonadiabatic quantum dynamics. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# MolFusion:マルチグラニュラビューによる分子表現のためのマルチモーダル融合学習
MolFusion: Multimodal Fusion Learning for Molecular Representations via Multi-granularity Views ( http://arxiv.org/abs/2406.18020v1 ) ライセンス: Link先を確認 | Muzhen Cai, Sendong Zhao, Haochun Wang, Yanrui Du, Zewen Qiang, Bing Qin, Ting Liu, | (参考訳) 人工知能は、薬物分子をコードし、候補の迅速なスクリーニングを支援することによって、薬物の性質を予測する。
SMILESや分子グラフのような異なる分子表現は、分子エンコーディングのための相補的な情報を含んでいる。
したがって、異なる分子表現から相補的な情報を活用することは、分子エンコーディングにおける研究の優先事項の1つである。
分子多量体を結合するほとんどの方法では分子レベルの情報しか使用せず、分子内アライメント情報を異なるモダリティ間でエンコードすることが困難である。
この問題に対処するため,MolFusion と呼ばれる多粒性融合法を提案する。
提案したMollFusionは,(1)分子レベルで異なる分子表現間の分子レベルのアライメントを実現する分子レベルのコード化コンポーネントであるMollSimの2つの主要成分から構成される。
AtomAlignは、異なる分子表現間の原子レベルアライメントを実現する原子レベルエンコーディングコンポーネントである。
実験結果から,MolFusionは相補的マルチモーダル情報を効果的に活用し,様々な分類タスクや回帰タスクにおいて性能が大幅に向上することが示された。
Artificial Intelligence predicts drug properties by encoding drug molecules, aiding in the rapid screening of candidates. Different molecular representations, such as SMILES and molecule graphs, contain complementary information for molecular encoding. Thus exploiting complementary information from different molecular representations is one of the research priorities in molecular encoding. Most existing methods for combining molecular multi-modalities only use molecular-level information, making it hard to encode intra-molecular alignment information between different modalities. To address this issue, we propose a multi-granularity fusion method that is MolFusion. The proposed MolFusion consists of two key components: (1) MolSim, a molecular-level encoding component that achieves molecular-level alignment between different molecular representations. and (2) AtomAlign, an atomic-level encoding component that achieves atomic-level alignment between different molecular representations. Experimental results show that MolFusion effectively utilizes complementary multimodal information, leading to significant improvements in performance across various classification and regression tasks. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# SC-MoE:Unified Streaming and Non-streaming Code-Switching ASRの専門家のスイッチコンバータミックス
SC-MoE: Switch Conformer Mixture of Experts for Unified Streaming and Non-streaming Code-Switching ASR ( http://arxiv.org/abs/2406.18021v1 ) ライセンス: Link先を確認 | Shuaishuai Ye, Shunfei Chen, Xinhui Hu, Xinkang Xu, | (参考訳) 本研究では,SC-MoE の符号化におけるルータとして接続時分類 (CTC) の損失を持つ言語識別 (LID) ネットワークと,マンダリン, 英語, 空白の3つの言語専門家からなるストリーミング MoE 層を設計し, SC-MoE の符号化器のルータとして, SC-MoE の符号化と非ストリーミングコードスイッチング (CS) 自動音声認識 (ASR) を実現するスイッチコンフォーマーベースの MoE システムを提案する。
テキストに埋め込まれた言語情報をさらに活用するために、SC-MoEのデコーダにMoE層を組み込む。
さらに、エンコーダとデコーダのすべてのMoE層にルータを導入し、より優れた認識性能を実現する。
実験結果から,SC-MoEはベースラインよりもCS ASR性能を有意に向上し,計算効率は同等であった。
In this work, we propose a Switch-Conformer-based MoE system named SC-MoE for unified streaming and non-streaming code-switching (CS) automatic speech recognition (ASR), where we design a streaming MoE layer consisting of three language experts, which correspond to Mandarin, English, and blank, respectively, and equipped with a language identification (LID) network with a Connectionist Temporal Classification (CTC) loss as a router in the encoder of SC-MoE to achieve a real-time streaming CS ASR system. To further utilize the language information embedded in text, we also incorporate MoE layers into the decoder of SC-MoE. In addition, we introduce routers into every MoE layer of the encoder and the decoder and achieve better recognition performance. Experimental results show that the SC-MoE significantly improves CS ASR performances over baseline with comparable computational efficiency. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# AutoOPE: オフ・ポリティ・エスペクタの自動選択
AutoOPE: Automated Off-Policy Estimator Selection ( http://arxiv.org/abs/2406.18022v1 ) ライセンス: Link先を確認 | Nicolò Felicioni, Michael Benigni, Maurizio Ferrari Dacrema, | (参考訳) オフ・ポリティ・アセスメント(OPE)問題(Off-Policy Evaluation)は、相手が収集したデータを用いて、反現実的なポリシーのパフォーマンスを評価することである。
この問題は、例えば、レコメンデーションシステム、医療治療など、さまざまなアプリケーション領域において最も重要である。
OPEの問題を解決するために,我々は,ロギングポリシに代えて配置された場合の対策策が持つパフォーマンスを,最も正確な方法で推定することを目的とした推定器を利用する。
文献では、様々な特性と理論的保証を持ついくつかの推定器が開発されている。
したがって、支配的な推定器はなく、各推定器は、手元にあるデータセットの特性に応じて、異なるOPE問題に最適な推定器である可能性がある。
推定器の選択は正確なOPEにとって決定的な選択であるが、この問題は文献で広く見過ごされてきた。
機械学習に基づく自動データ駆動型OPE推定器選択法を提案する。
特に,本論文で提案する中核的な考え方は,複数の合成OPEタスクを作成し,それらの合成タスクに最適な推定器を予測するために訓練された機械学習モデルを使用することである。
提案手法は,複数の実世界のデータセットのベースライン法と比較して,計算コストが基本ラインよりも大幅に低く,不特定タスクに一般化し,より優れた推定子選択を実現できることを実証的に示す。
The Off-Policy Evaluation (OPE) problem consists of evaluating the performance of counterfactual policies with data collected by another one. This problem is of utmost importance for various application domains, e.g., recommendation systems, medical treatments, and many others. To solve the OPE problem, we resort to estimators, which aim to estimate in the most accurate way possible the performance that the counterfactual policies would have had if they were deployed in place of the logging policy. In the literature, several estimators have been developed, all with different characteristics and theoretical guarantees. Therefore, there is no dominant estimator, and each estimator may be the best one for different OPE problems, depending on the characteristics of the dataset at hand. While the selection of the estimator is a crucial choice for an accurate OPE, this problem has been widely overlooked in the literature. We propose an automated data-driven OPE estimator selection method based on machine learning. In particular, the core idea we propose in this paper is to create several synthetic OPE tasks and use a machine learning model trained to predict the best estimator for those synthetic tasks. We empirically show how our method is able to generalize to unseen tasks and make a better estimator selection compared to a baseline method on several real-world datasets, with a computational cost significantly lower than the one of the baseline. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# 知識条件付きLLMを用いた臨床データの自動抽出
Automated Clinical Data Extraction with Knowledge Conditioned LLMs ( http://arxiv.org/abs/2406.18027v1 ) ライセンス: Link先を確認 | Diya Li, Asim Kadav, Aijing Gao, Rui Li, Richard Bourgon, | (参考訳) 臨床・医療画像からの肺病変情報の抽出は肺疾患の研究・治療に不可欠である。
大規模言語モデル(LLM)は、レポート中の非構造化テキストの解釈に有効であるが、ドメイン固有の知識の欠如により幻覚し、精度が低下し、臨床現場での使用が困難になる。
そこで本研究では,テキスト内学習(ICL)を通じて生成した内部知識を外部知識と整合させる新しい枠組みを提案する。
本フレームワークでは,内部知識及び外部知識の関連単位を抽出し,抽出した内部知識規則の真偽と有用性を評価し,知識基盤の整合と更新を行う。
我々の知識条件によるアプローチは、抽出タスクを2段階に分けてLLM出力の精度と信頼性を向上させる。
i)肺病変の検出と一次構造解析
(ii) 病変記述テキストのさらなる解析を付加的な構造体にすること。
専門家による試験データセットを用いた実験により、このICLアプローチは、キーフィールド(配列サイズ、マージン、ソリティー)のF1スコアを既存のICLメソッドよりも平均12.9%向上させることができることが示された。
The extraction of lung lesion information from clinical and medical imaging reports is crucial for research on and clinical care of lung-related diseases. Large language models (LLMs) can be effective at interpreting unstructured text in reports, but they often hallucinate due to a lack of domain-specific knowledge, leading to reduced accuracy and posing challenges for use in clinical settings. To address this, we propose a novel framework that aligns generated internal knowledge with external knowledge through in-context learning (ICL). Our framework employs a retriever to identify relevant units of internal or external knowledge and a grader to evaluate the truthfulness and helpfulness of the retrieved internal-knowledge rules, to align and update the knowledge bases. Our knowledge-conditioned approach also improves the accuracy and reliability of LLM outputs by addressing the extraction task in two stages: (i) lung lesion finding detection and primary structured field parsing, followed by (ii) further parsing of lesion description text into additional structured fields. Experiments with expert-curated test datasets demonstrate that this ICL approach can increase the F1 score for key fields (lesion size, margin and solidity) by an average of 12.9% over existing ICL methods. | 翻訳日:2024-06-27 14:57:54 公開日:2024-06-26 |
# 量子ルックアップテーブルのための統一アーキテクチャ
Unified Architecture for a Quantum Lookup Table ( http://arxiv.org/abs/2406.18030v1 ) ライセンス: Link先を確認 | Shuchen Zhu, Aarthi Sundaram, Guang Hao Low, | (参考訳) ユニタリブラックボックスで符号化された任意の古典的データへの量子アクセスは、機械学習や電子構造シミュレーションのような興味深いデータ集約型量子アルゴリズムの基盤となる。
これらの応用の実現性は、古典的なルックアップテーブルに対するブール回路の可逆版であるこれらのオラクルのゲート効率の実装に大きく依存する。
本稿では、量子回路において、量子ビット間の最適トレードオフ、非クリフォードゲート、エラーレジリエンスの連続性を実現するための全ての先行作業を含むルックアップテーブルを実装した一般的なパラメータ化アーキテクチャを提案する。
我々のアーキテクチャは局所的な2D接続のみを前提としていますが、以前は全対全接続が必要であった結果、特に適切なパラメータ、多対数誤差スケーリングを要求していました。
また、全てのパラメータにおける同時サブ線形スケーリングのような新しい状態も同定する。
これらの結果により、制限されたリソースを持つ任意の量子デバイスに対して、一般的に使用されるルックアップテーブルプリミティブの実装を調整できる。
Quantum access to arbitrary classical data encoded in unitary black-box oracles underlies interesting data-intensive quantum algorithms, such as machine learning or electronic structure simulation. The feasibility of these applications depends crucially on gate-efficient implementations of these oracles, which are commonly some reversible versions of the boolean circuit for a classical lookup table. We present a general parameterized architecture for quantum circuits implementing a lookup table that encompasses all prior work in realizing a continuum of optimal tradeoffs between qubits, non-Clifford gates, and error resilience, up to logarithmic factors. Our architecture assumes only local 2D connectivity, yet recovers results that previously required all-to-all connectivity, particularly, with the appropriate parameters, poly-logarithmic error scaling. We also identify novel regimes, such as simultaneous sublinear scaling in all parameters. These results enable tailoring implementations of the commonly used lookup table primitive to any given quantum device with constrained resources. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# リアルタイム構造流れ
Real-time Structure Flow ( http://arxiv.org/abs/2406.18031v1 ) ライセンス: Link先を確認 | Juan David Adarve, Robert Mahony, | (参考訳) 本稿では,ロボットと自律走行車の移動制御のための高速なロボット中心モーション情報を提供する構造流れ場について紹介する。
構造フローは、所定のピクセルにおけるシーンの角3次元速度である。
構造フローは部分微分方程式 (Partial Differential Equation, PDE) の形でエレガントな進化モデルを持ち, 時間内に高密度な流れを予測できることを示す。
我々はこの構造を利用して、画像と深さの測定を用いて、構造の流れをリアルタイムで計算する予測器更新アルゴリズムを設計する。
予測段階は、構造フローPDEの数値的な実装を用いて、前回の構造フローの見積を行い、時間内に伝播する。
予測フローは、新しい画像と深さデータを使って更新される。
このアルゴリズムは、最大8ピクセルのフロー値を持つ512x512イメージのために、Desktop GPUマシン上で最大600Hzで動作する。
本研究では,高速合成画像列の地上真実検証と実写映像の運転シナリオに関する結果について述べる。
This article introduces the structure flow field; a flow field that can provide high-speed robo-centric motion information for motion control of highly dynamic robotic devices and autonomous vehicles. Structure flow is the angular 3D velocity of the scene at a given pixel. We show that structure flow posses an elegant evolution model in the form of a Partial Differential Equation (PDE) that enables us to create dense flow predictions forward in time. We exploit this structure to design a predictor-update algorithm to compute structure flow in real time using image and depth measurements. The prediction stage takes the previous estimate of the structure flow and propagates it forward in time using a numerical implementation of the structure flow PDE. The predicted flow is then updated using new image and depth data. The algorithm runs up to 600 Hz on a Desktop GPU machine for 512x512 images with flow values up to 8 pixels. We provide ground truth validation on high-speed synthetic image sequences as well as results on real-life video on driving scenarios. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# 通信衛星による分散ネットワークプロトコル
A Communication Satellite Servises Based Decentralized Network Protocol ( http://arxiv.org/abs/2406.18032v1 ) ライセンス: Link先を確認 | Xiao Yan, Bernie Gao, | (参考訳) 本稿では,通信衛星サービスに基づく分散型ネットワークプロトコルであるSpace Network Protocolを提案する。
このプロトコルは、ブロックチェーンネットワーク全体にわたって衛星通信サービスのステータスに関する情報を配布する方法を概説し、すべての通信サービスの公正性と透明性を促進する。
我々の主な目的は、通信衛星プロトコルの下で全衛星ネットワークが配信するサービスを標準化することである。
この標準は、衛星や端末のハードウェアに関連する潜在的な不安定さに関わらず、そのまま維持される。
通信衛星がオンラインであるかどうかを検証するため,PoD(Proof of Distribution)とPoF(Proof of Flow)を提案し,通信衛星が提供する実際のデータフローを認証した。
また,通信衛星のメッシュ化に成功しているかどうかを検証するため,PoM(Proof of Mesh)を提案する。
ゼロ知識証明とマルチパーティ暗号計算を利用することで、潜在的な端末やネットワークノード不正の存在下であっても、各衛星のサービス提供パラメータを評価することができる。
この方法は分散ネットワークサービスのモデリングを技術的にサポートする。
In this paper, we present a decentralized network protocol, Space Network Protocol, based on Communication Satellite Services. The protocol outlines a method for distributing information about the status of satellite communication services across the entire blockchain network, facilitating fairness and transparency in all communication services. Our primary objective is to standardize the services delivered by all satellite networks under the communication satellite protocol. This standard remains intact regardless of potential unreliability associated with the satellites or the terminal hardware. We proposed PoD (Proof of Distribution) to verify if the communication satellites are online and PoF (Proof of Flow) to authenticate the actual data flow provided by the communication satellites. In addition, we also proposed PoM (Proof of Mesh) to verify if the communication satellites have successfully meshed together. Utilizing zero-knowledge proof and multi-party cryptographic computations, we can evaluate the service provisioning parameters of each satellite, even in the presence of potential terminal or network node fraud. This method offers technical support for the modeling of distributed network services. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# 境界によるソフトQ-Learningの強化
Boosting Soft Q-Learning by Bounding ( http://arxiv.org/abs/2406.18033v1 ) ライセンス: Link先を確認 | Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni, | (参考訳) エージェントが過去の経験を活用する能力は、新しいタスクを効率的に解決するために重要である。
以前の研究は、新しいタスクに対するソリューションのゼロショット近似を得るために、値関数の見積を使うことに重点を置いていた。
ソフトQ-ラーニングでは、任意の値関数推定が最適値関数上の二辺境界の導出にも利用できることを示す。
得られたバウンダリは,実験により検証したトレーニング性能向上のための新しいアプローチにつながる。
特に,提案手法はQ関数を更新する代替手法として提案され,性能が向上した。
An agent's ability to leverage past experience is critical for efficiently solving new tasks. Prior work has focused on using value function estimates to obtain zero-shot approximations for solutions to a new task. In soft Q-learning, we show how any value function estimate can also be used to derive double-sided bounds on the optimal value function. The derived bounds lead to new approaches for boosting training performance which we validate experimentally. Notably, we find that the proposed framework suggests an alternative method for updating the Q-function, leading to boosted performance. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# 医師のためのLLM: 医師を支援するために医療用LLMを活用
LLMs for Doctors: Leveraging Medical LLMs to Assist Doctors, Not Replace Them ( http://arxiv.org/abs/2406.18034v1 ) ライセンス: Link先を確認 | Wenya Xie, Qingying Xiao, Yu Zheng, Xidong Wang, Junying Chen, Ke Ji, Anningzhe Gao, Xiang Wan, Feng Jiang, Benyou Wang, | (参考訳) 近年のLarge Language Models(LLMs)の成功は、医療分野に大きな影響を与え、患者に医療アドバイス、診断情報などを提供している。
しかし、専門的な医療知識が不足しているため、患者はLSMから生成された誤った情報によって容易に誤解され、深刻な医療上の問題を引き起こす可能性がある。
この問題に対処するために、より経験豊富な医師と協力する医療助手としてLLMを調整することに注力する。
まずインスピレーション・フィードバックによる2段階調査を行い,医師の本当のニーズを広く把握した。
これに基づいて、22のタスクから92KのQ\&Aサンプルと27のスペシャリストを含む医師のワークフロー全体をサポートするために、DoctorFLANという中国の医療データセットを構築した。
さらに、550個のシングルターンQ\&Aと、74個のマルチターン会話を含むDotaBenchを含むDoctorFLAN-\textit{test}を構築することで、医師指向のシナリオにおけるLCMを評価する。
評価結果から,既存のオープンソースモデルでは医療アシスタントが依然として課題となっていることが示唆されるが,DoctorFLANは彼らを大いに助けることができる。
これは、我々が構築した医師指向のデータセットとベンチマークが、既存の患者指向の作業を補完し、医療用LLMの研究をより促進できることを示します。
The recent success of Large Language Models (LLMs) has had a significant impact on the healthcare field, providing patients with medical advice, diagnostic information, and more. However, due to a lack of professional medical knowledge, patients are easily misled by generated erroneous information from LLMs, which may result in serious medical problems. To address this issue, we focus on tuning the LLMs to be medical assistants who collaborate with more experienced doctors. We first conduct a two-stage survey by inspiration-feedback to gain a broad understanding of the real needs of doctors for medical assistants. Based on this, we construct a Chinese medical dataset called DoctorFLAN to support the entire workflow of doctors, which includes 92K Q\&A samples from 22 tasks and 27 specialists. Moreover, we evaluate LLMs in doctor-oriented scenarios by constructing the DoctorFLAN-\textit{test} containing 550 single-turn Q\&A and DotaBench containing 74 multi-turn conversations. The evaluation results indicate that being a medical assistant still poses challenges for existing open-source models, but DoctorFLAN can help them significantly. It demonstrates that the doctor-oriented dataset and benchmarks we construct can complement existing patient-oriented work and better promote medical LLMs research. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# 過パラメータ化におけるディープニューラルネットワークの局所線形回復保証
Local Linear Recovery Guarantee of Deep Neural Networks at Overparameterization ( http://arxiv.org/abs/2406.18035v1 ) ライセンス: Link先を確認 | Yaoyu Zhang, Leyang Zhang, Zhongwang Zhang, Zhiwei Bai, | (参考訳) 深層ニューラルネットワーク(DNN)モデルが過パラメータ化時にターゲット関数を確実に回復できるかどうかを判断することは、ディープラーニング理論において重要で複雑な問題である。
この領域の理解を深めるために、我々は「局所線形回復(LLR)」という概念を導入する。
LLRの意味では、より狭いDNNで表現可能な関数は、モデルパラメータよりも少ないサンプルから復元可能であることが保証されている。
具体的には、与えられたDNN空間の関数に対して、LLRを保証するのに必要な最小のサンプルサイズとして定義される楽観的なサンプルサイズに上限を確立する。
さらに,2層タンニューラルネットの場合,これらの上限が達成されることを示す。
本研究は, 過パラメータ化シナリオにおけるDNNの回復能力に関する今後の研究の基盤を固めるものである。
Determining whether deep neural network (DNN) models can reliably recover target functions at overparameterization is a critical yet complex issue in the theory of deep learning. To advance understanding in this area, we introduce a concept we term "local linear recovery" (LLR), a weaker form of target function recovery that renders the problem more amenable to theoretical analysis. In the sense of LLR, we prove that functions expressible by narrower DNNs are guaranteed to be recoverable from fewer samples than model parameters. Specifically, we establish upper limits on the optimistic sample sizes, defined as the smallest sample size necessary to guarantee LLR, for functions in the space of a given DNN. Furthermore, we prove that these upper bounds are achieved in the case of two-layer tanh neural networks. Our research lays a solid groundwork for future investigations into the recovery capabilities of DNNs in overparameterized scenarios. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# スピン光共振器による単一光子サーキュレータの動作
Operating Single-Photon Circulator by Spinning Optical Resonators ( http://arxiv.org/abs/2406.18036v1 ) ライセンス: Link先を確認 | Jing Li, Tian-Xiang Lu, Meiyu Peng, Le-Man Kuang, Hui Jing, Lan Zhou, | (参考訳) サーキュレータは量子ネットワークやシミュレーションにおいて重要なデバイスの一つである。
2つの共振器と2つの導波路の結合系における1つの光子のコヒーレント伝送を研究することにより、ミューチ周波数ポイントでの単一光子のフローを制御する4ポート循環器を提案する。
両方の共振器が同じ角速度で静止または回転している場合、単光子輸送は相互性を示すが、角速度が異なる場合、4つの異なる周波数ポイントが光子循環が起こる。
特に、2つの共振器の角速度が等しい場合、光子循環が可能な2つの異なる周波数ポイントが存在し、導波路から入力された1つの光子を他の導波路に完全にルーティングできる周波数ポイントが存在する。
興味深いことに、2つの共振器を回転させることで、内部欠陥誘起後方散乱による単光子循環を抑制することができる。
A circulator is one of the crucial devices in quantum networks and simulations. We propose a four-port circulator that regulate the flow of single photons at muti-frequency points by studying the coherent transmission of a single photon in a coupled system of two resonators and two waveguides. When both resonators are static or rotate at the same angular velocity, single-photon transport demonstrates reciprocity; however, when the angular velocities differ, four distinct frequency points emerge where photon circulation can occur. In particular, when the angular velocities of the two resonators are equal and opposite, there are two different frequency points where photon circulation can be achieved, and there is a frequency point where a single photon input from any waveguide can be completely routed to the other waveguide. Interestingly, by rotating the two resonators, the single-photon circulation suppressed by the internal defect-induced backscattering can be restored. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# クロスサイト連続セグメンテーションのためのサイト変調拡散再生による同期記憶可能性と一般化可能性
Towards Synchronous Memorizability and Generalizability with Site-Modulated Diffusion Replay for Cross-Site Continual Segmentation ( http://arxiv.org/abs/2406.18037v1 ) ライセンス: Link先を確認 | Dunyuan Xu, Xi Wang, Jingyang Zhang, Pheng-Ann Heng, | (参考訳) プライバシの制限とストレージの制限により、実用的な画像診断問題を解決するためには、さまざまなデータサイトからシーケンシャルに学習する能力が、ディープネットワークにとって不可欠である。
しかし、到着地への適応は、過去の場所で破滅的な忘れ込みを招き、目に見えない場所での一般的な可視性を低下させる。
既存のCL(Continuous Learning)とDG(Domain Generalization)の2つの課題をそれぞれ解決する手法が提案されているが、どちらも同時に対処できない。
本稿では,この制限を認識し,SMG-Learning(Synchronous Memorizability and Generalizability)に向けた新しい学習パラダイムを提案する。
これを実現するために, 前回の地点での記憶可能性を確保するための方位勾配アライメントと, 未確認地点での一般化性を高めるための任意の勾配アライメントを作成する。
このアプローチはParallel Gradient Alignment (PGA)と名付けられた。
さらに、PGAを1次テイラー展開を用いた二重メタオブジェクトとして近似し、勾配の整列の計算コストを削減する。
そこで我々は, サイト固有の学習可能なプロンプトを持つ画像を生成するサイト変調拡散(SMD)モデルを設計し, 画像の再生は, 従来のサイトと類似したデータ分布を持つことを示した。
本手法は,2つの医療画像分割作業において,異なる場所からのデータが逐次到着する場面で評価する。
実験結果から,本手法は,他の最先端手法よりも記憶可能性,一般性の両方を効果的に向上させ,すべての部位で良好な性能を発揮できることが示唆された。
私たちのコードは、https://github.com/dyxu-cuhkcse/SMG-Learning.comで利用可能です。
The ability to learn sequentially from different data sites is crucial for a deep network in solving practical medical image diagnosis problems due to privacy restrictions and storage limitations. However, adapting on incoming site leads to catastrophic forgetting on past sites and decreases generalizablity on unseen sites. Existing Continual Learning (CL) and Domain Generalization (DG) methods have been proposed to solve these two challenges respectively, but none of them can address both simultaneously. Recognizing this limitation, this paper proposes a novel training paradigm, learning towards Synchronous Memorizability and Generalizability (SMG-Learning). To achieve this, we create the orientational gradient alignment to ensure memorizability on previous sites, and arbitrary gradient alignment to enhance generalizability on unseen sites. This approach is named as Parallel Gradient Alignment (PGA). Furthermore, we approximate the PGA as dual meta-objectives using the first-order Taylor expansion to reduce computational cost of aligning gradients. Considering that performing gradient alignments, especially for previous sites, is not feasible due to the privacy constraints, we design a Site-Modulated Diffusion (SMD) model to generate images with site-specific learnable prompts, replaying images have similar data distributions as previous sites. We evaluate our method on two medical image segmentation tasks, where data from different sites arrive sequentially. Experimental results show that our method efficiently enhances both memorizability and generalizablity better than other state-of-the-art methods, delivering satisfactory performance across all sites. Our code will be available at: https://github.com/dyxu-cuhkcse/SMG-Learning. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# MT2ST:シングルタスク学習への適応型マルチタスク
MT2ST: Adaptive Multi-Task to Single-Task Learning ( http://arxiv.org/abs/2406.18038v1 ) ライセンス: Link先を確認 | Dong Liu, Meng Jiang, | (参考訳) 従来のトレーニングアプローチでは、マルチタスク学習(MTL)の幅とシングルタスク学習(STL)の深さのバランスをとる上で、しばしば課題に直面している。
この問題に対処するために,Multi-Task to Single-Task (MT2ST) フレームワークを導入する。
私たちの活動には、"Diminish"と"Switch"の2つの戦略があります。
「ダイミッシュ」
戦略は、補助的なタスクの影響を徐々に減らし、一方で「スイッチ」戦略は、トレーニングプロセスの特定の時点において、マルチタスクからシングルタスクへとシフトする。
本稿では,単語埋め込み訓練の効率と精度を大幅に向上させるとともに,過度な適合などの問題に対処する新しい手法であるMT2ST(Multi-Task to Single-Task)フレームワークを提案する。
実験により,MT2STは,従来のマルチタスク学習法と比較して,シングルタスク学習法と比較して,トレーニング時間を67%削減できることがわかった。
これらの知見は,単語埋め込み訓練促進のための強力なツールであるMT2STの可能性を裏付けるものである。
The conventional training approaches often face challenges in balancing the breadth of multi-task learning (MTL) with the depth of single-task learning (STL). To address this issue, we introduce the Multi-Task to Single-Task (MT2ST) framework, a groundbreaking approach that can combine the generalizability of MTL with the precision of STL. Our work include two strategies: 'Diminish' and 'Switch'. 'Diminish' Strategy will gradually reduce the influence of auxiliary tasks, while the 'Switch' strategy involves a shift from multi-tasking to single-tasking at a specific timepoint at the training process. In this paper, we propose the Multi-Task to Single-Task (MT2ST) framework, a novel approach that significantly enhances the efficiency and accuracy of word embedding training while concurrently addressing prevalent issues such as overfitting. Our empirical studies demonstrate that MT2ST can reduce training time by 67\% when contrasted with single-task learning approaches, and by 13\% compared to traditional multi-task learning methods. These findings underscore MT2ST's potential to be a powerful tools for word embedding training acceleration. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# オープン量子系における一様定常状態としてのギブズアンサンブルの出現
Emergence of Gibbs Ensemble as the Unique Steady State in Open Quantum Systems ( http://arxiv.org/abs/2406.18041v1 ) ライセンス: Link先を確認 | Shi-Kang Sun, Shu Chen, | (参考訳) 我々は、Gibs ensemble $\rho_{\text{NESS}} \propto e^{-\beta \tilde{H}}$を特徴とするリンドブラッドマスター方程式のユニークな非平衡定常状態(NESS)を明示的に構成する。
具体的には、オリジナルのハミルトニアンが複数の電荷を持つ場合、それぞれ異なる温度で入浴するが、それでも平衡状態になる。
Gibbs NESSにアクセスするには、量子詳細バランス条件(qDBC)を満たすためにジャンプ演算子を適切に選択する必要がある。
これらのジャンプ作用素は$\tilde{H}$のはしご作用素であり、ジャンプ過程は頂点重み付き有向非巡回グラフ(wDAG)を形成する。
XXモデルとフレドキンモデルを研究することにより、ギブス状態がユニークな定常状態としてどのように現れるかを示す。
We explicitly construct unique non-equilibrium steady state (NESS) of Lindblad master equation characterized by a Gibbs ensemble $\rho_{\text{NESS}} \propto e^{-\beta \tilde{H}}$, where the effective Hamiltonian $\tilde{H}$ consists only of $U(1)$ conserved charges of the original Hamiltonian. Specifically, when the original Hamiltonian has multiple charges, it is possible to couple them with bathes at different temperature respectively, but still leads to an equilibrium state. To access the Gibbs NESS, the jump operators need to be properly chosen to fulfill quantum detailed balance condition (qDBC). These jump operators are ladder operators for $\tilde{H}$ and jump process they generate form a vertex-weighted directed acyclic graph (wDAG). By studying the XX model and Fredkin model, we showcase how the Gibbs state emerges as the unique steady state. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# 一般化剤のマルチモーダル基礎世界モデル
Multimodal foundation world models for generalist embodied agents ( http://arxiv.org/abs/2406.18043v1 ) ライセンス: Link先を確認 | Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Aaron Courville, Sai Rajeswar, | (参考訳) さまざまな領域におけるタスクの多タスクを解決できる汎用的なエージェントを学習することは、長年の課題である。
強化学習(RL)は、タスクごとに複雑な報酬設計を必要とするため、スケールアップが難しい。
対照的に、言語はより自然な方法でタスクを指定できる。
現在の基盤視覚言語モデル(VLM)は、ドメインギャップが大きいため、機能的に微調整やその他の適応を必要とすることが多い。
しかし、そのような領域におけるマルチモーダルデータの欠如は、具体化アプリケーションの基盤モデル開発への障害となっている。
本研究では, 言語アノテーションを使わずに, 基礎VLMの表現をRL生成世界モデルの潜在空間に接続し, 整合させることができる多モーダル基礎世界モデルを提案することで, これらの問題を克服する。
結果として得られるエージェント学習フレームワークであるGenRLは、視覚と/または言語プロンプトを通じてタスクを指定し、それを具体化されたドメインのダイナミクスに基盤にして、それに対応する振る舞いを想像で学ぶことができる。
大規模マルチタスクベンチマークによって評価されるように、GenRLは複数の移動および操作領域において強力なマルチタスク一般化性能を示す。
さらに、データフリーなRL戦略を導入することにより、汎用的なエンボディエージェントのための基礎モデルベースのRLの基盤となる。
Learning generalist embodied agents, able to solve multitudes of tasks in different domains is a long-standing problem. Reinforcement learning (RL) is hard to scale up as it requires a complex reward design for each task. In contrast, language can specify tasks in a more natural way. Current foundation vision-language models (VLMs) generally require fine-tuning or other adaptations to be functional, due to the significant domain gap. However, the lack of multimodal data in such domains represents an obstacle toward developing foundation models for embodied applications. In this work, we overcome these problems by presenting multimodal foundation world models, able to connect and align the representation of foundation VLMs with the latent space of generative world models for RL, without any language annotations. The resulting agent learning framework, GenRL, allows one to specify tasks through vision and/or language prompts, ground them in the embodied domain's dynamics, and learns the corresponding behaviors in imagination. As assessed through large-scale multi-task benchmarking, GenRL exhibits strong multi-task generalization performance in several locomotion and manipulation domains. Furthermore, by introducing a data-free RL strategy, it lays the groundwork for foundation model-based RL for generalist embodied agents. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# PharmGPT:生物薬理化学のためのドメイン特有な大規模言語モデル
PharmGPT: Domain-Specific Large Language Models for Bio-Pharmaceutical and Chemistry ( http://arxiv.org/abs/2406.18045v1 ) ライセンス: Link先を確認 | Linqing Chen, Weilei Wang, Zilong Bai, Peng Xu, Yan Fang, Jie Fang, Wentao Wu, Lizhi Zhou, Ruiji Zhang, Yubin Xia, Chaobo Xu, Ran Hu, Licong Xu, Qijun Cai, Haoran Hua, Jing Sun, Jin Liu, Tian Qiu, Haowen Liu, Meng Hu, Xiuwen Li, Fei Gao, Yufu Wang, Lin Tie, Chaochao Wang, Jianping Lu, Cheng Sun, Yixin Wang, Shengjie Yang, Yuancheng Li, Lu Jin, Lisha Zhang, Fu Bian, Changyang Tu, | (参考訳) 大規模言語モデル(LLM)は、複雑な機能工学の必要性を最小限に抑えて、自然言語処理(NLP)に革命をもたらした。
しかし、生物医薬品や化学といった専門分野へのLLMの応用は、まだほとんど解明されていない。
これらの分野の特徴は、複雑な用語、専門知識、そして汎用LLMがしばしば不足する精度の高い領域に対する高い需要である。
本研究では,13億~70億のパラメータを持つ多言語LLMのスイートであるPharmGPTについて紹介する。
評価の結果、PharmGPTはNAPLEXなどの主要なベンチマークで既存の一般的なモデルと一致し、ドメイン固有のタスクにおいて例外的な能力を示す。
この進歩は、バイオ医薬品・化学分野におけるLSMの新しいベンチマークを確立し、特殊言語モデリングにおける既存のギャップに対処する。
さらに、これらの専門分野における研究・開発を向上し、専門分野におけるNLPをより正確かつ効果的に活用する道を開くことを示唆している。
Large language models (LLMs) have revolutionized Natural Language Processing (NLP) by by minimizing the need for complex feature engineering. However, the application of LLMs in specialized domains like biopharmaceuticals and chemistry remains largely unexplored. These fields are characterized by intricate terminologies, specialized knowledge, and a high demand for precision areas where general purpose LLMs often fall short. In this study, we introduce PharmGPT, a suite of multilingual LLMs with 13 billion and 70 billion parameters, specifically trained on a comprehensive corpus of hundreds of billions of tokens tailored to the Bio-Pharmaceutical and Chemical sectors. Our evaluation shows that PharmGPT matches or surpasses existing general models on key benchmarks, such as NAPLEX, demonstrating its exceptional capability in domain-specific tasks. This advancement establishes a new benchmark for LLMs in the Bio-Pharmaceutical and Chemical fields, addressing the existing gap in specialized language modeling. Furthermore, this suggests a promising path for enhanced research and development in these specialized areas, paving the way for more precise and effective applications of NLP in specialized domains. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# 時間依存的アハラノフ・ボーム効果をめぐる論争の再考
Revisiting the controversy over the time-dependent Aharonov-Bohm effect ( http://arxiv.org/abs/2406.18046v1 ) ライセンス: Link先を確認 | Masashi Wakamatsu, | (参考訳) 時間依存的なアハロノフ・ボーム効果(AB)は、ソレノイド内部の磁束が時間依存的に変化する状況を考える。
標準的なAB効果とは異なり、問題は予想外に微妙であり、疑いなく解決することができない。
この難しさは、その理論解析が4次元ミンコフスキー空間の経路に沿った直線積分を必要とするという事実に起因している。
中心的な論争は、磁気ベクトルポテンシャルによるAB相シフトの時間依存部分は、磁束の時間変化によって生じる誘導電場の影響により、正確にキャンセルされる、というシングルトンとコラボレータによる主張の成功または失敗に関するものである。
本稿では, 荷電粒子運動の量子力学的解析を, 外部電磁ポテンシャルの存在下で行うことによって, キャンセル議論が正当化されないことを示す。
最終的に、キャンセル議論の失敗は、時間依存的AB効果の問題に対する4次元ストークスの定理の不正な適用によるものであると結論付ける。
The time-dependent Aharonov-Bohm (AB) effect considers the situation in which the magnetic flux inside the solenoid changes time-dependently. Different from the standard AB-effect, the problem is unexpectedly subtle and not easy to solve without any doubt, which is the reason why it is still in a state of unsettlement even theoretically. The difficulty originates from the fact that its theoretical analysis requires line-integral along a path in the 4-dimensional Minkowski space. The central controversy concerns the success or failure of the claim by Singleton and collaborators, which states that the time-dependent part of the AB-phase shift due to the magnetic vector potential is precisely cancelled by the effect of induced electric field generated by the time-variation of the magnetic flux. In this paper, we try to demonstrate that their cancellation argument would not be justified by going back to the basic quantum mechanical analysis of the charged particle motion under the presence of external electromagnetic potential. At the end, we conclude that the failure of the cancellation argument is due to unjustified application of the 4-dimensional Stokes theorem to the problem of time-dependent AB-effect. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# ScanFormer: 反復走査による表現理解の参照
ScanFormer: Referring Expression Comprehension by Iteratively Scanning ( http://arxiv.org/abs/2406.18048v1 ) ライセンス: Link先を確認 | Wei Su, Peihan Miao, Huanzhang Dou, Xi Li, | (参考訳) Referring Expression Comprehension (REC) は、画像中の自由形式の自然言語記述によって指定された対象オブジェクトをローカライズすることを目的としている。
最先端の手法は印象的な性能を達成する一方で、言語クエリとは無関係な冗長な視覚領域を含む画像の濃密な認識を行い、計算オーバーヘッドを増大させる。
モデルの効率を改善するために、言語的に無関係な冗長な視覚領域を排除できるだろうか?
既存の関連手法は主に視覚言語分野における限られた探索を伴う基本的な視覚的タスクに焦点を当てている。
そこで本稿では,ScanFormerと呼ばれる粗大な反復知覚フレームワークを提案する。
画像スケールピラミッドを反復的に利用して、言語関連視覚パッチを上から下へ抽出することができる。
各イテレーションにおいて、無関係なパッチは、設計した情報性予測によって破棄されます。
さらに,提案手法は,推論を高速化するために,捨てられたパッチに対するパッチ選択戦略を提案する。
RefCOCO、RefCOCO+、RefCOCOg、ReferItGameといった広く使われているデータセットの実験により、精度と効率のバランスをとることができる方法の有効性が検証された。
Referring Expression Comprehension (REC) aims to localize the target objects specified by free-form natural language descriptions in images. While state-of-the-art methods achieve impressive performance, they perform a dense perception of images, which incorporates redundant visual regions unrelated to linguistic queries, leading to additional computational overhead. This inspires us to explore a question: can we eliminate linguistic-irrelevant redundant visual regions to improve the efficiency of the model? Existing relevant methods primarily focus on fundamental visual tasks, with limited exploration in vision-language fields. To address this, we propose a coarse-to-fine iterative perception framework, called ScanFormer. It can iteratively exploit the image scale pyramid to extract linguistic-relevant visual patches from top to bottom. In each iteration, irrelevant patches are discarded by our designed informativeness prediction. Furthermore, we propose a patch selection strategy for discarded patches to accelerate inference. Experiments on widely used datasets, namely RefCOCO, RefCOCO+, RefCOCOg, and ReferItGame, verify the effectiveness of our method, which can strike a balance between accuracy and efficiency. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# 深層学習と微調整大言語モデルを用いたエンティティ認識の改良:複数音源からの逆イベント抽出を事例として
Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources ( http://arxiv.org/abs/2406.18049v1 ) ライセンス: Link先を確認 | Yiming Li, Deepthi Viswaroopan, William He, Jianfu Li, Xu Zuo, Hua Xu, Cui Tao, | (参考訳) テキストデータからのCOVID-19ワクチンによる逆イベント(AE)抽出は、免疫の安全プロファイルを監視し分析するために重要である。
従来のディープラーニングモデルは、複雑な特徴表現とシーケンシャルデータへの依存性を学習するのに適しているが、ラベル付きデータを必要とすることが多い。
対照的に、大きな言語モデル(LLM)は文脈情報の理解に優れるが、名前付きエンティティ認識タスクでは不安定な性能を示す。
本研究では,AE抽出におけるLLMと従来のディープラーニングモデルの有効性を評価し,これらのモデルが性能に与える影響を評価することを目的とする。
本研究では,VAERS (n=621), Twitter (n=9,133), Reddit (n=131) からの報告と投稿をコーパスとして利用した。
私たちの目標は、"vaccine"、"shot"、"ae"の3種類のエンティティを抽出することでした。
我々は, GPT-2, GPT-3.5, GPT-4, Llama-2, RNN や BioBERT などの従来のディープラーニングモデルを含む複数の LLM を探索・微調整した。
性能を向上させるため、3つのモデルのアンサンブルを最高の性能で生成した。
評価には,厳密かつ緩やかなF1スコアを用いて各エンティティタイプの性能評価を行い,マイクロ平均F1を用いて全体の性能評価を行った。
アンサンブルモデルは、それぞれ0.878、0.930、0.925の厳格なF1スコアと0.903のマイクロスコアで最高性能を達成した。
本研究は,AE関連情報を抽出するための,微調整された従来の深層学習モデルとLLMの有効性とロバスト性を示すものである。
本研究は, バイオメディカル自然言語処理の進歩に寄与し, 薬物移動および公衆衛生監視のためのテキストデータからAE抽出を改善するための貴重な知見を提供する。
Adverse event (AE) extraction following COVID-19 vaccines from text data is crucial for monitoring and analyzing the safety profiles of immunizations. Traditional deep learning models are adept at learning intricate feature representations and dependencies in sequential data, but often require extensive labeled data. In contrast, large language models (LLMs) excel in understanding contextual information, but exhibit unstable performance on named entity recognition tasks, possibly due to their broad but unspecific training. This study aims to evaluate the effectiveness of LLMs and traditional deep learning models in AE extraction, and to assess the impact of ensembling these models on performance. In this study, we utilized reports and posts from the VAERS (n=621), Twitter (n=9,133), and Reddit (n=131) as our corpora. Our goal was to extract three types of entities: "vaccine", "shot", and "ae". We explored and fine-tuned (except GPT-4) multiple LLMs, including GPT-2, GPT-3.5, GPT-4, and Llama-2, as well as traditional deep learning models like RNN and BioBERT. To enhance performance, we created ensembles of the three models with the best performance. For evaluation, we used strict and relaxed F1 scores to evaluate the performance for each entity type, and micro-average F1 was used to assess the overall performance. The ensemble model achieved the highest performance in "vaccine", "shot", and "ae" with strict F1-scores of 0.878, 0.930, and 0.925, respectively, along with a micro-average score of 0.903. In conclusion, this study demonstrates the effectiveness and robustness of ensembling fine-tuned traditional deep learning models and LLMs, for extracting AE-related information. This study contributes to the advancement of biomedical natural language processing, providing valuable insights into improving AE extraction from text data for pharmacovigilance and public health surveillance. | 翻訳日:2024-06-27 14:48:10 公開日:2024-06-26 |
# 歩行者軌道予測のための多段階ゴール駆動ネットワーク
A Multi-Stage Goal-Driven Network for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2406.18050v1 ) ライセンス: Link先を確認 | Xiuen Wu, Tao Wang, Yuanzheng Cai, Lingyu Liang, George Papageorgiou, | (参考訳) 歩行者の軌道予測は、自動運転車や交通管理システムを含む様々なアプリケーションの安全性と効率を確保する上で重要な役割を担っている。
本稿では,多段階目標駆動ネットワーク(MGNet)と呼ばれる,歩行者軌道予測の新しい手法を提案する。
MGNetは、段階的再帰予測と長期目標の特異予測に依存する先行アプローチから分岐し、中間段階目標を予測することによって軌道生成を指示し、予測誤差を低減する。
ネットワークは、条件付き変分オートエンコーダ(CVAE)、アテンションモジュール、多段階ゴール評価器の3つの主要コンポーネントから構成される。
トラジェクトリを条件付き変分オートエンコーダを用いて符号化し、歩行者の将来のトラジェクトリのおよそ分布に関する知識を取得し、トラジェクトリシーケンス間の時間的依存性をキャプチャするための注意機構と組み合わせる。
中心モジュールは多段階ゴール評価器であり、符号化された特徴ベクトルを用いて中間目標を予測し、再帰的推論プロセスにおける累積誤差を効果的に最小化する。
MGNetの有効性は、JAADおよびPIEデータセットに関する総合的な実験を通して示される。
提案手法では, 最先端アルゴリズムとの比較評価により, 高い性能向上が得られた。
Pedestrian trajectory prediction plays a pivotal role in ensuring the safety and efficiency of various applications, including autonomous vehicles and traffic management systems. This paper proposes a novel method for pedestrian trajectory prediction, called multi-stage goal-driven network (MGNet). Diverging from prior approaches relying on stepwise recursive prediction and the singular forecasting of a long-term goal, MGNet directs trajectory generation by forecasting intermediate stage goals, thereby reducing prediction errors. The network comprises three main components: a conditional variational autoencoder (CVAE), an attention module, and a multi-stage goal evaluator. Trajectories are encoded using conditional variational autoencoders to acquire knowledge about the approximate distribution of pedestrians' future trajectories, and combined with an attention mechanism to capture the temporal dependency between trajectory sequences. The pivotal module is the multi-stage goal evaluator, which utilizes the encoded feature vectors to predict intermediate goals, effectively minimizing cumulative errors in the recursive inference process. The effectiveness of MGNet is demonstrated through comprehensive experiments on the JAAD and PIE datasets. Comparative evaluations against state-of-the-art algorithms reveal significant performance improvements achieved by our proposed method. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# ViT-1.58b: 1ビット時代のモバイルビジョン変換器
ViT-1.58b: Mobile Vision Transformers in the 1-bit Era ( http://arxiv.org/abs/2406.18051v1 ) ライセンス: Link先を確認 | Zhengqing Yuan, Rong Zhou, Hongyi Wang, Lifang He, Yanfang Ye, Lichao Sun, | (参考訳) 視覚変換器(ViT)は、注目機構を利用して画像パッチをトークンとして処理することにより、様々な画像分類タスクにおいて顕著な性能を実現している。
しかし、ViTの高計算およびメモリ要求は、リソース制約された環境への展開に重大な課題をもたらす。
本稿では、競合性能を保ちながら、メモリと計算オーバーヘッドを大幅に削減する新しい1.58ビット量子化ViTモデルであるViT-1.58bを紹介する。
ViT-1.58bは3次量子化を採用し、重みを {-1, 0, 1} に制限し、アクティベーションを8ビット精度に定量化することで効率と精度のバランスを改善している。
提案手法は,メモリと計算の両面で効率的なスケーリングを実現する。
CIFAR-10 と ImageNet-1k の実験では、ViT-1.58b は完全精度の Vit に匹敵する精度を維持しており、メモリ使用量と計算コストは大幅に削減されている。
本稿では、持続可能なAIソリューション開発における極端量子化技術の可能性を強調し、実用的なアプリケーションにおける効率的なモデル展開に関する幅広い議論に貢献する。
コードとウェイトはhttps://github.com/DLYuanGod/ViT-1.58bで公開されています。
Vision Transformers (ViTs) have achieved remarkable performance in various image classification tasks by leveraging the attention mechanism to process image patches as tokens. However, the high computational and memory demands of ViTs pose significant challenges for deployment in resource-constrained environments. This paper introduces ViT-1.58b, a novel 1.58-bit quantized ViT model designed to drastically reduce memory and computational overhead while preserving competitive performance. ViT-1.58b employs ternary quantization, which refines the balance between efficiency and accuracy by constraining weights to {-1, 0, 1} and quantizing activations to 8-bit precision. Our approach ensures efficient scaling in terms of both memory and computation. Experiments on CIFAR-10 and ImageNet-1k demonstrate that ViT-1.58b maintains comparable accuracy to full-precision Vit, with significant reductions in memory usage and computational costs. This paper highlights the potential of extreme quantization techniques in developing sustainable AI solutions and contributes to the broader discourse on efficient model deployment in practical applications. Our code and weights are available at https://github.com/DLYuanGod/ViT-1.58b. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# 相互対応型階層型強化学習
Bidirectional-Reachable Hierarchical Reinforcement Learning with Mutually Responsive Policies ( http://arxiv.org/abs/2406.18053v1 ) ライセンス: Link先を確認 | Yu Luo, Fuchun Sun, Tianying Ji, Xianyuan Zhan, | (参考訳) 階層強化学習(HRL)は、それらを巧みにサブゴールに分解することで複雑な長距離タスクに対処する。
したがって,HRLの有効性はサブゴール到達性に大きく影響される。
典型的なHRL法は、支配的なレベルが従属レベルへのコンプライアンスを強制する一方的なレベルからの下位到達性のみを考慮する。
しかし,本研究では,支配層が局所探査に閉じ込められたり,到達不能なサブゴールが発生すると,従属層は負の影響を受け,支配層の行動に従わなくなることを観察する。
これにより、両方のレベルが局所的な最適状態に留まり、最終的には後続のサブゴール到達性を阻害する可能性がある。
リアルタイムの双方向情報共有と誤り訂正は,この問題の自然な治療法であり,相互対応機構を提案する動機となる。
そこで本研究では,両方向対応型階層型ポリシー最適化 (BrHPO) を提案する。
様々な長期タスクの実験結果から、BrHPOは他の最先端HRLベースラインよりも優れており、探索効率と堅牢性が著しく高いことが示されている。
Hierarchical reinforcement learning (HRL) addresses complex long-horizon tasks by skillfully decomposing them into subgoals. Therefore, the effectiveness of HRL is greatly influenced by subgoal reachability. Typical HRL methods only consider subgoal reachability from the unilateral level, where a dominant level enforces compliance to the subordinate level. However, we observe that when the dominant level becomes trapped in local exploration or generates unattainable subgoals, the subordinate level is negatively affected and cannot follow the dominant level's actions. This can potentially make both levels stuck in local optima, ultimately hindering subsequent subgoal reachability. Allowing real-time bilateral information sharing and error correction would be a natural cure for this issue, which motivates us to propose a mutual response mechanism. Based on this, we propose the Bidirectional-reachable Hierarchical Policy Optimization (BrHPO)--a simple yet effective algorithm that also enjoys computation efficiency. Experiment results on a variety of long-horizon tasks showcase that BrHPO outperforms other state-of-the-art HRL baselines, coupled with a significantly higher exploration efficiency and robustness. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# FF-to-FFPE画像翻訳のための事前学習モデルの活用
Leveraging Pre-trained Models for FF-to-FFPE Histopathological Image Translation ( http://arxiv.org/abs/2406.18054v1 ) ライセンス: Link先を確認 | Qilai Zhang, Jiawen Li, Peiran Liao, Jiali Hu, Tian Guan, Anjia Han, Yonghong He, | (参考訳) 病理組織学におけるヘマトキシリンとエオシン(H&E)スライドの2つの主要なタイプは、ホルマリン固定パラフィン埋め込み(FFPE)とフレッシュフロゼン(FF)である。
FFPEスライドは高品質な病理像を提供するが、労働集約的な取得プロセスを必要とする。
対照的に、FFスライドは迅速に作成できるが、画質は比較的低い。
本研究の目的は,FFPE画像からFFPE画像へ変換することで,診断目的の画像品質を向上させることである。
本稿では,事前学習した拡散モデルを用いたFF-to-FFPE画像変換法であるDiffusion-FFPEを提案する。
具体的には,1ステップの拡散モデルをジェネレータとして使用し,対角学習目的を用いてLoRAアダプタで微調整する。
モデルがグローバルな構造情報と局所的な詳細の両方を効果的に捉えるために,マルチスケール機能融合(MFF)モジュールを提案する。
このモジュールは2つのVAEエンコーダを使用して、様々な画像サイズの特徴を抽出し、UNetに入力する前に特徴フュージョンを実行する。
さらに, 本手法は, TCGA-NSCLCデータセット上でFF-to-FFPE翻訳実験を行い, 他の手法と比較して優れた性能を示した。
コードとモデルはhttps://github.com/QilaiZhang/Diffusion-FFPEで公開されている。
The two primary types of Hematoxylin and Eosin (H&E) slides in histopathology are Formalin-Fixed Paraffin-Embedded (FFPE) and Fresh Frozen (FF). FFPE slides offer high quality histopathological images but require a labor-intensive acquisition process. In contrast, FF slides can be prepared quickly, but the image quality is relatively poor. Our task is to translate FF images into FFPE style, thereby improving the image quality for diagnostic purposes. In this paper, we propose Diffusion-FFPE, a method for FF-to-FFPE histopathological image translation using a pre-trained diffusion model. Specifically, we employ a one-step diffusion model as the generator and fine-tune it with LoRA adapters using adversarial learning objectives. To ensure that the model effectively captures both global structural information and local details, we propose a multi-scale feature fusion (MFF) module. This module utilizes two VAE encoders to extract features of varying image sizes and performs feature fusion before feeding them into the UNet. Furthermore, we utilize a pre-trained vision-language model for histopathology as the backbone for the discriminator to further improve performance We conducted FF-to-FFPE translation experiments on the TCGA-NSCLC datasets, and our method achieved better performance compared to other methods. The code and models are released at https://github.com/QilaiZhang/Diffusion-FFPE. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# スケールでのファジング: スケジューリングの未完成なストーリー
Fuzzing at Scale: The Untold Story of the Scheduler ( http://arxiv.org/abs/2406.18058v1 ) ライセンス: Link先を確認 | Ivica Nikolic, Racchit Jain, | (参考訳) 既存のファジィと標準PCを使って1000のプログラムでバグを検索する方法?
この問題を考慮し、どのプログラムをファズすべきかを判断し、どのくらいの時間にわたってプログラム全体で見られるバグの数に大きな影響を与えるかを示す。
実際、効果的な戦略を採用することが与える影響は、最先端のファジィザを利用する方法に匹敵する。
検討された問題は大規模なファジィング(fuzzing)と呼ばれ、戦略はスケジューラとして扱われる。
本研究では,全てのプログラムに同等のファジタイムを割り当てるナイーブなスケジューラの他に,個々のプログラムのファジリング進行に応じて時間割当を調整する動的スケジューラを考えることができることを示す。
このようなスケジューラは、発見されたバグの総数と、ほとんどのプログラムで見つかったバグの数の両方につながるため、優れている。
ナイーブスケジューラとダイナミックスケジューラの間のパフォーマンスギャップは、2つのファッジャ間のギャップと同じくらい広く(あるいはさらに広い)ことができる。
この結果から,スケジューラの進行問題は大規模なファジリングに不可欠であることが示唆された。
いくつかのスケジューラを開発し、最も洗練されたスケジューラを活用して、新しくコンパイルされた約5,000のUbuntuプログラムのベンチマークを同時にファズし、4908のバグを検出する。
How to search for bugs in 1,000 programs using a pre-existing fuzzer and a standard PC? We consider this problem and show that a well-designed strategy that determines which programs to fuzz and for how long can greatly impact the number of bugs found across the programs. In fact, the impact of employing an effective strategy is comparable to that of utilizing a state-of-the-art fuzzer. The considered problem is referred to as fuzzing at scale, and the strategy as scheduler. We show that besides a naive scheduler, that allocates equal fuzz time to all programs, we can consider dynamic schedulers that adjust time allocation based on the ongoing fuzzing progress of individual programs. Such schedulers are superior because they lead both to higher number of total found bugs and to higher number of found bugs for most programs. The performance gap between naive and dynamic schedulers can be as wide (or even wider) as the gap between two fuzzers. Our findings thus suggest that the problem of advancing schedulers is fundamental for fuzzing at scale. We develop several schedulers and leverage the most sophisticated one to fuzz simultaneously our newly compiled benchmark of around 5,000 Ubuntu programs, and detect 4908 bugs. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# AdaZeta: メモリ効率の良い大規模言語モデルのための適応型ゼロ階テンソルトレイン適応
AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning ( http://arxiv.org/abs/2406.18060v1 ) ライセンス: Link先を確認 | Yifan Yang, Kai Zhen, Ershad Banijamal, Athanasios Mouchtaris, Zheng Zhang, | (参考訳) 細調整された大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで顕著なパフォーマンスを実現していますが、モデルのサイズが拡大するにつれて、ますます多くのメモリを必要としています。
この問題に対処するため、最近提案されたメモリ効率ゼロ階法(MeZO)は、フォワードパスのみを使用してLPMを微調整し、バックプロパゲーショングラフの必要性を回避する。
しかし、大きなパフォーマンス低下と分岐のリスクは、広く採用されることを制限している。
本稿では,ZO法の性能と収束性を改善するために,適応ゼロ階テンソル・トレイン適応(AdaZeta)フレームワークを提案する。
次元依存型ZO推定精度を向上させるため,高速かつ低パラメータなテンソル化アダプタを提案する。
大規模ZO微調整タスクにおける頻繁な分散問題に対処するために,収束を保証する適応型クエリ数スケジュールを提案する。
Roberta-Large と Llama-2-7B モデルに関する詳細な理論的解析と広範な実験結果により、精度、メモリ効率、収束速度の観点から、我々の AdaZeta フレームワークの有効性が実証された。
Fine-tuning large language models (LLMs) has achieved remarkable performance across various natural language processing tasks, yet it demands more and more memory as model sizes keep growing. To address this issue, the recently proposed Memory-efficient Zeroth-order (MeZO) methods attempt to fine-tune LLMs using only forward passes, thereby avoiding the need for a backpropagation graph. However, significant performance drops and a high risk of divergence have limited their widespread adoption. In this paper, we propose the Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) framework, specifically designed to improve the performance and convergence of the ZO methods. To enhance dimension-dependent ZO estimation accuracy, we introduce a fast-forward, low-parameter tensorized adapter. To tackle the frequently observed divergence issue in large-scale ZO fine-tuning tasks, we propose an adaptive query number schedule that guarantees convergence. Detailed theoretical analysis and extensive experimental results on Roberta-Large and Llama-2-7B models substantiate the efficacy of our AdaZeta framework in terms of accuracy, memory efficiency, and convergence speed. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# バリアを破る:スムースDRL剤の有用性とロバスト性
Breaking the Barrier: Enhanced Utility and Robustness in Smoothed DRL Agents ( http://arxiv.org/abs/2406.18062v1 ) ライセンス: Link先を確認 | Chung-En Sun, Sicun Gao, Tsui-Wei Weng, | (参考訳) 深い強化学習(DRL)において、ロバスト性は依然として最重要課題であり、この属性を強化する重要な手法としてランダム化スムージングが出現する。
しかしながら、現在のスムーズなDRL剤の性能には顕著なギャップがあり、しばしば非常に低い清潔な報酬と弱い堅牢さによって特徴づけられる。
本研究は, 有効なスムーズなDRLエージェントの訓練を目的とした, 革新的なアルゴリズムを提案する。
本稿では,S-DQNとS-PPOを提案する。これは,標準RLベンチマークにおけるクリーン報酬,経験的ロバスト性,ロバスト性保証の顕著な改善を示す新しいアプローチである。
特に、我々のS-DQNおよびS-PPOエージェントは、最強攻撃の下で、既存の滑らかなエージェントを平均2.16\times$で大幅に上回るだけでなく、以前の堅牢なトレーニングされたエージェントを平均2.13\times$で上回る。
これはこの分野における大きな飛躍を表している。
さらに、Smoothed Attackを導入します。これは、既存の敵攻撃よりもスムーズなエージェントの報酬を減らすのに、より効果的です。
Robustness remains a paramount concern in deep reinforcement learning (DRL), with randomized smoothing emerging as a key technique for enhancing this attribute. However, a notable gap exists in the performance of current smoothed DRL agents, often characterized by significantly low clean rewards and weak robustness. In response to this challenge, our study introduces innovative algorithms aimed at training effective smoothed robust DRL agents. We propose S-DQN and S-PPO, novel approaches that demonstrate remarkable improvements in clean rewards, empirical robustness, and robustness guarantee across standard RL benchmarks. Notably, our S-DQN and S-PPO agents not only significantly outperform existing smoothed agents by an average factor of $2.16\times$ under the strongest attack, but also surpass previous robustly-trained agents by an average factor of $2.13\times$. This represents a significant leap forward in the field. Furthermore, we introduce Smoothed Attack, which is $1.89\times$ more effective in decreasing the rewards of smoothed agents than existing adversarial attacks. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# 検索・拡張世代に対する回答の質評価:強力なLLMがすべて必要である
Evaluating Quality of Answers for Retrieval-Augmented Generation: A Strong LLM Is All You Need ( http://arxiv.org/abs/2406.18064v1 ) ライセンス: Link先を確認 | Yang Wang, Alberto Garcia Hernandez, Roman Kyslyi, Nicholas Kersting, | (参考訳) 本稿では, 精度, 完全性, 誠実性を評価するための新しいグレーディングシステムであるvRAG-Evalを用いて, 検索・拡張生成(RAG)アプリケーションにおける応答品質の総合評価を行う。
さらに、上記の品質面の階調をバイナリスコアにマッピングし、チャットアプリケーションで一般的に使用される直感的な"thumbs-up"や"thumbs-down"のジェスチャーを反映して、受け入れまたは拒否の決定を示す。
このアプローチは、明確な意思決定の意見が不可欠である現実的なビジネス設定に適合します。
我々の評価は2つの大言語モデル(LLM)にvRAG-Evalを適用し、バニラRAGアプリケーションによって生成される回答の質を評価する。
これらの評価を人的専門家の判断と比較し、GPT-4の評価と人的専門家の判断とを実質的に一致させ、決定を受諾または拒否することに関して83%の合意に達した。
本研究は, 閉領域, 閉領域設定における信頼性評価器としてのLCMの可能性を明らかにする。
We present a comprehensive evaluation of answer quality in Retrieval-Augmented Generation (RAG) applications using vRAG-Eval, a novel grading system that is designed to assess correctness, completeness, and honesty. We further map the grading of quality aspects aforementioned into a binary score, indicating an accept or reject decision, mirroring the intuitive "thumbs-up" or "thumbs-down" gesture commonly used in chat applications. This approach suits factual business settings where a clear decision opinion is essential. Our assessment applies vRAG-Eval to two Large Language Models (LLMs), evaluating the quality of answers generated by a vanilla RAG application. We compare these evaluations with human expert judgments and find a substantial alignment between GPT-4's assessments and those of human experts, reaching 83% agreement on accept or reject decisions. This study highlights the potential of LLMs as reliable evaluators in closed-domain, closed-ended settings, particularly when human evaluations require significant resources. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# 変分推論を用いた最適フィルタの学習
Learning Optimal Filters Using Variational Inference ( http://arxiv.org/abs/2406.18066v1 ) ライセンス: Link先を確認 | Enoch Luk, Eviatar Bach, Ricardo Baptista, Andrew Stuart, | (参考訳) フィルタリング - 部分的に、うるさい、観測された力学系の状態の条件分布を推定するタスクは、気象や気候予報など、科学や工学の多くの分野において重要である。
しかし、フィルタ分布は一般に高次元非線形系において得ることができる。
アンサンブルカルマンフィルタ(EnKF)のような実際に用いられるフィルタは非線形系には偏りがあり、多くのチューニングパラメータを持つ。
本稿では,パラメータ化解析マップを学習するためのフレームワークについて述べる。
本手法は線形および非線形力学系をフィルタリングするためのゲイン行列の学習や,EnKFのインフレーションおよび局所化パラメータの学習に利用できることを示す。
今後、このフレームワークを新しいフィルタリングアルゴリズムの学習に適用する予定である。
Filtering-the task of estimating the conditional distribution of states of a dynamical system given partial, noisy, observations-is important in many areas of science and engineering, including weather and climate prediction. However, the filtering distribution is generally intractable to obtain for high-dimensional, nonlinear systems. Filters used in practice, such as the ensemble Kalman filter (EnKF), are biased for nonlinear systems and have numerous tuning parameters. Here, we present a framework for learning a parameterized analysis map-the map that takes a forecast distribution and observations to the filtering distribution-using variational inference. We show that this methodology can be used to learn gain matrices for filtering linear and nonlinear dynamical systems, as well as inflation and localization parameters for an EnKF. Future work will apply this framework to learn new filtering algorithms. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# 辞書識別におけるアウト・オブ・ディストリビューション検出のためのエネルギーモデルの検討
Exploring Energy-Based Models for Out-of-Distribution Detection in Dialect Identification ( http://arxiv.org/abs/2406.18067v1 ) ライセンス: Link先を確認 | Yaqian Hao, Chenguang Hu, Yingying Gao, Shilei Zhang, Junlan Feng, | (参考訳) 方言の多様な性質は、特定の言語パターンに基づいて訓練されたモデルに対する課題を示し、見当たらないデータやアウト・オブ・ディストリビューション(OOD)データに直面すると、エラーの影響を受けやすい。
本研究は, 方言のOOD検出に特化して, 新たなマージン強化ジョイントエネルギーモデル(MEJEM)を提案する。
生成モデルとエネルギーマージン損失を統合することにより,方言識別システムの堅牢性を高めることを目的とする。
さらに,OOD方言検出のための2つのOODスコアを探索し,そのエネルギースコアがソフトマックススコアより優れていることを示す。
シャープネス・アウェアの最小化を利用して関節モデルのトレーニングプロセスを最適化し、損失とシャープネスの両方を最小化してモデル一般化を強化する。
方言識別タスクの実験は、エネルギーベースモデルの有効性を検証し、それらの性能に関する貴重な洞察を提供する。
The diverse nature of dialects presents challenges for models trained on specific linguistic patterns, rendering them susceptible to errors when confronted with unseen or out-of-distribution (OOD) data. This study introduces a novel margin-enhanced joint energy model (MEJEM) tailored specifically for OOD detection in dialects. By integrating a generative model and the energy margin loss, our approach aims to enhance the robustness of dialect identification systems. Furthermore, we explore two OOD scores for OOD dialect detection, and our findings conclusively demonstrate that the energy score outperforms the softmax score. Leveraging Sharpness-Aware Minimization to optimize the training process of the joint model, we enhance model generalization by minimizing both loss and sharpness. Experiments conducted on dialect identification tasks validate the efficacy of Energy-Based Models and provide valuable insights into their performance. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# Speech2Unified Expressions: Affordable Inputs からの共音声影響顔と身体表現の同期合成
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs ( http://arxiv.org/abs/2406.18068v1 ) ライセンス: Link先を確認 | Uttaran Bhattacharya, Aniket Bera, Dinesh Manocha, | (参考訳) 本稿では,コモディティカメラを用いたRGBビデオデータを用いて,デジタルキャラクタの表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
音声波形と、ビデオから計算した話者の顔のランドマーク運動のトークンシーケンスとから、話者の顔のランドマークとボディジョイントの動作シーケンスを合成し、音声の内容と影響を一致させる。
我々は,すべての入力をそれらの相関関係を捉えたマルチモーダル埋め込み空間に変換するエンコーダからなるジェネレータを設計し,次いで所望の顔と動きを合成するデコーダのペアを設計する。
合成の妥当性を高めるために,元の映像から計算した顔とポーズの動きと,その感情表現に基づいて合成された動きとを区別する逆微分器を用いる。
アプローチを評価するために、TED Gesture Datasetを拡張して、ボディジェスチャーに加えて、ビュー正規化され、共同音声による顔のランドマークを含める。
本研究では,複数の評価指標に関する定量的,定性的な実験とユーザスタディにより,本手法の性能を実証する。
提案手法は, 再現誤差が低く, 多様な表情の合成サンプルと, デジタルキャラクタのための身体ジェスチャーを生成する。
We present a multimodal learning-based method to simultaneously synthesize co-speech facial expressions and upper-body gestures for digital characters using RGB video data captured using commodity cameras. Our approach learns from sparse face landmarks and upper-body joints, estimated directly from video data, to generate plausible emotive character motions. Given a speech audio waveform and a token sequence of the speaker's face landmark motion and body-joint motion computed from a video, our method synthesizes the motion sequences for the speaker's face landmarks and body joints to match the content and the affect of the speech. We design a generator consisting of a set of encoders to transform all the inputs into a multimodal embedding space capturing their correlations, followed by a pair of decoders to synthesize the desired face and pose motions. To enhance the plausibility of synthesis, we use an adversarial discriminator that learns to differentiate between the face and pose motions computed from the original videos and our synthesized motions based on their affective expressions. To evaluate our approach, we extend the TED Gesture Dataset to include view-normalized, co-speech face landmarks in addition to body gestures. We demonstrate the performance of our method through thorough quantitative and qualitative experiments on multiple evaluation metrics and via a user study. We observe that our method results in low reconstruction error and produces synthesized samples with diverse facial expressions and body gestures for digital characters. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# ウェアラブルバイオシグナーを用いたカフレス血圧測定のための大規模言語モデル
Large Language Models for Cuffless Blood Pressure Measurement From Wearable Biosignals ( http://arxiv.org/abs/2406.18069v1 ) ライセンス: Link先を確認 | Zengding Liu, Chen Chen, Jiannong Cao, Minglei Pan, Jikui Liu, Nan Li, Fen Miao, Ye Li, | (参考訳) 大規模言語モデル(LLM)は、様々なテキストタスクにまたがる優れたパフォーマンスのために、学術と産業の両方から大きな関心を集めている。
しかし、生理的時系列データを解析するLLMの可能性は、いまだに新たな研究分野である。
特に,ウェアラブルバイオシグナーを解析してカフレス血圧(BP)測定を行うことは,循環器疾患の予防に重要である。
本稿では,ウェアラブルバイオシグナーを用いたカフレスBP推定のためのLCMのキャパシティを初めて検討する。
心電図(ECG)と光胸腺図(PPG)の信号から生理的特徴を抽出し,これらの特徴をBPドメイン知識とユーザ情報と組み合わせてコンテキスト強調プロンプトを設計した。
その後,命令チューニングによるBP推定タスクにLLMを適用した。
提案手法を評価するため,1,272人のウェアラブルバイオシグナーの包括的公開データセットを用いて,10種類の高度なLCMの評価を行った。
実験の結果, 最適微調整LDMは従来のタスク固有のベースラインを大幅に上回り, シストリックBPは0.00$\pm$9.25 mmHg, 拡張型BPは1.29$\pm$6.37 mmHgと推定された。
特に、アブレーション研究は、我々の文脈強化戦略の利点を強調し、シストリックBP推定における平均絶対誤差を8.9%減少させる結果となった。
本稿では,カフレスBP測定のためのLCMの探索を開拓し,カフレスBP測定の精度を高めるための潜在的解決策を提供する。
Large language models (LLMs) have captured significant interest from both academia and industry due to their impressive performance across various textual tasks. However, the potential of LLMs to analyze physiological time-series data remains an emerging research field. Particularly, there is a notable gap in the utilization of LLMs for analyzing wearable biosignals to achieve cuffless blood pressure (BP) measurement, which is critical for the management of cardiovascular diseases. This paper presents the first work to explore the capacity of LLMs to perform cuffless BP estimation based on wearable biosignals. We extracted physiological features from electrocardiogram (ECG) and photoplethysmogram (PPG) signals and designed context-enhanced prompts by combining these features with BP domain knowledge and user information. Subsequently, we adapted LLMs to BP estimation tasks through instruction tuning. To evaluate the proposed approach, we conducted assessments of ten advanced LLMs using a comprehensive public dataset of wearable biosignals from 1,272 participants. The experimental results demonstrate that the optimally fine-tuned LLM significantly surpasses conventional task-specific baselines, achieving an estimation error of 0.00 $\pm$ 9.25 mmHg for systolic BP and 1.29 $\pm$ 6.37 mmHg for diastolic BP. Notably, the ablation studies highlight the benefits of our context enhancement strategy, leading to an 8.9% reduction in mean absolute error for systolic BP estimation. This paper pioneers the exploration of LLMs for cuffless BP measurement, providing a potential solution to enhance the accuracy of cuffless BP measurement. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# EgoVideo:エゴセントリックなファンデーションモデルと下流適応を探る
EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation ( http://arxiv.org/abs/2406.18070v1 ) ライセンス: Link先を確認 | Baoqi Pei, Guo Chen, Jilan Xu, Yuping He, Yicheng Liu, Kanghua Pan, Yifei Huang, Yali Wang, Tong Lu, Limin Wang, Yu Qiao, | (参考訳) 本稿では,Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックを含む,CVPR 2024におけるEgoVisチャレンジに対するソリューションを提案する。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
Ego4Dの課題では、自然言語クェリ、ステップグラウンド、モーメントクェリ、短期オブジェクトインタラクション予測、長期アクション予測といった様々なタスクに取り組みます。
また、EPIC-Kitchensチャレンジにも参加し、Action Recognition、Multiple Instance Retrieval、Domain Adaptation for Action Recognitionのトラックに取り組みます。
これらの多様なタスクにEgoVideoを適用することで、EgoVideoの強力な表現能力をエゴセントリック基盤モデルとして示すとともに、エゴセントリックなさまざまなビデオ分析シナリオにおいて、その汎用性と有効性を示す。
私たちのコードベースと事前トレーニングされたモデルは、https://github.com/OpenGVLab/EgoVideoで公開されています。
In this report, we present our solutions to the EgoVis Challenges in CVPR 2024, including five tracks in the Ego4D challenge and three tracks in the EPIC-Kitchens challenge. Building upon the video-language two-tower model and leveraging our meticulously organized egocentric video data, we introduce a novel foundation model called EgoVideo. This model is specifically designed to cater to the unique characteristics of egocentric videos and provides strong support for our competition submissions. In the Ego4D challenges, we tackle various tasks including Natural Language Queries, Step Grounding, Moment Queries, Short-term Object Interaction Anticipation, and Long-term Action Anticipation. In addition, we also participate in the EPIC-Kitchens challenge, where we engage in the Action Recognition, Multiple Instance Retrieval, and Domain Adaptation for Action Recognition tracks. By adapting EgoVideo to these diverse tasks, we showcase its versatility and effectiveness in different egocentric video analysis scenarios, demonstrating the powerful representation ability of EgoVideo as an egocentric foundation model. Our codebase and pretrained models are publicly available at https://github.com/OpenGVLab/EgoVideo. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# オープンソースAIモデルにおける倫理的考察の文書化
Documenting Ethical Considerations in Open Source AI Models ( http://arxiv.org/abs/2406.18071v1 ) ライセンス: Link先を確認 | Haoyu Gao, Mansooreh Zahedi, Christoph Treude, Sarita Rosenstock, Marc Cheong, | (参考訳) 背景: AI対応ソフトウェアの開発は、ソフトウェアエンジニアとモデル開発者の間で異なるドメインの専門知識があるため、モデルカードのようなAIモデルドキュメンテーションに大きく依存しています。
倫理的観点から、AIモデルドキュメンテーションは、倫理的に準拠したソフトウェアの提供を保証するために、下流開発者の緩和戦略とともに、倫理的考察に関する重要な情報を伝達する。
しかし、そのような文書の実践に関する知識は乏しい。
Aims: 私たちの研究の目的は、開発者がオープンソースAIモデルの倫理的側面を実際にどのように文書化しているかを調査することにあります。
方法:GitHubとHugging Faceで3つの資料ソースを選択し,倫理関連の文書を体系的に識別するキーワードセットを開発した。
2,347件の文書をフィルタリングした後、265件の関連文書を同定し、倫理的考察のテーマを導出するテーマ分析を行った。
結果: モデル行動リスク,モデルユースケース,モデルリスク軽減という,6つのテーマが浮かび上がっています。
結論: オープンソースAIモデルドキュメンテーションは、倫理的問題ステートメントとユースケース制限の明確化に重点を置いています。
さらに、倫理的考察に関する文書化の実践を改善するために、様々な利害関係者に提案する。
Background: The development of AI-enabled software heavily depends on AI model documentation, such as model cards, due to different domain expertise between software engineers and model developers. From an ethical standpoint, AI model documentation conveys critical information on ethical considerations along with mitigation strategies for downstream developers to ensure the delivery of ethically compliant software. However, knowledge on such documentation practice remains scarce. Aims: The objective of our study is to investigate how developers document ethical aspects of open source AI models in practice, aiming at providing recommendations for future documentation endeavours. Method: We selected three sources of documentation on GitHub and Hugging Face, and developed a keyword set to identify ethics-related documents systematically. After filtering an initial set of 2,347 documents, we identified 265 relevant ones and performed thematic analysis to derive the themes of ethical considerations. Results: Six themes emerge, with the three largest ones being model behavioural risks, model use cases, and model risk mitigation. Conclusions: Our findings reveal that open source AI model documentation focuses on articulating ethical problem statements and use case restrictions. We further provide suggestions to various stakeholders for improving documentation practice regarding ethical considerations. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# 行動消去下におけるバンドの学習
Learning for Bandits under Action Erasures ( http://arxiv.org/abs/2406.18072v1 ) ライセンス: Link先を確認 | Osama Hanna, Merve Karakas, Lin F. Yang, Christina Fragouli, | (参考訳) 我々は,学習者が分散エージェントに対して,消去チャネルを介してアクションを伝達する必要がある新しいマルチアーム・バンディット(MAB)について考察する。
我々のモデルでは、分散エージェントはアクションが消去されたかどうかを知っているが、中央学習者は(フィードバックがない)、観察された報酬が望ましいアクションから生じたかどうかを知らない。
本稿では,既存のMABアルゴリズム上で動作可能な手法を提案する。
提案手法は,最大で$O(1/\sqrt{1-\epsilon})の要素である行動消去チャネルに対する最悪の後悔を,基礎となるMABアルゴリズムのゼロな最悪の後悔から遠ざけ,$\epsilon$は消去確率である。
また、連続するアーム除去アルゴリズムの修正を提案し、その最悪の後悔は$\Tilde{O}(\sqrt{KT}+K/(1-\epsilon))$であることを証明する。
We consider a novel multi-arm bandit (MAB) setup, where a learner needs to communicate the actions to distributed agents over erasure channels, while the rewards for the actions are directly available to the learner through external sensors. In our model, while the distributed agents know if an action is erased, the central learner does not (there is no feedback), and thus does not know whether the observed reward resulted from the desired action or not. We propose a scheme that can work on top of any (existing or future) MAB algorithm and make it robust to action erasures. Our scheme results in a worst-case regret over action-erasure channels that is at most a factor of $O(1/\sqrt{1-\epsilon})$ away from the no-erasure worst-case regret of the underlying MAB algorithm, where $\epsilon$ is the erasure probability. We also propose a modification of the successive arm elimination algorithm and prove that its worst-case regret is $\Tilde{O}(\sqrt{KT}+K/(1-\epsilon))$, which we prove is optimal by providing a matching lower bound. | 翻訳日:2024-06-27 14:38:19 公開日:2024-06-26 |
# 高忠実度プロトタイプを用いたFew-Shot医療画像分割
Few-Shot Medical Image Segmentation with High-Fidelity Prototypes ( http://arxiv.org/abs/2406.18074v1 ) ライセンス: Link先を確認 | Song Tang, Shaxu Yan, Xiaozhi Qi, Jianxin Gao, Mao Ye, Jianwei Zhang, Xiatian Zhu, | (参考訳) Few-shot Semantic Segmentation (FSS)は、トレーニング済みモデルを新しいクラスに適応することを目的としている。
プロトタイプベースのアプローチは大きな成功を収めたものの、既存のモデルは、非常に複雑な背景、例えば自然画像のような、かなり異なる対象を持つ撮像シナリオに限られている。
これにより、両方の条件で医療画像に準最適となる。
そこで本研究では,オブジェクト前景と背景をより包括的に表現する高忠実度プロトタイプを構築するための,DSPNet(Detail Self-Refined Prototype Network)を提案する。
具体的には、キャプチャした詳細セマンティクスを維持しながらグローバルなセマンティクスを構築するために、マルチモーダル構造をクラスタリングでモデル化し、それぞれをチャネル的に融合させることで、前景のプロトタイプを学習する。
背景が空間次元に明らかな意味的関係を持たないことを考えると、チャンネル固有の構造情報をスパースチャネル認識制御の下で統合する。
3つの挑戦的な医用画像ベンチマークの大規模な実験は、従来の最先端の手法よりもDSPNetの方が優れていることを示している。
Few-shot Semantic Segmentation (FSS) aims to adapt a pretrained model to new classes with as few as a single labelled training sample per class. Despite the prototype based approaches have achieved substantial success, existing models are limited to the imaging scenarios with considerably distinct objects and not highly complex background, e.g., natural images. This makes such models suboptimal for medical imaging with both conditions invalid. To address this problem, we propose a novel Detail Self-refined Prototype Network (DSPNet) to constructing high-fidelity prototypes representing the object foreground and the background more comprehensively. Specifically, to construct global semantics while maintaining the captured detail semantics, we learn the foreground prototypes by modelling the multi-modal structures with clustering and then fusing each in a channel-wise manner. Considering that the background often has no apparent semantic relation in the spatial dimensions, we integrate channel-specific structural information under sparse channel-aware regulation. Extensive experiments on three challenging medical image benchmarks show the superiority of DSPNet over previous state-of-the-art methods. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# GPT-4コードインタプリタのサポートによるスマートコントラクトの協調監査のためのコンテキスト駆動アプローチ
A Context-Driven Approach for Co-Auditing Smart Contracts with The Support of GPT-4 code interpreter ( http://arxiv.org/abs/2406.18075v1 ) ライセンス: Link先を確認 | Mohamed Salah Bouafif, Chen Zheng, Ilham Ahmed Qasse, Ed Zulkoski, Mohammad Hamdaqa, Foutse Khomh, | (参考訳) スマートコントラクトの採用の急増は、セキュリティと信頼性を確保するために厳格な監査を必要とする。
手動の監査は包括的ではあるが、時間がかかり、監査人の専門知識に大きく依存している。
LLM(Large Language Models)の台頭に伴い、監査プロセス(コオーディティング)において監査人を支援するためにそれらを活用することへの関心が高まっている。
しかし、スマートコントラクトのコオーディティングにおけるLLMの有効性は、特に文脈記述やコード長の観点から、入力プロンプトの設計に依存している。
本稿では,スマートコントラクト・コオーディティングのためのコンテキスト駆動型プロンプト手法を提案する。
提案手法では,コンテクストスコーピングと拡張のための3つの手法を用いて,コード間の依存性に基づいて,長いコードを自己完結したコードセグメントに分割するコードスコーピング,ターゲット評価目標に基づくコンテキスト記述を強化するアセスメントスコーピング,探索空間の制限,生成した応答に対して特定のフォーマットを強制するレポートスコーピングを行う。
提案手法は, 公開されている脆弱な制約に対する経験的評価を通じて, 脆弱な関数に対する検出率は96 %であり, ネイティブプロンプト法よりも優れており, 53 %しか検出できなかった。
提案手法の信頼性を評価するため,世界主導のスマートコントラクト監査会社であるQuantstampの専門家監査員による手作業による分析を行った。
専門家分析の結果,未ラベルデータセットでは,GPT-4コードインタプリタの脆弱性検出能力が向上することが示唆された。
The surge in the adoption of smart contracts necessitates rigorous auditing to ensure their security and reliability. Manual auditing, although comprehensive, is time-consuming and heavily reliant on the auditor's expertise. With the rise of Large Language Models (LLMs), there is growing interest in leveraging them to assist auditors in the auditing process (co-auditing). However, the effectiveness of LLMs in smart contract co-auditing is contingent upon the design of the input prompts, especially in terms of context description and code length. This paper introduces a novel context-driven prompting technique for smart contract co-auditing. Our approach employs three techniques for context scoping and augmentation, encompassing code scoping to chunk long code into self-contained code segments based on code inter-dependencies, assessment scoping to enhance context description based on the target assessment goal, thereby limiting the search space, and reporting scoping to force a specific format for the generated response. Through empirical evaluations on publicly available vulnerable contracts, our method demonstrated a detection rate of 96\% for vulnerable functions, outperforming the native prompting approach, which detected only 53\%. To assess the reliability of our prompting approach, manual analysis of the results was conducted by expert auditors from our partner, Quantstamp, a world-leading smart contract auditing company. The experts' analysis indicates that, in unlabeled datasets, our proposed approach enhances the proficiency of the GPT-4 code interpreter in detecting vulnerabilities. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# Pseudo-Label Scorer を用いた知覚四分法予測のための自己学習
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction ( http://arxiv.org/abs/2406.18078v1 ) ライセンス: Link先を確認 | Yice Zhang, Jie Zeng, Weiming Hu, Ziyi Wang, Shiwei Chen, Ruifeng Xu, | (参考訳) Aspect Sentiment Quad Prediction (ASQP) は、アスペクトベースの感情分析において最も代表的で困難なタスクである、与えられたレビューに対する全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
この課題に対処するために、擬似ラベルスコアラーを用いた自己学習フレームワークを提案し、スコアラがレビューと擬似ラベルの一致を評価し、ミスマッチを除去し、自己学習の有効性を高めることを目的とした。
スコアラの有効性と信頼性を保証するために、トレーニングデータセットの品質とモデルアーキテクチャの2つの重要な側面を強調します。
この目的のために、人間による注釈付き比較データセットを作成し、ランキングベースの目的を用いて生成モデルをトレーニングする。
公開ASQPデータセットの大規模な実験により、スコアラを使用することで、自己学習の有効性を大幅に改善できることが明らかになった。
さらに、比較データセットのアノテーションとして、人間を大きな言語モデルに置き換える可能性について検討し、その可能性を示す実験を行った。
コードとデータはhttps://github.com/HITSZ-HLT/ST-w-Scorer-ABSA で公開しています。
Aspect Sentiment Quad Prediction (ASQP) aims to predict all quads (aspect term, aspect category, opinion term, sentiment polarity) for a given review, which is the most representative and challenging task in aspect-based sentiment analysis. A key challenge in the ASQP task is the scarcity of labeled data, which limits the performance of existing methods. To tackle this issue, we propose a self-training framework with a pseudo-label scorer, wherein a scorer assesses the match between reviews and their pseudo-labels, aiming to filter out mismatches and thereby enhance the effectiveness of self-training. We highlight two critical aspects to ensure the scorer's effectiveness and reliability: the quality of the training dataset and its model architecture. To this end, we create a human-annotated comparison dataset and train a generative model on it using ranking-based objectives. Extensive experiments on public ASQP datasets reveal that using our scorer can greatly and consistently improve the effectiveness of self-training. Moreover, we explore the possibility of replacing humans with large language models for comparison dataset annotation, and experiments demonstrate its feasibility. We release our code and data at https://github.com/HITSZ-HLT/ST-w-Scorer-ABSA . | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# MFDNet:高効率夜間フレア除去のためのマルチ周波数ディフレアネットワーク
MFDNet: Multi-Frequency Deflare Network for Efficient Nighttime Flare Removal ( http://arxiv.org/abs/2406.18079v1 ) ライセンス: Link先を確認 | Yiguo Jiang, Xuhang Chen, Chi-Man Pun, Shuqiang Wang, Wei Feng, | (参考訳) レンズに光が散らばったり、誤って反射されたりすると、撮影写真にフレア・アーティファクトが現れ、画像の視覚的品質に影響を及ぼす。
フレア除去の主な課題は、画像のオリジナルコンテンツを保存しながら、様々なフレアアーティファクトを除去することである。
この課題に対処するために,ラプラシアンピラミッドに基づくMFDNet(MFDNet)を提案する。
我々のネットワークは、フレア崩壊した画像を低周波帯と高周波帯に分解し、画像内の照明と内容情報を効果的に分離する。
低周波部は通常照明情報を含むが、高周波部は詳細な内容情報を含む。
我々のMFDNetは、低周波フレア知覚モジュール (LFFPM) と、フレアのない画像を再構成するための階層的融合再構成モジュール (HFRM) の2つの主要モジュールから構成されている。
具体的には、画像復元のための詳細な情報を保持しながら、世界的視点からフレアを知覚するために、LFFPMはTransformerを使用して、畳み込みニューラルネットワークを使用してグローバル情報を抽出し、詳細なローカル特徴をキャプチャする。
そして、HFRMは、LFFPMの出力を特徴集約を介して画像の高周波成分と徐々に融合させる。
さらに、MFDNetは入力画像のフレアを直接除去するのではなく、複数の周波数帯域で処理することで計算コストを削減できる。
実験の結果,Frare7Kデータセットから実世界の夜間フレアや合成画像を取り除き,最先端の手法よりも優れていることがわかった。
さらに、我々のモデルの計算複雑性は著しく低い。
When light is scattered or reflected accidentally in the lens, flare artifacts may appear in the captured photos, affecting the photos' visual quality. The main challenge in flare removal is to eliminate various flare artifacts while preserving the original content of the image. To address this challenge, we propose a lightweight Multi-Frequency Deflare Network (MFDNet) based on the Laplacian Pyramid. Our network decomposes the flare-corrupted image into low and high-frequency bands, effectively separating the illumination and content information in the image. The low-frequency part typically contains illumination information, while the high-frequency part contains detailed content information. So our MFDNet consists of two main modules: the Low-Frequency Flare Perception Module (LFFPM) to remove flare in the low-frequency part and the Hierarchical Fusion Reconstruction Module (HFRM) to reconstruct the flare-free image. Specifically, to perceive flare from a global perspective while retaining detailed information for image restoration, LFFPM utilizes Transformer to extract global information while utilizing a convolutional neural network to capture detailed local features. Then HFRM gradually fuses the outputs of LFFPM with the high-frequency component of the image through feature aggregation. Moreover, our MFDNet can reduce the computational cost by processing in multiple frequency bands instead of directly removing the flare on the input image. Experimental results demonstrate that our approach outperforms state-of-the-art methods in removing nighttime flare on real-world and synthetic images from the Flare7K dataset. Furthermore, the computational complexity of our model is remarkably low. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# Octo-planner:Planner-Action Agentのオンデバイス言語モデル
Octo-planner: On-device Language Model for Planner-Action Agents ( http://arxiv.org/abs/2406.18082v1 ) ライセンス: Link先を確認 | Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen, | (参考訳) AIエージェントは、自律的な意思決定と問題解決を可能にする、さまざまな領域でますます重要になっている。
効果的に機能するためには、これらのエージェントは最高の行動経路を決定し、計画された行動を実行する計画プロセスを必要とする。
本稿では,Phi-3 Miniをベースとしたプランナエージェント,エッジデバイスに最適化された380億のパラメータLSM,関数実行のためのOctopusモデルを用いたアクションエージェントという,計画と行動実行を分離する効率的なオンデバイス・プランナ・アクション・フレームワークを提案する。
プランナーエージェントは、まずタスクを一連のサブステップに分解してユーザクエリに応答し、アクションエージェントによって実行される。
資源制約のあるデバイスの性能を最適化するために、本研究では、文脈内学習の代わりにモデル微調整を採用し、応答時間を改善しながら計算コストとエネルギー消費を削減した。
提案手法では,GPT-4を用いて利用可能な関数に基づいて多様なクエリや応答を生成し,次にデータ品質を保証するための検証を行う。
我々は、このキュレートされたデータセット上でPhi-3 Miniモデルを微調整し、ドメイン内テスト環境で97倍の成功率を達成した。
マルチドメイン計画問題に対処するために,異なる関数サブセットに基づいて訓練されたLoRAから重みをマージするマルチLoRAトレーニング手法を開発した。
このアプローチは、リソース制約されたデバイス上での計算効率を維持しながら、複雑なマルチドメインクエリの柔軟な処理を可能にする。
さらなる研究を支援するため、我々はモデルウェイトを \url{https://huggingface.co/NexaAIDev/octopus-planning} でオープンソース化しました。
デモについては \url{https://www.nexa4ai.com/octo-planner} を参照してください。
AI agents have become increasingly significant in various domains, enabling autonomous decision-making and problem-solving. To function effectively, these agents require a planning process that determines the best course of action and then executes the planned actions. In this paper, we present an efficient on-device Planner-Action framework that separates planning and action execution into two distinct components: a planner agent based on Phi-3 Mini, a 3.8 billion parameter LLM optimized for edge devices, and an action agent using the Octopus model for function execution. The planner agent first responds to user queries by decomposing tasks into a sequence of sub-steps, which are then executed by the action agent. To optimize performance on resource-constrained devices, we employ model fine-tuning instead of in-context learning, reducing computational costs and energy consumption while improving response times. Our approach involves using GPT-4 to generate diverse planning queries and responses based on available functions, with subsequent validations to ensure data quality. We fine-tune the Phi-3 Mini model on this curated dataset, achieving a 97\% success rate in our in-domain test environment. To address multi-domain planning challenges, we developed a multi-LoRA training method that merges weights from LoRAs trained on distinct function subsets. This approach enables flexible handling of complex, multi-domain queries while maintaining computational efficiency on resource-constrained devices. To support further research, we have open-sourced our model weights at \url{https://huggingface.co/NexaAIDev/octopus-planning}. For the demo, please refer to \url{https://www.nexa4ai.com/octo-planner}. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# 知識制約付き事前学習モデルからの多言語知識グラフ補完
Multilingual Knowledge Graph Completion from Pretrained Language Models with Knowledge Constraints ( http://arxiv.org/abs/2406.18085v1 ) ライセンス: Link先を確認 | Ran Song, Shizhu He, Shengxiang Gao, Li Cai, Kang Liu, Zhengtao Yu, Jun Zhao, | (参考訳) MKGC(Multilingual Knowledge Graph Completion)は、末尾エンティティtを推論することで、異なる言語で(h, r, ?)のようなクエリを解決することを目的としている。
従来の研究では、多言語事前学習言語モデル(PLM)と生成パラダイムを活用してmKGCを実現している。
多言語事前訓練言語モデルには様々な言語に関する広範な知識が含まれているが、その事前訓練タスクはmKGCタスクと直接整合することはできない。
さらに、現在利用可能なKGとPLMの大多数は、英語中心の偏見を顕著に示している。
これによりmKGCは、特に低リソース言語のコンテキストにおいて、良い結果を得るのが難しくなる。
本稿では,mKGCの国際的および地域的知識制約について述べる。
前者は応答エンティティの推論を制約するために、後者はクエリコンテキストの表現を強化するために使用される。
提案手法は,mKGCタスクに適応した事前学習モデルを実現する。
提案手法は,Hits@1およびHits@10のSOTAよりも平均12.32%,16.03%優れており,提案手法がmKGCに対して著しく向上していることを示す。
Multilingual Knowledge Graph Completion (mKGC) aim at solving queries like (h, r, ?) in different languages by reasoning a tail entity t thus improving multilingual knowledge graphs. Previous studies leverage multilingual pretrained language models (PLMs) and the generative paradigm to achieve mKGC. Although multilingual pretrained language models contain extensive knowledge of different languages, its pretraining tasks cannot be directly aligned with the mKGC tasks. Moreover, the majority of KGs and PLMs currently available exhibit a pronounced English-centric bias. This makes it difficult for mKGC to achieve good results, particularly in the context of low-resource languages. To overcome previous problems, this paper introduces global and local knowledge constraints for mKGC. The former is used to constrain the reasoning of answer entities, while the latter is used to enhance the representation of query contexts. The proposed method makes the pretrained model better adapt to the mKGC task. Experimental results on public datasets demonstrate that our method outperforms the previous SOTA on Hits@1 and Hits@10 by an average of 12.32% and 16.03%, which indicates that our proposed method has significant enhancement on mKGC. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# 大規模言語マルチモーダルモデルを用いた慢性疾患リスク予測のためのEHRベースのモバイルおよびWebプラットフォーム
EHR-Based Mobile and Web Platform for Chronic Disease Risk Prediction Using Large Language Multimodal Models ( http://arxiv.org/abs/2406.18087v1 ) ライセンス: Link先を確認 | Chun-Chieh Liao, Wei-Ting Kuo, I-Hsuan Hu, Yen-Chen Shih, Jun-En Ding, Feng Liu, Fang-Ming Hung, | (参考訳) 伝統的な慢性疾患の診断には、疾患を特定するための医師との個人的相談が含まれる。
しかし、臨床ノートと血液検査値を用いたアプリケーションシステムの予測と開発に焦点を当てた研究の欠如がある。
2017年から2021年にかけて,台湾の病院データベースから5年間のElectronic Health Records(EHR)をAIデータベースとして収集した。
さらに,Large Language Multimodal Models (LLMMs) を用いた EHR ベースの慢性疾患予測プラットフォームを開発し,フロントエンド Web およびモバイルアプリケーションとの統合に成功している。
この予測プラットフォームは、病院のバックエンドデータベースに接続し、医師にリアルタイムのリスクアセスメント診断を提供する。
デモリンクはhttps://www.youtube.com/watch?
v=oqmL9DEDFgA。
Traditional diagnosis of chronic diseases involves in-person consultations with physicians to identify the disease. However, there is a lack of research focused on predicting and developing application systems using clinical notes and blood test values. We collected five years of Electronic Health Records (EHRs) from Taiwan's hospital database between 2017 and 2021 as an AI database. Furthermore, we developed an EHR-based chronic disease prediction platform utilizing Large Language Multimodal Models (LLMMs), successfully integrating with frontend web and mobile applications for prediction. This prediction platform can also connect to the hospital's backend database, providing physicians with real-time risk assessment diagnostics. The demonstration link can be found at https://www.youtube.com/watch?v=oqmL9DEDFgA. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# LLM駆動型マルチモーダルオピニオン表現同定
LLM-Driven Multimodal Opinion Expression Identification ( http://arxiv.org/abs/2406.18088v1 ) ライセンス: Link先を確認 | Bonian Jia, Huiyao Chen, Yueheng Sun, Meishan Zhang, Min Zhang, | (参考訳) 音声アシスタントからうつ病診断まで,NLPにおいてオピニオン表現同定(OEI)が不可欠である。
本研究は、OEIをマルチモーダル入力に拡張し、テキストの能力を超えて感情的な微妙さを届けることにおける聴覚的手がかりの重要性を浮き彫りにした。
実世界のシナリオを反映したテキストと音声を統合した,新しいマルチモーダルOEI(MOEI)タスクを提案する。
CMU MOSEIとIEMOCAPデータセットを用いてCI-MOEIデータセットを構築する。
さらに、MPQAデータセットにテキスト音声(TTS)技術を適用し、CIM-OEIデータセットを得る。
我々は,大規模言語モデル(LLM)の生成能力を最大限に活用するために,OEIタスクのためのテンプレートを設計する。
さらに、音声とテキストのモーダルを組み合わせて意見表現を識別するLLM駆動型STOEIを提案する。
実験の結果,MOEIは既存の手法よりも9.20倍高い性能を示し,SOTA結果を得た。
Opinion Expression Identification (OEI) is essential in NLP for applications ranging from voice assistants to depression diagnosis. This study extends OEI to encompass multimodal inputs, underlining the significance of auditory cues in delivering emotional subtleties beyond the capabilities of text. We introduce a novel multimodal OEI (MOEI) task, integrating text and speech to mirror real-world scenarios. Utilizing CMU MOSEI and IEMOCAP datasets, we construct the CI-MOEI dataset. Additionally, Text-to-Speech (TTS) technology is applied to the MPQA dataset to obtain the CIM-OEI dataset. We design a template for the OEI task to take full advantage of the generative power of large language models (LLMs). Advancing further, we propose an LLM-driven method STOEI, which combines speech and text modal to identify opinion expressions. Our experiments demonstrate that MOEI significantly improves the performance while our method outperforms existing methods by 9.20\% and obtains SOTA results. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# 下研究室「ディスチャージ・ミー!」:電子カルテのプロンプト駆動結合による放電要約
Shimo Lab at "Discharge Me!": Discharge Summarization by Prompt-Driven Concatenation of Electronic Health Record Sections ( http://arxiv.org/abs/2406.18094v1 ) ライセンス: Link先を確認 | Yunzhen He, Hiroaki Yamagiwa, Hidetoshi Shimodaira, | (参考訳) 本稿では,BioNLP Workshop 2024において,共有タスク「Discharge Me!
この課題の第一の目的は、臨床医が電子健康記録(EHR)に詳細なメモを書くのに費やす時間と労力を減らすことである。
参加者は、EHRから「Brief Hospital Course」と「Discharge Instructions」のセクションを生成するパイプラインを開発する。
われわれのアプローチは、ERHから関連するセクションを抽出する第一歩である。
次に、これらのセクションに説明プロンプトを追加し、それらを別々のトークンで結合して入力テキストを作成します。
テキスト生成モデルを訓練するために,臨床T5大モデルのLoRA微調整を行う。
最終テストデータでは,ROUGE-1スコアが0.394$となり,上位のソリューションに匹敵する結果を得た。
In this paper, we present our approach to the shared task "Discharge Me!" at the BioNLP Workshop 2024. The primary goal of this task is to reduce the time and effort clinicians spend on writing detailed notes in the electronic health record (EHR). Participants develop a pipeline to generate the "Brief Hospital Course" and "Discharge Instructions" sections from the EHR. Our approach involves a first step of extracting the relevant sections from the EHR. We then add explanatory prompts to these sections and concatenate them with separate tokens to create the input text. To train a text generation model, we perform LoRA fine-tuning on the ClinicalT5-large model. On the final test data, our approach achieved a ROUGE-1 score of $0.394$, which is comparable to the top solutions. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# 病理組織学的に癌型アノテーションが有用であった肺結節の1例
A Lung Nodule Dataset with Histopathology-based Cancer Type Annotation ( http://arxiv.org/abs/2406.18102v1 ) ライセンス: Link先を確認 | Muwei Jian, Hongyu Chen, Zaiyong Zhang, Nan Yang, Haorang Zhang, Lifu Ma, Wenjing Xu, Huixiang Zhi, | (参考訳) 近年,臨床診断のワークフローに欠かせないツールとしてコンピュータ支援診断(CAD)システムが登場し,放射線科医の負担を大幅に軽減している。
それでも、臨床環境に統合されているにもかかわらず、CADシステムは限界に直面している。
具体的には、CADシステムは肺結節の検出において高い性能を達成するが、複数のがんタイプを正確に予測することは困難である。
この制限は、専門家レベルのがんタイプ情報に注釈を付けた公開データセットの不足に起因する可能性がある。
本研究の目的は、このギャップを埋めるために、広くアクセス可能なデータセットと診断のための信頼できるツールを提供することにより、さまざまな種類の肺疾患のより詳細な分類を容易にし、正確な治療勧告を提供することである。
この目的を達成するため,95名の異なる患者から330個の注記結節(結節は束縛箱とラベル付けされている)からなるCT画像の多彩なデータセットを収集した。
データセットの品質は,様々な古典的分類と検出モデルを用いて評価され,これらの有望な結果は,データセットが実現可能であり,さらにインテリジェントな補助診断を容易にすることを証明している。
Recently, Computer-Aided Diagnosis (CAD) systems have emerged as indispensable tools in clinical diagnostic workflows, significantly alleviating the burden on radiologists. Nevertheless, despite their integration into clinical settings, CAD systems encounter limitations. Specifically, while CAD systems can achieve high performance in the detection of lung nodules, they face challenges in accurately predicting multiple cancer types. This limitation can be attributed to the scarcity of publicly available datasets annotated with expert-level cancer type information. This research aims to bridge this gap by providing publicly accessible datasets and reliable tools for medical diagnosis, facilitating a finer categorization of different types of lung diseases so as to offer precise treatment recommendations. To achieve this objective, we curated a diverse dataset of lung Computed Tomography (CT) images, comprising 330 annotated nodules (nodules are labeled as bounding boxes) from 95 distinct patients. The quality of the dataset was evaluated using a variety of classical classification and detection models, and these promising results demonstrate that the dataset has a feasible application and further facilitate intelligent auxiliary diagnosis. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# 欠陥データからの学習のためのトークン重み付きRNN-T
Token-Weighted RNN-T for Learning from Flawed Data ( http://arxiv.org/abs/2406.18108v1 ) ライセンス: Link先を確認 | Gil Keren, Wei Zhou, Ozlem Kalinli, | (参考訳) ASRモデルは、ターゲットトークンシーケンスの確率を高めるために、クロスエントロピー基準で一般的に訓練される。
ターゲットシーケンス内の全てのトークンの確率を最適化することは賢明であるが、転写エラーを反映するトークンを非強調化したい場合もある。
本研究では,RNN-T目標をトークン固有の重みで拡張する新しいトークン重み付きRNN-T基準を提案する。
新しい目的は、トレーニングデータ中の転写エラーからの精度損失を軽減するために使用され、これは疑似ラベルと人間のアノテーションエラーの2つの設定に自然に現れる。
実験の結果,擬似ラベルを用いた半教師付き学習では,最大38%の精度向上が得られた。
また、基準転写におけるWERの異なるレベルから生じる精度劣化を分析し、トークン重み付けRNN-Tがこの劣化を克服するのに適しており、精度損失の64%~99%を回復することを示した。
ASR models are commonly trained with the cross-entropy criterion to increase the probability of a target token sequence. While optimizing the probability of all tokens in the target sequence is sensible, one may want to de-emphasize tokens that reflect transcription errors. In this work, we propose a novel token-weighted RNN-T criterion that augments the RNN-T objective with token-specific weights. The new objective is used for mitigating accuracy loss from transcriptions errors in the training data, which naturally appear in two settings: pseudo-labeling and human annotation errors. Experiments results show that using our method for semi-supervised learning with pseudo-labels leads to a consistent accuracy improvement, up to 38% relative. We also analyze the accuracy degradation resulting from different levels of WER in the reference transcription, and show that token-weighted RNN-T is suitable for overcoming this degradation, recovering 64%-99% of the accuracy loss. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# ビデオモーメント検索のためのマルチモーダル大言語モデルのサプライズ効果
The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval ( http://arxiv.org/abs/2406.18113v1 ) ライセンス: Link先を確認 | Meinardus Boris, Batra Anil, Rohrbach Anna, Rohrbach Marcus, | (参考訳) 近年の研究では、オブジェクト検出やセマンティックセグメンテーションといったコンピュータビジョンタスクにMLLM(Multimodal large language model)を利用するという有望な成果が示されている。
しかし、多くの挑戦的なビデオタスクは未探索のままである。
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
そのため、先行研究は複雑な、高度に専門化されたアーキテクチャを開発し、ビデオの書き起こしのような追加の入力信号を活用して、文脈情報や時間情報を最適にエンコードし、それらの一般化を制限し、実用的でない可能性がある。
特に難しい課題はビデオモーメント検索であり、正確な時間的および文脈的接地を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
BLIP(Mr. Mr. as in Moment Retrieval)は,高額なビデオ言語事前学習を必要とせず,付加的な入力信号(例えば,書き起こしや音声)も必要とせず,従来の最先端手法よりもシンプルで汎用性の高い設計である。
広範に使用されているベンチマークであるCharades-STA, QVHighlights, ActivityNet Captions上で, モーメントネット上での時間的行動ローカライゼーションの最先端技術により, 提案手法の汎用性を示す。
特に、挑戦的な長ビデオマルチモーメントQVHighlightsベンチマークで、9%以上の(絶対)高いリコール(0.5と0.7 IoU)を実現しました。
私たちのコードは公開されています。
Recent studies have shown promising results in utilizing multimodal large language models (MLLMs) for computer vision tasks such as object detection and semantic segmentation. However, many challenging video tasks remain under-explored. Video-language tasks necessitate spatial and temporal comprehension and require significant compute. Therefore, prior works have developed complex, highly specialized architectures or leveraged additional input signals such as video transcripts to best encode contextual and temporal information, which limits their generality and can be impractical. One particularly challenging task is video moment retrieval, which requires precise temporal and contextual grounding. This work demonstrates the surprising effectiveness of leveraging image-text pretrained MLLMs for moment retrieval. We introduce Mr. BLIP (Mr. as in Moment Retrieval), a multimodal, single-stage model that requires no expensive video-language pretraining, no additional input signal (e.g., no transcript or audio), and has a simpler and more versatile design than prior state-of-the-art methods. We achieve a new state-of-the-art in moment retrieval on the widely used benchmarks Charades-STA, QVHighlights, and ActivityNet Captions and illustrate our method's versatility with a new state-of-the-art in temporal action localization on ActivityNet. Notably, we attain over 9% (absolute) higher Recall (at 0.5 and 0.7 IoU) on the challenging long-video multi-moment QVHighlights benchmark. Our code is publicly available. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# 3次元セマンティックマップを用いた未知の動的環境における開語彙移動操作
Open-vocabulary Mobile Manipulation in Unseen Dynamic Environments with 3D Semantic Maps ( http://arxiv.org/abs/2406.18115v1 ) ライセンス: Link先を確認 | Dicong Qiu, Wenzong Ma, Zhenfu Pan, Hui Xiong, Junwei Liang, | (参考訳) Open-Vocabulary Mobile Manipulation (OVMM) は自律ロボットにとって重要な機能であり、特に未知の動的環境がもたらす課題に直面している。
このタスクでは、ロボットが周囲のセマンティックな理解を探求し構築し、操作目標を達成するための実行可能な計画を作成し、環境の変化に適応し、人間からの自然言語の指示を理解する必要がある。
これらの課題に対処するために,視覚言語モデル(VLM)のゼロショット検出と接地認識機能と,高密度な3次元実体再構成と組み合わせて3Dセマンティックマップを構築する新しいフレームワークを提案する。
さらに,大規模言語モデル(LLM)を空間領域の抽象化とオンライン計画に利用し,人間の指示と空間意味コンテキストを取り入れた。
我々は10-DoFモバイル操作ロボットプラットフォームJSR-1を開発し、実世界のロボット実験において、提案するフレームワークは、動的環境下でのゼロショットOVMMタスクの空間意味論を効果的に把握し、自然言語ユーザ命令を処理できることを実証した。
さらに、このフレームワークは、初期計画が失敗したときに3Dセマンティックマップから派生した空間意味コンテキストに基づいて、次の最も可能性の高い候補位置に向けて再計画し、平均成功率76.67%を維持することができる。
Open-Vocabulary Mobile Manipulation (OVMM) is a crucial capability for autonomous robots, especially when faced with the challenges posed by unknown and dynamic environments. This task requires robots to explore and build a semantic understanding of their surroundings, generate feasible plans to achieve manipulation goals, adapt to environmental changes, and comprehend natural language instructions from humans. To address these challenges, we propose a novel framework that leverages the zero-shot detection and grounded recognition capabilities of pretraining visual-language models (VLMs) combined with dense 3D entity reconstruction to build 3D semantic maps. Additionally, we utilize large language models (LLMs) for spatial region abstraction and online planning, incorporating human instructions and spatial semantic context. We have built a 10-DoF mobile manipulation robotic platform JSR-1 and demonstrated in real-world robot experiments that our proposed framework can effectively capture spatial semantics and process natural language user instructions for zero-shot OVMM tasks under dynamic environment settings, with an overall navigation and task success rate of 80.95% and 73.33% over 105 episodes, and better SFT and SPL by 157.18% and 19.53% respectively compared to the baseline. Furthermore, the framework is capable of replanning towards the next most probable candidate location based on the spatial semantic context derived from the 3D semantic map when initial plans fail, keeping an average success rate of 76.67%. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# BADGE: LLMによるBADmintonレポートの生成と評価
BADGE: BADminton report Generation and Evaluation with LLM ( http://arxiv.org/abs/2406.18116v1 ) ライセンス: Link先を確認 | Shang-Hsuan Chiang, Lin-Wei Chao, Kuang-Da Wang, Chih-Chuan Wang, Wen-Chih Peng, | (参考訳) バドミントンは広く人気があり、試合の報告には一般にプレイヤー名、ゲームスコア、ボールタイプなどの詳細が含まれており、観客にゲームの総合的なビューを提供する。
しかし、これらのレポートを書くのは時間がかかります。
この課題により、我々はLarge Language Model(LLM)がバドミントンレポートの生成と評価を自動化できるかどうかを探ることができた。
本稿では,この目的のために LLM を用いて設計した BADGE という新しいフレームワークを紹介する。
本手法は,レポート生成とレポート評価の2つの主要なフェーズから構成される。
最初、バドミントンに関連するデータはLLMによって処理され、マッチの詳細なレポートが生成される。
我々は、入力データ型、ICL(In-Context Learning)、LCM(LCM)をそれぞれテストし、CSVデータ型と思考の連鎖を用いた場合、GPT-4が最適であることを示した。
レポート生成後、LCMはレポートを評価し、その品質を評価する。
GPT-4による評価結果と人的判断結果との比較では,GPT-4による報告が好まれる傾向が見られた。
バドミントン報告へのLLMの適用は未解明のままであり,本研究は今後の発展に向けた基礎的なステップとなる。
さらに,本手法は他のスポーツゲームにも拡張可能であり,スポーツ振興の促進が図られる。
詳細はhttps://github.com/AndyChiangSH/BADGEを参照してください。
Badminton enjoys widespread popularity, and reports on matches generally include details such as player names, game scores, and ball types, providing audiences with a comprehensive view of the games. However, writing these reports can be a time-consuming task. This challenge led us to explore whether a Large Language Model (LLM) could automate the generation and evaluation of badminton reports. We introduce a novel framework named BADGE, designed for this purpose using LLM. Our method consists of two main phases: Report Generation and Report Evaluation. Initially, badminton-related data is processed by the LLM, which then generates a detailed report of the match. We tested different Input Data Types, In-Context Learning (ICL), and LLM, finding that GPT-4 performs best when using CSV data type and the Chain of Thought prompting. Following report generation, the LLM evaluates and scores the reports to assess their quality. Our comparisons between the scores evaluated by GPT-4 and human judges show a tendency to prefer GPT-4 generated reports. Since the application of LLM in badminton reporting remains largely unexplored, our research serves as a foundational step for future advancements in this area. Moreover, our method can be extended to other sports games, thereby enhancing sports promotion. For more details, please refer to https://github.com/AndyChiangSH/BADGE. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# SafeAligner: 応答格差誘導による脱獄攻撃に対する安全アライメント
SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance ( http://arxiv.org/abs/2406.18118v1 ) ライセンス: Link先を確認 | Caishuang Huang, Wanxu Zhao, Rui Zheng, Huijie Lv, Shihan Dou, Sixian Li, Xiao Wang, Enyu Zhou, Junjie Ye, Yuming Yang, Tao Gui, Qi Zhang, Xuanjing Huang, | (参考訳) 大規模言語モデル(LLM)の開発が急速に進展するにつれて、これらのモデルを実用性を損なうことなく効果的に確保することが重要な研究領域となっている。
しかし、現在のジェイルブレイク攻撃に対する防衛戦略(すなわち、セキュリティプロトコルをバイパスする努力)は、適応性、汎用能力の制限、高コストに悩まされることが多い。
これらの課題に対処するため,脱コード段階で実装されたjailbreak攻撃に対する防御強化手法であるSafeAlignerを紹介した。
まず、安全性を高めるために訓練されたSentinel Modelと、よりリスクの高い応答を生成するために設計されたIntruder Modelの2つの特殊なモデルを開発する。
SafeAlignerは、これらのモデルからの応答間のセキュリティレベルの格差を利用して、有害トークンと有益なトークンを区別し、ターゲットモデルの出力トークン分布を変更して、安全アライメントを効果的に導く。
大規模な実験により、SafeAlignerは有益トークンの可能性を増大させ、有害トークンの発生を減少させ、一般性への損失を最小限に抑えることが示されている。
As the development of large language models (LLMs) rapidly advances, securing these models effectively without compromising their utility has become a pivotal area of research. However, current defense strategies against jailbreak attacks (i.e., efforts to bypass security protocols) often suffer from limited adaptability, restricted general capability, and high cost. To address these challenges, we introduce SafeAligner, a methodology implemented at the decoding stage to fortify defenses against jailbreak attacks. We begin by developing two specialized models: the Sentinel Model, which is trained to foster safety, and the Intruder Model, designed to generate riskier responses. SafeAligner leverages the disparity in security levels between the responses from these models to differentiate between harmful and beneficial tokens, effectively guiding the safety alignment by altering the output token distribution of the target model. Extensive experiments show that SafeAligner can increase the likelihood of beneficial tokens, while reducing the occurrence of harmful ones, thereby ensuring secure alignment with minimal loss to generality. | 翻訳日:2024-06-27 14:28:34 公開日:2024-06-26 |
# 失業予測はどの程度正確か?
Robust personnel rostering: how accurate should absenteeism predictions be? ( http://arxiv.org/abs/2406.18119v1 ) ライセンス: Link先を確認 | Martina Doneda, Pieter Smet, Giuliana Carello, Ettore Lanzarone, Greet Vanden Berghe, | (参考訳) 欠勤による人事異動は、従業員の労働時間に対する最後の数分の調整を必要とすることが多い。
このような変化の影響を緩和するための一般的な戦略は、従業員をリザーブシフトに割り当てることである。
ロスターロバスト性を最大化するために、機械学習モデルからの欠如予測を用いて適切な数のリザーブシフトをスケジュールする予測最適化アプローチを仮定する。
本稿では,機械学習モデルが所定の予測性能レベルで予測を行うと仮定して,予測テーマ最適化手法によって生成されたロスターのロバスト性を評価する手法を提案する。
機械学習モデルを訓練・テストする代わりに、モデル性能のキャラクタリゼーションに基づいて予測をシミュレートする。
モデルが単純な非データ駆動ロスターポリシーを上回り、そのモデルに必要な最小パフォーマンスレベルを特定するために、この方法論をどのように適用できるかを示す。
看護婦のロスター問題に関する計算研究において、予測テーマ最適化アプローチは、適切なパフォーマンス要件の下で、特に従業員が交換可能なスキルを持つ場合において、非データ駆動型ポリシーよりも優れていることを示す。
Disruptions to personnel rosters caused by absenteeism often necessitate last-minute adjustments to the employees' working hours. A common strategy to mitigate the impact of such changes is to assign employees to reserve shifts: special on-call duties during which an employee can be called in to cover for an absent employee. To maximize roster robustness, we assume a predict-then-optimize approach that uses absence predictions from a machine learning model to schedule an adequate number of reserve shifts. In this paper we propose a methodology to evaluate the robustness of rosters generated by the predict-then-optimize approach, assuming the machine learning model will make predictions at a predetermined prediction performance level. Instead of training and testing machine learning models, our methodology simulates the predictions based on a characterization of model performance. We show how this methodology can be applied to identify the minimum performance level needed for the model to outperform simple non-data-driven robust rostering policies. In a computational study on a nurse rostering problem, we demonstrate how the predict-then-optimize approach outperforms non-data-driven policies under reasonable performance requirements, particularly when employees possess interchangeable skills. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# ArzEn-LLM:LLMを用いたコード変換エジプト英語翻訳と音声認識
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs ( http://arxiv.org/abs/2406.18120v1 ) ライセンス: Link先を確認 | Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa, | (参考訳) 近年のエジプト・アラビア語と英語のコードスイッチング現象の広範化にともなって、機械翻訳(MT)と自動音声認識(ASR)システムの複雑さを探求し、コードスイッチしたエジプト・アラビア語を英語またはエジプト・アラビア語に翻訳することに焦点を当てた。
本研究の目的は,LLama や Gemma などの大規模言語モデルを用いて,これらのシステム開発に使用される方法論を提示することである。
ASR の分野では,Whisper モデルをコード変更によるエジプトのアラビア語認識に利用し,データ前処理やトレーニング技術を含む実験手順を詳述する。
ASRをMTと統合した連続的な音声テキスト翻訳システムの実装を通じて、限られた資源とエジプト・アラビア方言の特徴によって生じる課題を克服することを目指している。
確立された指標に対する評価は有望な結果を示し、我々の手法は、最先端の英語翻訳に対して56\%、アラビア語翻訳では9.3\%の大幅な改善をもたらす。
コードスイッチングは音声言語に深く依存しているため、ASRシステムはこの現象を効果的に扱えることが重要である。
この能力は、ビジネス交渉、文化交流、学術談話など、様々な分野におけるシームレスな対話を可能にするために不可欠である。
私たちのモデルとコードはオープンソースリソースとして利用できます。
コード: \url{http://github.com/ahmedheakl/arazn-llm}}, Models: \url{http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e}
Motivated by the widespread increase in the phenomenon of code-switching between Egyptian Arabic and English in recent times, this paper explores the intricacies of machine translation (MT) and automatic speech recognition (ASR) systems, focusing on translating code-switched Egyptian Arabic-English to either English or Egyptian Arabic. Our goal is to present the methodologies employed in developing these systems, utilizing large language models such as LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper model for code-switched Egyptian Arabic recognition, detailing our experimental procedures including data preprocessing and training techniques. Through the implementation of a consecutive speech-to-text translation system that integrates ASR with MT, we aim to overcome challenges posed by limited resources and the unique characteristics of the Egyptian Arabic dialect. Evaluation against established metrics showcases promising results, with our methodologies yielding a significant improvement of $56\%$ in English translation over the state-of-the-art and $9.3\%$ in Arabic translation. Since code-switching is deeply inherent in spoken languages, it is crucial that ASR systems can effectively handle this phenomenon. This capability is crucial for enabling seamless interaction in various domains, including business negotiations, cultural exchanges, and academic discourse. Our models and code are available as open-source resources. Code: \url{http://github.com/ahmedheakl/arazn-llm}}, Models: \url{http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e}. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# ラングチェイン監獄:ラングチェイン監獄
Poisoned LangChain: Jailbreak LLMs by LangChain ( http://arxiv.org/abs/2406.18122v1 ) ライセンス: Link先を確認 | Ziqiu Wang, Jun Liu, Shengkai Zhang, Yang Yang, | (参考訳) 自然言語処理(NLP)の発展に伴い、大規模言語モデル(LLM)がますます人気が高まっている。
LLMは日々の生活にさらに統合されており、セキュリティ上の脆弱性に対する世間の懸念を高めている。
その結果,大規模言語モデルのセキュリティが重要になっている。
現在,LSMに対する攻撃・防御技術は進化を続けている。
重要な攻撃方法の1つはジェイルブレイク攻撃であり、これはモデルの安全性メカニズムを回避し、不適切なコンテンツの生成を誘導するように設計されている。
既存のジェイルブレイク攻撃は主に直接ジェイルブレイクの誘導プロンプトに頼っているが、これは堅牢なフィルタリングと高い理解能力を持つ大型モデルに対して効果が低い。
大規模言語モデルにおけるリアルタイム能力の需要が高まる中、リアルタイム更新と新しい知識の反復が不可欠になっている。
Retrieval-Augmented Generation (RAG)は、新しい知識の欠如を補う高度な技術であり、徐々に主流になりつつある。
RAGはモデルが外部の知識ベースを利用することを可能にするため、Jailbreak攻撃のための新たな手段を提供する。
本稿では,間接ジェイルブレイクの概念を初めて提案し,LangChainによる検索・拡張生成を実現する。
そこで本研究では, 有害な外的知識ベースを利用して大規模言語モデルと対話し, 有害な非準拠な対話を発生させる, 間接的ジェイルブレイク攻撃法である Poisoned-LangChain (PLC) を新たに設計する。
実験の結果、PLCは3つのシナリオで間接ジェイルブレイク攻撃を成功させ、それぞれ88.56%、79.04%、82.69%の成功率を達成した。
With the development of natural language processing (NLP), large language models (LLMs) are becoming increasingly popular. LLMs are integrating more into everyday life, raising public concerns about their security vulnerabilities. Consequently, the security of large language models is becoming critically important. Currently, the techniques for attacking and defending against LLMs are continuously evolving. One significant method type of attack is the jailbreak attack, which designed to evade model safety mechanisms and induce the generation of inappropriate content. Existing jailbreak attacks primarily rely on crafting inducement prompts for direct jailbreaks, which are less effective against large models with robust filtering and high comprehension abilities. Given the increasing demand for real-time capabilities in large language models, real-time updates and iterations of new knowledge have become essential. Retrieval-Augmented Generation (RAG), an advanced technique to compensate for the model's lack of new knowledge, is gradually becoming mainstream. As RAG enables the model to utilize external knowledge bases, it provides a new avenue for jailbreak attacks. In this paper, we conduct the first work to propose the concept of indirect jailbreak and achieve Retrieval-Augmented Generation via LangChain. Building on this, we further design a novel method of indirect jailbreak attack, termed Poisoned-LangChain (PLC), which leverages a poisoned external knowledge base to interact with large language models, thereby causing the large models to generate malicious non-compliant dialogues.We tested this method on six different large language models across three major categories of jailbreak issues. The experiments demonstrate that PLC successfully implemented indirect jailbreak attacks under three different scenarios, achieving success rates of 88.56%, 79.04%, and 82.69% respectively. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# ResumeAtlas:大規模データセットと大規模言語モデルによるResume分類の再検討
ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models ( http://arxiv.org/abs/2406.18125v1 ) ライセンス: Link先を確認 | Ahmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky, | (参考訳) オンライン採用プラットフォームへの依存度の増加とAI技術の採用は、効率的な再編成手法の必要性を浮き彫りにした。
しかし、小さなデータセット、標準化された履歴テンプレートの欠如、プライバシー問題といった課題は、既存の分類モデルの正確性と有効性を妨げている。
本研究では,これらの課題に対して,分類を再開するための包括的アプローチを提案する。
多様な情報源から13,389人の履歴書を収集し,BERT や Gemma1.1 2B などの大規模言語モデル (LLM) を用いて分類を行った。
その結果,従来の機械学習手法に比べて,トップ1の精度92\%,トップ5の精度97.5\%を達成した。
これらの知見は、履歴分類システムの精度と堅牢性を高めるために、データセットの品質と高度なモデルアーキテクチャの重要性を浮き彫りにして、オンライン採用の実践の分野を推し進めている。
The increasing reliance on online recruitment platforms coupled with the adoption of AI technologies has highlighted the critical need for efficient resume classification methods. However, challenges such as small datasets, lack of standardized resume templates, and privacy concerns hinder the accuracy and effectiveness of existing classification models. In this work, we address these challenges by presenting a comprehensive approach to resume classification. We curated a large-scale dataset of 13,389 resumes from diverse sources and employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for classification. Our results demonstrate significant improvements over traditional machine learning approaches, with our best model achieving a top-1 accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the importance of dataset quality and advanced model architectures in enhancing the accuracy and robustness of resume classification systems, thus advancing the field of online recruitment practices. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# CTS: 3次元検出における教師なしドメイン適応のシミュレート
CTS: Sim-to-Real Unsupervised Domain Adaptation on 3D Detection ( http://arxiv.org/abs/2406.18129v1 ) ライセンス: Link先を確認 | Meiying Zhang, Weiyuan Peng, Guangyao Ding, Chenyang Lei, Chunlin Ji, Qi Hao, | (参考訳) シミュレーションデータは正確にラベル付けすることができ、オブジェクト検出を含むデータ駆動アルゴリズムの性能を向上させることが期待されている。
しかし、シミュレーションから現実(シミュレート・トゥ・リアル)までの様々な領域の不整合のため、クロスドメイン・オブジェクト検出アルゴリズムは通常、劇的なパフォーマンス低下に悩まされる。
実世界のデータセット間のドメイン間タスクに対処するために、多くの教師なしドメイン適応(UDA)手法が開発されているが、sim-to-realの進歩は限られている。
本稿では,ラベル付きシミュレーション(ソース)から未ラベルの現実(ターゲット)ドメインへモデルを転送する,新しいCTSフレームワークを提案する。
2段階検出器をベースとしたこの研究の斬新さは次の3つです。
1) 固定サイズのアンカーヘッドとRoI拡張により,2つのドメイン間のサイズバイアスと特徴の多様性に対処し,擬似ラベルの品質を向上する。
2) 擬似ラベル品質を均一に定量化するために, 境界箱の新規な隅形状不確実性表現(AU)を開発する。
3) 雑音認識型平均教師ドメイン適応手法と, 対象レベルおよびフレームレベルサンプリング手法を開発し, 雑音ラベルの影響を移行した。
実験の結果,提案手法は3次元オブジェクト検出モデルのシム・ツー・リアル領域適応能力を大幅に向上させ,通常,実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
Simulation data can be accurately labeled and have been expected to improve the performance of data-driven algorithms, including object detection. However, due to the various domain inconsistencies from simulation to reality (sim-to-real), cross-domain object detection algorithms usually suffer from dramatic performance drops. While numerous unsupervised domain adaptation (UDA) methods have been developed to address cross-domain tasks between real-world datasets, progress in sim-to-real remains limited. This paper presents a novel Complex-to-Simple (CTS) framework to transfer models from labeled simulation (source) to unlabeled reality (target) domains. Based on a two-stage detector, the novelty of this work is threefold: 1) developing fixed-size anchor heads and RoI augmentation to address size bias and feature diversity between two domains, thereby improving the quality of pseudo-label; 2) developing a novel corner-format representation of aleatoric uncertainty (AU) for the bounding box, to uniformly quantify pseudo-label quality; 3) developing a noise-aware mean teacher domain adaptation method based on AU, as well as object-level and frame-level sampling strategies, to migrate the impact of noisy labels. Experimental results demonstrate that our proposed approach significantly enhances the sim-to-real domain adaptation capability of 3D object detection models, outperforming state-of-the-art cross-domain algorithms, which are usually developed for real-to-real UDA tasks. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# 時系列要素からの静的情報抽出による逐次歪み
Sequential Disentanglement by Extracting Static Information From A Single Sequence Element ( http://arxiv.org/abs/2406.18131v1 ) ライセンス: Link先を確認 | Nimrod Berman, Ilan Naiman, Idan Arbiv, Gal Fadlon, Omri Azencot, | (参考訳) 基本的な表現学習タスクの1つは教師なしシーケンシャル・アンタングルメント(英語版)であり、入力の潜在符号は1つの静的因子と一連の動的因子に分解される。
この潜伏した情報を抽出するために、既存のメソッドは入力シーケンス全体の静的および動的コードを条件にしている。
残念なことに、これらのモデルは情報漏洩、すなわち静的情報と動的情報をエンコードする動的ベクトルに悩まされる。
動的次元と補助損失項を減らしてこの問題を緩和しようとする試みは、部分的な成功しか得られない。
そこで本研究では,単一サンプルを条件付けながら,単純かつ効果的な減算帰納入バイアスを提供することにより,情報漏洩を緩和する,新規でシンプルなアーキテクチャを提案する。
注目すべきは、必要な損失項、ハイパーパラメータ、データ拡張という観点で、結果として生じる変動フレームワークがよりシンプルになることだ。
提案手法は, 時系列, ビデオ, 音声を含む複数のデータモダリティ・ベンチマークを用いて評価し, いくつかの強基線と比較して, 生成・予測タスクにおける最先端結果以上の結果を示す。
One of the fundamental representation learning tasks is unsupervised sequential disentanglement, where latent codes of inputs are decomposed to a single static factor and a sequence of dynamic factors. To extract this latent information, existing methods condition the static and dynamic codes on the entire input sequence. Unfortunately, these models often suffer from information leakage, i.e., the dynamic vectors encode both static and dynamic information, or vice versa, leading to a non-disentangled representation. Attempts to alleviate this problem via reducing the dynamic dimension and auxiliary loss terms gain only partial success. Instead, we propose a novel and simple architecture that mitigates information leakage by offering a simple and effective subtraction inductive bias while conditioning on a single sample. Remarkably, the resulting variational framework is simpler in terms of required loss terms, hyperparameters, and data augmentation. We evaluate our method on multiple data-modality benchmarks including general time series, video, and audio, and we show beyond state-of-the-art results on generation and prediction tasks in comparison to several strong baselines. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# ConvoCache: チャットボット応答のスマートリユース
ConvoCache: Smart Re-Use of Chatbot Responses ( http://arxiv.org/abs/2406.18133v1 ) ライセンス: Link先を確認 | Conor Atkins, Ian Wood, Mohamed Ali Kaafar, Hassan Asghar, Nardine Basta, Michal Kepkowski, | (参考訳) 本稿では,会話型キャッシングシステムであるConvoCacheについて紹介する。
ConvoCacheは過去にセマンティックに類似したプロンプトを見つけ、レスポンスを再利用する。
本稿では、DailyDialogデータセット上でConvoCacheを評価する。
ConvoCacheはUniEvalのコヒーレンス閾値90%を適用でき、平均遅延214msでキャッシュを使用するプロンプトの89%に応答し、LLMと1秒以上の音声合成を置き換えることができる。
さらにレイテンシを低減するために、プレフェッチをテストし、限られた有用性を見つけます。
リクエストの80%でプレフェッチすると、ヒット率は63%、全体的な一貫性は低下する。
ConvoCacheは、任意のチャットボットで使用することができ、生成AIの使用を最大89%削減することでコストを削減することができる。
We present ConvoCache, a conversational caching system that solves the problem of slow and expensive generative AI models in spoken chatbots. ConvoCache finds a semantically similar prompt in the past and reuses the response. In this paper we evaluate ConvoCache on the DailyDialog dataset. We find that ConvoCache can apply a UniEval coherence threshold of 90% and respond to 89% of prompts using the cache with an average latency of 214ms, replacing LLM and voice synthesis that can take over 1s. To further reduce latency we test prefetching and find limited usefulness. Prefetching with 80% of a request leads to a 63% hit rate, and a drop in overall coherence. ConvoCache can be used with any chatbot to reduce costs by reducing usage of generative AI by up to 89%. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# 大規模言語モデルの「暗黙的」検索ロバスト性の評価
Assessing "Implicit" Retrieval Robustness of Large Language Models ( http://arxiv.org/abs/2406.18134v1 ) ライセンス: Link先を確認 | Xiaoyu Shen, Rexhina Blloshmi, Dawei Zhu, Jiahuan Pei, Wei Zhang, | (参考訳) 検索拡張世代は、外部知識で大規模言語モデルを強化するフレームワークとして人気を集めている。
しかし、その有効性はモデルの検索堅牢性に依存している。
モデルが検索の堅牢性に欠ける場合、その性能は検索者の精度に制約され、検索されたコンテキストが無関係な場合に重大な妥協をもたらす。
本稿では,様々な大規模言語モデルの「単純」検索ロバスト性を評価し,検索した文脈の関連性を明示的に判断することなく,最終回答を直接出力するように指示する。
以上の結果から,ゴールドとイントラクションの混在による微調整により,検索精度が向上する一方,検索精度が向上しても正確な解答を抽出する能力は維持されていることが明らかとなった。
これは、大規模言語モデルは、最終回答の監督からエンドツーエンドの方法でのみ学習することで、関連性または無関係な検索コンテキストを暗黙的に扱うことができることを示唆している。
明示的な妥当性判断のための追加プロセスの導入は不要であり、エンドツーエンドのアプローチを妨害する可能性がある。
Retrieval-augmented generation has gained popularity as a framework to enhance large language models with external knowledge. However, its effectiveness hinges on the retrieval robustness of the model. If the model lacks retrieval robustness, its performance is constrained by the accuracy of the retriever, resulting in significant compromises when the retrieved context is irrelevant. In this paper, we evaluate the "implicit" retrieval robustness of various large language models, instructing them to directly output the final answer without explicitly judging the relevance of the retrieved context. Our findings reveal that fine-tuning on a mix of gold and distracting context significantly enhances the model's robustness to retrieval inaccuracies, while still maintaining its ability to extract correct answers when retrieval is accurate. This suggests that large language models can implicitly handle relevant or irrelevant retrieved context by learning solely from the supervision of the final answer in an end-to-end manner. Introducing an additional process for explicit relevance judgment can be unnecessary and disrupts the end-to-end approach. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# ヒンディー語の自動音声認識
Automatic Speech Recognition for Hindi ( http://arxiv.org/abs/2406.18135v1 ) ライセンス: Link先を確認 | Anish Saha, A. G. Ramakrishnan, | (参考訳) 自動音声認識(ASR)は、コンピュータが音声言語をテキストに変換する技術を開発することに焦点を当て、計算言語学において重要な分野である。
この分野は言語学と機械学習を組み合わせている。
ASRモデルは、教師付き学習を通じて音声音声を書き起こしにマッピングするが、実際のテキストと無制限のテキストを扱う必要がある。
テキスト音声システムは実際のテキストで直接動作するが、ASRシステムは大きなテキストコーパスで訓練された言語モデルに依存している。
予測モデルのトレーニングには高品質な転写データが不可欠である。
この研究には、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計という2つの主要コンポーネントが含まれていた。
JavaScriptとNode.jsで作成されたこのWebアプリケーションは、大量のオーディオファイルとその書き起こしを管理し、ASRの書き起こしの協調的な修正を容易にする。
クライアントサーバアーキテクチャを使ってリアルタイムに動作します。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
VADは、人間の音声の存在を検出し、効率的な音声処理を支援し、非音声区間における不要な処理を低減し、VoIPアプリケーションにおける計算とネットワーク帯域を節約する。
研究の最終段階では、隠れマルコフモデル(HMM)状態に音声信号を正確に整列するニューラルネットワークがテストされた。
これには、ノードコアクティベーションの事前統計を利用する新しいバックプロパゲーション手法の実装が含まれていた。
Automatic speech recognition (ASR) is a key area in computational linguistics, focusing on developing technologies that enable computers to convert spoken language into text. This field combines linguistics and machine learning. ASR models, which map speech audio to transcripts through supervised learning, require handling real and unrestricted text. Text-to-speech systems directly work with real text, while ASR systems rely on language models trained on large text corpora. High-quality transcribed data is essential for training predictive models. The research involved two main components: developing a web application and designing a web interface for speech recognition. The web application, created with JavaScript and Node.js, manages large volumes of audio files and their transcriptions, facilitating collaborative human correction of ASR transcripts. It operates in real-time using a client-server architecture. The web interface for speech recognition records 16 kHz mono audio from any device running the web app, performs voice activity detection (VAD), and sends the audio to the recognition engine. VAD detects human speech presence, aiding efficient speech processing and reducing unnecessary processing during non-speech intervals, thus saving computation and network bandwidth in VoIP applications. The final phase of the research tested a neural network for accurately aligning the speech signal to hidden Markov model (HMM) states. This included implementing a novel backpropagation method that utilizes prior statistics of node co-activations. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# 高次元スパース回帰における非パラメトリック推定のためのスパースディープニューラルネットワーク
Sparse deep neural networks for nonparametric estimation in high-dimensional sparse regression ( http://arxiv.org/abs/2406.18137v1 ) ライセンス: Link先を確認 | Dongya Wu, Xin Li, | (参考訳) 高次元状態下でのスパースディープニューラルネットワークの一般化理論が確立されている。
パラメータ推定は、一般化以外にも、ディープニューラルネットワークの可変選択と解釈可能性にとって重要であるため、重要である。
パラメータ推定に関する最近の理論的研究は、主に2層ニューラルネットワークに焦点を当てているが、これはパラメータ推定の収束がヘッセン行列の正則性に大きく依存しているのに対し、ディープニューラルネットワークのヘッセン行列は極めて特異であるという事実からである。
パラメータ推定におけるディープニューラルネットワークの不特定性を回避するため,入力に対する偏微分の非パラメトリック推定を提案する。
まず,パラメータの値が$\ell_{1}$-normの場合に,パラメータ数や入力次元の対数によってのみ,サンプルの複雑さが増大することが,スパースディープニューラルネットワークのモデル収束を保証していることを示す。
そして、偏微分のノルムと発散をバウンドすることによって、偏微分の非パラメトリック推定の収束率は$\mathcal{O}(n^{-1/4})$、モデル収束率$\mathcal{O}(n^{-1/2})$よりも遅い$としてスケールする。
我々の知る限りでは、この研究は非パラメトリック推定とパラメトリックスパースディープニューラルネットワークを初めて組み合わせている。
偏微分の非パラメトリック推定は非線形変数選択にとって非常に重要であるため、現在の結果はディープニューラルネットワークの解釈可能性に有望な未来を示すものである。
Generalization theory has been established for sparse deep neural networks under high-dimensional regime. Beyond generalization, parameter estimation is also important since it is crucial for variable selection and interpretability of deep neural networks. Current theoretical studies concerning parameter estimation mainly focus on two-layer neural networks, which is due to the fact that the convergence of parameter estimation heavily relies on the regularity of the Hessian matrix, while the Hessian matrix of deep neural networks is highly singular. To avoid the unidentifiability of deep neural networks in parameter estimation, we propose to conduct nonparametric estimation of partial derivatives with respect to inputs. We first show that model convergence of sparse deep neural networks is guaranteed in that the sample complexity only grows with the logarithm of the number of parameters or the input dimension when the $\ell_{1}$-norm of parameters is well constrained. Then by bounding the norm and the divergence of partial derivatives, we establish that the convergence rate of nonparametric estimation of partial derivatives scales as $\mathcal{O}(n^{-1/4})$, a rate which is slower than the model convergence rate $\mathcal{O}(n^{-1/2})$. To the best of our knowledge, this study combines nonparametric estimation and parametric sparse deep neural networks for the first time. As nonparametric estimation of partial derivatives is of great significance for nonlinear variable selection, the current results show the promising future for the interpretability of deep neural networks. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# LOOK-M: 効率的なマルチモーダル長コンテキスト推論のためのKVキャッシュにおけるルックオース最適化
LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference ( http://arxiv.org/abs/2406.18139v1 ) ライセンス: Link先を確認 | Zhongwei Wan, Ziang Wu, Che Liu, Jinfa Huang, Zhihong Zhu, Peng Jin, Longyue Wang, Li Yuan, | (参考訳) MLLM(Long-context Multimodal Large Language Models)は、入力長の増加、メモリと時間効率の課題への対処として、マルチモーダルキーバリュー(KV)キャッシュの成長を推論するために、かなりの計算資源を必要とする。
テキストコンテキストのみを管理する単一モダリティLLMとは異なり、長文MLLMのKVキャッシュには、時間的および空間的関係と関連するテキストコンテキストを持つ複数の画像からの表現が含まれている。
画像トークンの優位性は、LLMのKVキャッシュの従来の最適化がマルチモーダルな長文設定には適さないことを意味し、この課題に対処する以前の研究は行われていない。
本研究では,マルチモーダルKVキャッシュサイズを効率よく削減し,フルキャッシュに匹敵する性能を維持しつつ,先駆的かつ微調整のないアプローチであるLOOK-Mを紹介する。
提案手法は, 画像特徴よりもテキストの注意を優先し, マルチモーダルインタラクション観測に基づいて, KVキャッシュを圧縮するための新しいテキストプライア法を提案する。
さらに,画像コンテキスト情報の劣化を軽減するために,KVペアの融合による補正戦略を提案する。
LOOK-Mは、KVキャッシュのメモリ使用量を80%削減するなど、KVキャッシュのメモリ使用量が大幅に削減されたことにより、最大1.5倍高速な復号化を実現するだけでなく、様々な長いコンテキストマルチモーダルタスクにおけるパフォーマンスの維持や向上も図っている。
Long-context Multimodal Large Language Models (MLLMs) demand substantial computational resources for inference as the growth of their multimodal Key-Value (KV) cache, in response to increasing input lengths, challenges memory and time efficiency. Unlike single-modality LLMs that manage only textual contexts, the KV cache of long-context MLLMs includes representations from multiple images with temporal and spatial relationships and related textual contexts. The predominance of image tokens means traditional optimizations for LLMs' KV caches are unsuitable for multimodal long-context settings, and no prior works have addressed this challenge. In this work, we introduce LOOK-M, a pioneering, fine-tuning-free approach that efficiently reduces the multimodal KV cache size while maintaining performance comparable to a full cache. We observe that during prompt prefill, the model prioritizes more textual attention over image features, and based on the multimodal interaction observation, a new proposed text-prior method is explored to compress the KV cache. Furthermore, to mitigate the degradation of image contextual information, we propose several compensatory strategies using KV pairs merging. LOOK-M demonstrates that with a significant reduction in KV Cache memory usage, such as reducing it by 80% in some cases, it not only achieves up to 1.5x faster decoding but also maintains or even enhances performance across a variety of long context multimodal tasks. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# クロスドメイン新規クラス発見のための排他的スタイル除去
Exclusive Style Removal for Cross Domain Novel Class Discovery ( http://arxiv.org/abs/2406.18140v1 ) ライセンス: Link先を確認 | Yicheng Wang, Feng Liu, Junmin Liu, Zhen Fang, Kai Sun, | (参考訳) オープンワールド学習における有望な分野として、 \textit{Novel Class Discovery} (NCD) は、通常、同じドメイン内のラベル付きデータの事前の知識に基づいて、ラベル付きセットで未確認の新規クラスをクラスタリングするタスクである。
しかし, 従来のNCD法の性能は, ラベル付きクラスと異なる分布から新しいクラスをサンプリングした場合, 著しく損なわれる可能性がある。
本稿では,スタイル情報を削除する必要のある条件で,クロスドメイン設定におけるNCDの可解性について検討し,確立する。
理論的解析に基づいて,基本特徴と異なるスタイル情報を抽出する排他的スタイル除去モジュールを導入し,推論を容易にする。
さらに、このモジュールは他のNCDメソッドと簡単に統合でき、プラグインとして機能し、表示されたラベルセットと異なる分布を持つ新しいクラスのパフォーマンスを向上させることができる。
さらに、異なるバックボーンの非無視的な影響を認識し、NCD法の性能を事前学習戦略で評価し、将来のNCD研究のための公正なベンチマークを構築した。
3つの共通データセットに対する大規模な実験により,提案モジュールの有効性が示された。
As a promising field in open-world learning, \textit{Novel Class Discovery} (NCD) is usually a task to cluster unseen novel classes in an unlabeled set based on the prior knowledge of labeled data within the same domain. However, the performance of existing NCD methods could be severely compromised when novel classes are sampled from a different distribution with the labeled ones. In this paper, we explore and establish the solvability of NCD in cross domain setting with the necessary condition that style information must be removed. Based on the theoretical analysis, we introduce an exclusive style removal module for extracting style information that is distinctive from the baseline features, thereby facilitating inference. Moreover, this module is easy to integrate with other NCD methods, acting as a plug-in to improve performance on novel classes with different distributions compared to the seen labeled set. Additionally, recognizing the non-negligible influence of different backbones and pre-training strategies on the performance of the NCD methods, we build a fair benchmark for future NCD research. Extensive experiments on three common datasets demonstrate the effectiveness of our proposed module. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# 明日のイノベーション - SEとグリーンAIの収束
Innovating for Tomorrow: The Convergence of SE and Green AI ( http://arxiv.org/abs/2406.18142v1 ) ライセンス: Link先を確認 | Luís Cruz, Xavier Franch Gutierrez, Silverio Martínez-Fernández, | (参考訳) 機械学習の最新の進歩は、特に基礎モデルにおいて、既存のソフトウェアエンジニアリング(SE)プロセスのフロンティアに革命をもたらしている。
これは双方向の表現モナであり、そこでは
1) ソフトウェアシステムは、ユーザに対してAI対応機能を提供することが課題となっている。
2) AIは、ソフトウェア開発ライフサイクル内のタスクを自動化するために使われます。
持続可能性が社会的懸念の強い時代において、我々のコミュニティは、環境の持続可能性の値に一致した意識的な変革を可能にする長期的な計画を採用する必要がある。
本稿では,AI可能なソフトウェアシステムを構築する上で,環境に優しいプラクティスを採用することの影響を考察し,基礎モデルを用いたソフトウェア開発の環境への影響について考察する。
The latest advancements in machine learning, specifically in foundation models, are revolutionizing the frontiers of existing software engineering (SE) processes. This is a bi-directional phenomona, where 1) software systems are now challenged to provide AI-enabled features to their users, and 2) AI is used to automate tasks within the software development lifecycle. In an era where sustainability is a pressing societal concern, our community needs to adopt a long-term plan enabling a conscious transformation that aligns with environmental sustainability values. In this paper, we reflect on the impact of adopting environmentally friendly practices to create AI-enabled software systems and make considerations on the environmental impact of using foundation models for software development. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# 対人攻撃に対する安全な顔認識のための人工免疫システム
Artificial Immune System of Secure Face Recognition Against Adversarial Attacks ( http://arxiv.org/abs/2406.18144v1 ) ライセンス: Link先を確認 | Min Ren, Yunlong Wang, Yuhao Zhu, Yongzhen Huang, Zhenan Sun, Qi Li, Tieniu Tan, | (参考訳) 食料と飼料の昆虫生産は、食料の安全性を確保し、将来の気候と環境に対する農業の有害な影響に対処するための有望なサプリメントを提供する。
しかし、昆虫生産においてその潜在能力を最大限に発揮するためには最適化が必要である。
これは、選択的な育種を通じて興味のある特性を目標にすることによるものであり、これはこれまで昆虫栽培において過小評価され、利用されていないアプローチである。
ここでは、昆虫生産の文脈における選択的育種の枠組みを概観する。
我々は,選択的育種法を昆虫の領域に適応させ,育種過程に不可欠な成分を明らかにすることを体系的に評価した。
この議論は、育種目的の定式化、表現型化、遺伝的パラメータと育種価値の推定、適切な育種戦略の選択、遺伝的多様性の枯渇と育種に関連する問題の緩和など、従来の育種計画のすべてのステップをカバーしている。
動物育種、定量的遺伝学、進化生物学、昆虫学のギャップを埋め、昆虫育種研究領域の統合的な展望を提供し、これまで様々な専門分野に散らばっていた知識を統一する。
Insect production for food and feed presents a promising supplement to ensure food safety and address the adverse impacts of agriculture on climate and environment in the future. However, optimisation is required for insect production to realise its full potential. This can be by targeted improvement of traits of interest through selective breeding, an approach which has so far been underexplored and underutilised in insect farming. Here we present a comprehensive review of the selective breeding framework in the context of insect production. We systematically evaluate adjustments of selective breeding techniques to the realm of insects and highlight the essential components integral to the breeding process. The discussion covers every step of a conventional breeding scheme, such as formulation of breeding objectives, phenotyping, estimation of genetic parameters and breeding values, selection of appropriate breeding strategies, and mitigation of issues associated with genetic diversity depletion and inbreeding. This review combines knowledge from diverse disciplines, bridging the gap between animal breeding, quantitative genetics, evolutionary biology, and entomology, offering an integrated view of the insect breeding research area and uniting knowledge which has previously remained scattered across diverse fields of expertise. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# 統計的推定を超える:シャッフルモデルにおける個人個人計算
Beyond Statistical Estimation: Differentially Private Individual Computation in the Shuffle Model ( http://arxiv.org/abs/2406.18145v1 ) ライセンス: Link先を確認 | Shaowei Wang, Changyu Dong, Di Wang, Xiangfu Song, | (参考訳) ディファレンシャルプライバシ(DP)のシャッフルモデルは,信頼性の高いパーティを伴わない分散計算の強力なモデルとして最近登場した。
クライアントからのメッセージをシャッフルを通じて匿名化し、パーミュートするので、プライバシを増幅し、ユーティリティを改善することができる。
しかしシャッフル法は、置換不変な統計的タスクにのみ適用を制限している。
この研究は、空間的クラウドソーシング、組合せ最適化、位置ベース社会システム、および既存のアプローチ(例えば、セキュアなMPCとローカルDP)において、計算上の難易度または耐用性を失うインセンティブによる連合学習といった、一般的な非統計計算に対するシャッフルプライバシの増幅の実現可能性について検討する。
我々は、メッセージの承認や結果アクセス制御といった重要なセキュリティ機能を提供できるシャッフルモデルの新たなパラダイムを提案し、一方で、プライバシーの増幅効果を最大限に維持する。
これは非プライベート設定とほぼ同じ計算/通信コストを発生させ、サーバが(ノイズの多い)クライアント情報をプレーンテキストで任意のアルゴリズムを実行することを可能にする。
提案手法は,DPに統計的にランダムなIDを導入し,すべてのクライアントに同一のランダムな分布を強制し,メッセージシャッフル後にもセキュアな機能をサポートし,同時にプライバシーの増幅を維持する。
新しいシャッフルモデルでは既存のDPランダム化器がフェールするので、新しい機構を提案し、その最適性を証明する。
空間的クラウドソーシング,位置ベースソーシャルシステム,インセンティブによるフェデレーション学習による実験結果から,我々のパラダイムとメカニズムは非プライベートな設定と同じくらい高速であり,最大90%のエラーを低減し,実用性の向上は100%~300%の相対性を示し,合理的なプライバシー予算の下で実用的であることが示された。
The shuffle model of differential privacy (DP) has recently emerged as a powerful one for decentralized computation without fully trustable parties. Since it anonymizes and permutes messages from clients through a shuffler, the privacy can be amplified and utility can be improved. However, the shuffling procedure in turn restricts its applications only to statistical tasks that are permutation-invariant. This work explores the feasibility of shuffle privacy amplification for prevalent non-statistical computations: spatial crowdsourcing, combinatorial optimization, location-based social systems, and federated learning with incentives, which suffer either computationally intractability or intolerable utility loss in existing approaches (e.g., secure MPC and local DP). We proposes a new paradigm of shuffle model that can provide critical security functionalities like message authorization and result access control, meanwhile maintaining the most of privacy amplification effects. It incurs almost the same computation/communication costs as the non-private setting, and permits the server to run arbitrary algorithms on (noisy) client information in plaintext. Our novel technique is introducing statistically random identity into DP and force identical random distribution on all clients, so as to support secure functionalities even after message shuffling and to maintain privacy amplification simultaneously. Given that existing DP randomizers fails in the new shuffle model, we also propose a new mechanism and prove its optimality therein. Experimental results on spatial crowdsourcing, location-based social system, and federated learning with incentives, show that our paradigm and mechanism is fast as non-private settings, while reducing up to 90% error and increasing utility performance indicates by 100%-300% relatively, and can be practical under reasonable privacy budget. | 翻訳日:2024-06-27 14:18:49 公開日:2024-06-26 |
# バイオメディシンのためのマルチモーダル言語モデル
A Refer-and-Ground Multimodal Large Language Model for Biomedicine ( http://arxiv.org/abs/2406.18146v1 ) ライセンス: Link先を確認 | Xiaoshuang Huang, Haifeng Huang, Lingdong Shen, Yehui Yang, Fangxin Shang, Junwei Liu, Jia Liu, | (参考訳) マルチモーダルな大言語モデル(MLLM)の急速な開発、特に参照機能と接地機能による視覚チャット機能により、その重要性はますます認識されている。
しかし, バイオメディカル・フィールドは, バイオメディカル・イメージのための専用の参照・グラウンド・データセットが存在しないため, この分野において大きなギャップをみせている。
この課題に対処するため、Med-GRIT-270kデータセットを考案した。
質問と回答のペアは270kで、8つの異なる医療画像モダリティにまたがる。
最も重要なことは、バイオメディカルドメインとレファレンスと地上での会話の統合に特化していることだ。
鍵となるアイデアは、医療セグメント化データセットから大規模バイオメディカルイメージマスクペアをサンプリングし、チャットGPTを使用してテキストから命令データセットを生成することである。
さらに,このデータセットとマルチタスク・インストラクション・ラーニングを用いて,バイオメディシンのためのRefer-and-Ground Multimodal Large Language Model(BiRD)を導入する。
大規模な実験により、Med-GRIT-270kデータセットの有効性と、BiRDモデルのマルチモーダル、きめ細かな対話能力が裏付けられている。
これは、インテリジェントなバイオメディカルアシスタントの探索と開発にとって重要な基準となる。
With the rapid development of multimodal large language models (MLLMs), especially their capabilities in visual chat through refer and ground functionalities, their significance is increasingly recognized. However, the biomedical field currently exhibits a substantial gap in this area, primarily due to the absence of a dedicated refer and ground dataset for biomedical images. To address this challenge, we devised the Med-GRIT-270k dataset. It comprises 270k question-and-answer pairs and spans eight distinct medical imaging modalities. Most importantly, it is the first dedicated to the biomedical domain and integrating refer and ground conversations. The key idea is to sample large-scale biomedical image-mask pairs from medical segmentation datasets and generate instruction datasets from text using chatGPT. Additionally, we introduce a Refer-and-Ground Multimodal Large Language Model for Biomedicine (BiRD) by using this dataset and multi-task instruction learning. Extensive experiments have corroborated the efficacy of the Med-GRIT-270k dataset and the multi-modal, fine-grained interactive capabilities of the BiRD model. This holds significant reference value for the exploration and development of intelligent biomedical assistants. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# SynRS3D:モノクルリモートセンシング画像からのグローバル3次元意味理解のための合成データセット
SynRS3D: A Synthetic Dataset for Global 3D Semantic Understanding from Monocular Remote Sensing Imagery ( http://arxiv.org/abs/2406.18151v1 ) ライセンス: Link先を確認 | Jian Song, Hongruixuan Chen, Weihao Xuan, Junshi Xia, Naoto Yokoya, | (参考訳) 単一視点高解像度リモートセンシング(RS)画像からのグローバルなセマンティック3D理解は、地球観測(EO)にとって不可欠である。
しかし、このタスクは、地理的に制限されたデータ可用性だけでなく、アノテーションやデータ収集のコストが高いため、重大な課題に直面している。
これらの課題に対処するため、合成データは容易にアクセス可能で、大規模で多様なデータセットの提供を可能にすることによって、有望なソリューションを提供する。
我々は、EOのための特殊な合成データ生成パイプラインを開発し、最大の合成RS3DデータセットであるSynRS3Dを紹介する。
SynRS3Dは69,667個の高解像度光学画像で構成されており、世界中の6つの異なる都市スタイルをカバーし、8種類のランドカバー、正確な高さ情報、建築変更マスクを備えている。
本手法は, 合成データに基づくグローバルなモノクロ3D意味理解を可能にするため, 土地被覆マッピングと高度推定タスクの合成シナリオから実際のシナリオへのRS固有の遷移を容易にする。
各種実世界のデータセットに対する大規模な実験により, 合成データセットの適応性と有効性を示すとともに, RS3DADA法を提案する。
SynRS3Dおよび関連コードは利用可能である。
Global semantic 3D understanding from single-view high-resolution remote sensing (RS) imagery is crucial for Earth Observation (EO). However, this task faces significant challenges due to the high costs of annotations and data collection, as well as geographically restricted data availability. To address these challenges, synthetic data offer a promising solution by being easily accessible and thus enabling the provision of large and diverse datasets. We develop a specialized synthetic data generation pipeline for EO and introduce SynRS3D, the largest synthetic RS 3D dataset. SynRS3D comprises 69,667 high-resolution optical images that cover six different city styles worldwide and feature eight land cover types, precise height information, and building change masks. To further enhance its utility, we develop a novel multi-task unsupervised domain adaptation (UDA) method, RS3DAda, coupled with our synthetic dataset, which facilitates the RS-specific transition from synthetic to real scenarios for land cover mapping and height estimation tasks, ultimately enabling global monocular 3D semantic understanding based on synthetic data. Extensive experiments on various real-world datasets demonstrate the adaptability and effectiveness of our synthetic dataset and proposed RS3DAda method. SynRS3D and related codes will be available. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# SuperGrad:超伝導プロセッサの差別化可能なシミュレータ
SuperGrad: a differentiable simulator for superconducting processors ( http://arxiv.org/abs/2406.18155v1 ) ライセンス: Link先を確認 | Ziang Wang, Feng Wu, Hui-Hai Zhao, Xin Wan, Xiaotong Ni, | (参考訳) 超伝導プロセッサの大きな利点の1つは、様々な種類の量子ビットと相互作用を含む設計の柔軟性である。
プロセッサの多くの調整可能なパラメータを考えると、勾配最適化を実行する能力は非常に有益である。
勾配計算の効率的なバックプロパゲーションには、厳密に統合されたソフトウェアライブラリが必要である。
本稿では,超伝導量子プロセッサの設計を高速化するシミュレータであるSuperGradを紹介する。
SuperGradは、ハミルトン人を構築するためのユーザフレンドリなインターフェースを提供し、複合システムの静的特性と動的特性の両方をコンピューティングする。
この微分可能シミュレーションは、最適制御、設計最適化、実験データフィッティングなど、様々な用途に有用である。
本稿では,サンプルとコードスニペットを用いてこれらのアプリケーションを実証する。
One significant advantage of superconducting processors is their extensive design flexibility, which encompasses various types of qubits and interactions. Given the large number of tunable parameters of a processor, the ability to perform gradient optimization would be highly beneficial. Efficient backpropagation for gradient computation requires a tightly integrated software library, for which no open-source implementation is currently available. In this work, we introduce SuperGrad, a simulator that accelerates the design of superconducting quantum processors by incorporating gradient computation capabilities. SuperGrad offers a user-friendly interface for constructing Hamiltonians and computing both static and dynamic properties of composite systems. This differentiable simulation is valuable for a range of applications, including optimal control, design optimization, and experimental data fitting. In this paper, we demonstrate these applications through examples and code snippets. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# FedAQ: 結合アップリンクとダウンリンク適応量子化によるコミュニケーション効率の良いフェデレーションエッジ学習
FedAQ: Communication-Efficient Federated Edge Learning via Joint Uplink and Downlink Adaptive Quantization ( http://arxiv.org/abs/2406.18156v1 ) ライセンス: Link先を確認 | Linping Qu, Shenghui Song, Chi-Ying Tsui, | (参考訳) Federated Learning(FL)は、クライアントのデータプライバシを保護すると同時に、クライアントのデータと計算リソースを活用する強力な機械学習パラダイムである。
しかし、サーバとクライアント間のモデルサイズと頻繁な集約は、通信オーバーヘッドの増大をもたらし、リソース制限の無線ネットワークにFLをデプロイすることは困難である。
本研究では,量子化を用いて通信オーバーヘッドを軽減することを目的とする。
量子化に関するこれまでの研究は、主にアップリンク通信に焦点を当てており、固定ビット量子化法または適応量子化法を用いている。
本研究では,通信オーバヘッドを低減するために,結合アップリンクとダウンリンク適応量子化による包括的アプローチを導入する。
特に,通信エネルギーの制約により,最適なアップリンク量子化ビット長とダウンリンク量子化ビット長を決定することにより,学習収束を最適化する。
理論的解析は、最適量子化レベルがモデル勾配や重みの範囲に依存することを示している。
この知見に基づいて、アップリンクの減少トレンド量子化と、ダウンリンクの増大トレンド量子化を提案し、トレーニング過程におけるモデルパラメータの変化と整合する。
実験の結果,提案した結合アップリンクとダウンリンク適応量子化戦略は,既存のスキームと比較して最大66.7%のエネルギーを節約できることがわかった。
Federated learning (FL) is a powerful machine learning paradigm which leverages the data as well as the computational resources of clients, while protecting clients' data privacy. However, the substantial model size and frequent aggregation between the server and clients result in significant communication overhead, making it challenging to deploy FL in resource-limited wireless networks. In this work, we aim to mitigate the communication overhead by using quantization. Previous research on quantization has primarily focused on the uplink communication, employing either fixed-bit quantization or adaptive quantization methods. In this work, we introduce a holistic approach by joint uplink and downlink adaptive quantization to reduce the communication overhead. In particular, we optimize the learning convergence by determining the optimal uplink and downlink quantization bit-length, with a communication energy constraint. Theoretical analysis shows that the optimal quantization levels depend on the range of model gradients or weights. Based on this insight, we propose a decreasing-trend quantization for the uplink and an increasing-trend quantization for the downlink, which aligns with the change of the model parameters during the training process. Experimental results show that, the proposed joint uplink and downlink adaptive quantization strategy can save up to 66.7% energy compared with the existing schemes. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# 3D-MVP:ロボットマニピュレーションのための3次元マルチビュープレトレーニング
3D-MVP: 3D Multiview Pretraining for Robotic Manipulation ( http://arxiv.org/abs/2406.18158v1 ) ライセンス: Link先を確認 | Shengyi Qian, Kaichun Mo, Valts Blukis, David F. Fouhey, Dieter Fox, Ankit Goyal, | (参考訳) 近年の研究では、マスク付きオートエンコーダ(MAE)を用いた自己中心型データセットの視覚的事前トレーニングにより、下流ロボットタスクの一般化が向上することが示されている。
しかしながら、これらのアプローチは2D画像のみに事前訓練されるが、多くのロボット工学アプリケーションでは3Dシーン理解が必要である。
本研究では,マスク付きオートエンコーダを用いた3次元マルチビュー事前学習手法である3D-MVPを提案する。
我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して,3Dシーンの理解とグリップポーズの予測を行う。
我々はRVTのマルチビュートランスをビジュアルエンコーダとアクションデコーダに分割し、Objaverseのような大規模3Dデータセット上でマスク付きオートエンコードを用いて視覚エンコーダを事前訓練した。
仮想ロボット操作タスクのスイート上で3D-MVPを評価し,ベースライン上での性能向上を実証した。
また、最小限の微調整を施した実際のロボットプラットフォームで有望な結果を示す。
この結果から, 3D-Aware Pretraining は, 標本効率の向上と視覚に基づくロボット操作ポリシーの一般化に有望なアプローチであることが示唆された。
将来の研究を促進するために、3D-MVPのためのコードと事前訓練されたモデルをリリースします。
プロジェクトサイト:https://jasonqsy.github.io/3DMVP
Recent works have shown that visual pretraining on egocentric datasets using masked autoencoders (MAE) can improve generalization for downstream robotics tasks. However, these approaches pretrain only on 2D images, while many robotics applications require 3D scene understanding. In this work, we propose 3D-MVP, a novel approach for 3D multi-view pretraining using masked autoencoders. We leverage Robotic View Transformer (RVT), which uses a multi-view transformer to understand the 3D scene and predict gripper pose actions. We split RVT's multi-view transformer into visual encoder and action decoder, and pretrain its visual encoder using masked autoencoding on large-scale 3D datasets such as Objaverse. We evaluate 3D-MVP on a suite of virtual robot manipulation tasks and demonstrate improved performance over baselines. We also show promising results on a real robot platform with minimal finetuning. Our results suggest that 3D-aware pretraining is a promising approach to improve sample efficiency and generalization of vision-based robotic manipulation policies. We will release code and pretrained models for 3D-MVP to facilitate future research. Project site: https://jasonqsy.github.io/3DMVP | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# 空間制約付き拡散モデルを用いた人間対応3次元シーン生成
Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models ( http://arxiv.org/abs/2406.18159v1 ) ライセンス: Link先を確認 | Xiaolin Hong, Hongwei Yi, Fazhi He, Qiong Cao, | (参考訳) 人間のモーションシーケンスから3Dシーンを生成することは、仮想現実やアーキテクチャデザインなど、数多くのアプリケーションをサポートする。
しかし,従来のオートレグレッションに基づく人間の3Dシーン生成手法では,複数の物体と入力された人間の関節の分布を正確に把握することが困難であり,しばしば同じ空間で重なり合うオブジェクトを生成する。
この制限に対処するために、全ての入力された人間とフロアプランを同時に考慮し、もっともらしい3Dシーンを生成する拡散モデルの可能性を探る。
我々のアプローチは、全ての入力された人間の相互作用を満たすだけでなく、フロアプランとの空間的制約にも従う。
さらに,人間-物体衝突回避機構とオブジェクト-部屋境界制約という2つの空間衝突誘導機構を導入する。
これらのメカニズムは、レイアウト制約を尊重しながら人間の動きと矛盾するシーンを生成するのに役立ちます。
そこで我々は,既存の3次元FRONT HUMANデータセットにおける人間と物体の相互作用の多様性と妥当性を向上させる自動パイプラインを開発した。
人工的および実世界の両方のデータセットに対する大規模な実験により、我々のフレームワークは、人間のシーンの正確な相互作用でより自然でプラウティブルな3Dシーンを生成できる一方で、従来の最先端の手法に比べて人間と物体の衝突を著しく低減できることが示された。
私たちのコードとデータは、この作業の公開時に公開されます。
Generating 3D scenes from human motion sequences supports numerous applications, including virtual reality and architectural design. However, previous auto-regression-based human-aware 3D scene generation methods have struggled to accurately capture the joint distribution of multiple objects and input humans, often resulting in overlapping object generation in the same space. To address this limitation, we explore the potential of diffusion models that simultaneously consider all input humans and the floor plan to generate plausible 3D scenes. Our approach not only satisfies all input human interactions but also adheres to spatial constraints with the floor plan. Furthermore, we introduce two spatial collision guidance mechanisms: human-object collision avoidance and object-room boundary constraints. These mechanisms help avoid generating scenes that conflict with human motions while respecting layout constraints. To enhance the diversity and accuracy of human-guided scene generation, we have developed an automated pipeline that improves the variety and plausibility of human-object interactions in the existing 3D FRONT HUMAN dataset. Extensive experiments on both synthetic and real-world datasets demonstrate that our framework can generate more natural and plausible 3D scenes with precise human-scene interactions, while significantly reducing human-object collisions compared to previous state-of-the-art methods. Our code and data will be made publicly available upon publication of this work. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# NeBuLa:Minecraft Builderを意識した講演
NeBuLa: A discourse aware Minecraft Builder ( http://arxiv.org/abs/2406.18164v1 ) ライセンス: Link先を確認 | Akshay Chaturvedi, Kate Thompson, Nicholas Asher, | (参考訳) 協調作業を行う際、人間は会話の意味的構造を効果的に活用し、言語的および非言語的相互作用を最適化する。
しかし、最近の"Language to Code"や"Language to Action"モデルでは、この情報は欠落している。
非言語的環境にある会話の事前の言論と非言語的文脈を組み込むことが、そのような相互作用の「言語から行動への」要素をいかに改善するかを示す。
我々のモデルNeBuLaは、Jayannavar et al (2020)のこのタスクのベースライン上でのネットアクションF1スコアを2倍にします。
また, モデルが形状を構築し, 位置記述を合成データセットを用いて理解する能力についても検討した。
When engaging in collaborative tasks, humans efficiently exploit the semantic structure of a conversation to optimize verbal and nonverbal interactions. But in recent "language to code" or "language to action" models, this information is lacking. We show how incorporating the prior discourse and nonlinguistic context of a conversation situated in a nonlinguistic environment can improve the "language to action" component of such interactions. We fine tune an LLM to predict actions based on prior context; our model, NeBuLa, doubles the net-action F1 score over the baseline on this task of Jayannavar et al.(2020). We also investigate our model's ability to construct shapes and understand location descriptions using a synthetic dataset. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# ゼロから始める: 知識グラフの自動補完のためのトリプルセット予測
Start from Zero: Triple Set Prediction for Automatic Knowledge Graph Completion ( http://arxiv.org/abs/2406.18166v1 ) ライセンス: Link先を確認 | Wen Zhang, Yajing Xu, Peng Ye, Zhiwei Huang, Zezhong Xu, Jiaoyan Chen, Jeff Z. Pan, Huajun Chen, | (参考訳) 知識グラフ(KG)の完成は、KGに欠けている三重項を見つけることを目的としている。
リンク予測やインスタンス完了といったタスクは、KG完了のために提案されている。
それらは三重レベルのタスクであり、三重の欠落要素を予測するために三重の欠落要素が与えられる。
しかし、事前に欠落している三重項のいくつかの要素を知ることは、必ずしも現実的な設定ではない。
本稿では,欠落した三重項の要素が与えられないことを前提として,Triple Set Prediction (TSP)と呼ばれるグラフレベルの自動KG補完タスクを提案する。
TSPは、既知の三重項の集合から欠落した三重項の集合を予測することである。
本課題を適切に正確に評価するために,3つの分類基準と1つのランキング基準を含む4つの評価指標を提案する。
さらに,予測のために巨大な候補三重項に挑戦するために,三重集合を高速に予測できる新しい,効率的な部分グラフベースのGPHTを提案する。
また,TSPをベースラインとして,既存のルールベースおよび埋め込みベースの手法を適用したルールテンソル-TSPとKGE-TSPの2種類の手法を提案する。
実験では, ウィキデータから抽出した2つのデータセットについて, 関係相似部分開世界仮定に従って評価し, 閉世界仮定に従ってTSP結果を評価するための完全な家族データセットを作成する。
その結果, 提案手法は, 欠落した三重項の集合の生成に成功し, 新たな課題に対して妥当なスコアを得ることができ, GPHTは予測時間を大幅に短縮し, ベースラインよりも優れた性能を示すことがわかった。
実験用のデータセットとコードはhttps://github.com/zjukg/GPHT-for-TSPで公開されている。
Knowledge graph (KG) completion aims to find out missing triples in a KG. Some tasks, such as link prediction and instance completion, have been proposed for KG completion. They are triple-level tasks with some elements in a missing triple given to predict the missing element of the triple. However, knowing some elements of the missing triple in advance is not always a realistic setting. In this paper, we propose a novel graph-level automatic KG completion task called Triple Set Prediction (TSP) which assumes none of the elements in the missing triples is given. TSP is to predict a set of missing triples given a set of known triples. To properly and accurately evaluate this new task, we propose 4 evaluation metrics including 3 classification metrics and 1 ranking metric, considering both the partial-open-world and the closed-world assumptions. Furthermore, to tackle the huge candidate triples for prediction, we propose a novel and efficient subgraph-based method GPHT that can predict the triple set fast. To fairly compare the TSP results, we also propose two types of methods RuleTensor-TSP and KGE-TSP applying the existing rule- and embedding-based methods for TSP as baselines. During experiments, we evaluate the proposed methods on two datasets extracted from Wikidata following the relation-similarity partial-open-world assumption proposed by us, and also create a complete family data set to evaluate TSP results following the closed-world assumption. Results prove that the methods can successfully generate a set of missing triples and achieve reasonable scores on the new task, and GPHT performs better than the baselines with significantly shorter prediction time. The datasets and code for experiments are available at https://github.com/zjukg/GPHT-for-TSP. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# UIO-LLMs: 長期LLMの非バイアスインクリメンタル最適化
UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs ( http://arxiv.org/abs/2406.18173v1 ) ライセンス: Link先を確認 | Wenhao Li, Mingbao Lin, Yunshan Zhong, Shuicheng Yan, Rongrong Ji, | (参考訳) 長いテキストの管理は、コンテキストウィンドウのサイズが限られているため、大きな言語モデル(LLM)では難しい。
本研究は,長期環境下でのメモリ強化トランスフォーマーの非バイアスインクリメンタル最適化手法であるUIO-LLMを紹介する。
当初我々は,重み付きエンコーダとデコーダがそれぞれコンテキストセグメントを記憶にカプセル化し,これらのメモリを利用してその後のセグメントの出力を予測する,合理化エンコーダ・デコーダ・フレームワークとしてそのプロセスを概念化した。
その後、メモリ強化トランスフォーマーを完全連結リカレントニューラルネットワーク(RNN)として扱うことにより、革新的な漸進的最適化手法を取り入れたTruncated Backproagation Through Time(TBPTT)アルゴリズムを用いて、トレーニングプロセスを洗練する。
これらの手法は時間の複雑さを減少させるだけでなく、偏りのない最適化プロセスによる勾配計算のバイアスにも対処する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに最小2%の追加パラメータで拡張し、コンテキスト長が増加するにつれて推論コストをほぼ線形に保ちながら、長いコンテキストをうまく処理する。
Managing long texts is challenging for large language models (LLMs) due to limited context window sizes. This study introduces UIO-LLMs, an unbiased incremental optimization approach for memory-enhanced transformers under long-context settings. We initially conceptualize the process as a streamlined encoder-decoder framework where the weights-shared encoder and decoder respectively encapsulate a context segment into memories and leverage these memories to predict outputs of the subsequent segment. Subsequently, by treating our memory-enhanced transformers as fully-connected recurrent neural networks (RNNs), we refine the training process using the Truncated Backpropagation Through Time (TBPTT) algorithm, which incorporates innovative incremental optimization techniques. These techniques not only diminish time complexity but also address the bias in gradient computation through an unbiased optimization process. UIO-LLMs successfully handle long context, such as extending the context window of Llama2-7b-chat from 4K to 100K tokens with minimal 2% additional parameters, while keeping the inference cost nearly linear as context length increases. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# スペクトルのない銀河分光:条件拡散モデルを用いた測光画像からの銀河特性
Galaxy spectroscopy without spectra: Galaxy properties from photometric images with conditional diffusion models ( http://arxiv.org/abs/2406.18175v1 ) ライセンス: Link先を確認 | Lars Doorenbos, Eva Sextl, Kevin Heng, Stefano Cavuoti, Massimo Brescia, Olena Torbaniuk, Giuseppe Longo, Raphael Sznitman, Pablo Márquez-Neila, | (参考訳) 現代の分光調査は、広い分野のサーベイにおいて、膨大な量の測光源のごく一部しか対象にできない。
本稿では,光測度広帯域画像のみから光銀河スペクトルを予測できる生成AI手法の開発について報告する。
この手法は, 拡散モデルとコントラストネットワークを併用した最新の拡散モデルから導かれる。
マルチバンド・ギャラクシー・イメージをアーキテクチャに渡して光学スペクトルを得る。
これらのことから、銀河の性質に対するロバストな値は、標準集団合成技術やリック指数のような分光ツールボックスのあらゆる方法で導出することができる。
スローンデジタルスカイサーベイ(Sloan Digital Sky Survey)から64x64ピクセルの画像でトレーニングされ、テストされると、光度空間における星形成銀河と銀河のグローバルバイモーフィズムと、星形成銀河の質量-金属関係が回復する。
観測されたスペクトルと人工的なスペクトルの比較は、全体の金属度、年齢、Dn4000、恒星速度の分散、E(B-V)値において良好な一致を示した。
我々の生成アルゴリズムの光度赤偏移推定は、他の既存の専門的なディープラーニング技術と競合することができる。
さらに、この研究は、測光画像から速度分散を推定する文献としては初めての試みである。
さらに、活動銀河核の存在を82%の精度で予測することができる。
我々の方法では、科学的に興味深い銀河の性質は、通常分光的な入力を必要とするが、大規模な測光測量だけで将来のデータセットから得られる。
AIによるスペクトル予測は、リアルなモックカタログの作成をさらに支援することができる。
Modern spectroscopic surveys can only target a small fraction of the vast amount of photometrically cataloged sources in wide-field surveys. Here, we report the development of a generative AI method capable of predicting optical galaxy spectra from photometric broad-band images alone. This method draws from the latest advances in diffusion models in combination with contrastive networks. We pass multi-band galaxy images into the architecture to obtain optical spectra. From these, robust values for galaxy properties can be derived with any methods in the spectroscopic toolbox, such as standard population synthesis techniques and Lick indices. When trained and tested on 64x64-pixel images from the Sloan Digital Sky Survey, the global bimodality of star-forming and quiescent galaxies in photometric space is recovered, as well as a mass-metallicity relation of star-forming galaxies. The comparison between the observed and the artificially created spectra shows good agreement in overall metallicity, age, Dn4000, stellar velocity dispersion, and E(B-V) values. Photometric redshift estimates of our generative algorithm can compete with other current, specialized deep-learning techniques. Moreover, this work is the first attempt in the literature to infer velocity dispersion from photometric images. Additionally, we can predict the presence of an active galactic nucleus up to an accuracy of 82%. With our method, scientifically interesting galaxy properties, normally requiring spectroscopic inputs, can be obtained in future data sets from large-scale photometric surveys alone. The spectra prediction via AI can further assist in creating realistic mock catalogs. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# VIPriors 4: データ効率のよいディープラーニングのためのビジュアルインダクティブプライオリティ
VIPriors 4: Visual Inductive Priors for Data-Efficient Deep Learning Challenges ( http://arxiv.org/abs/2406.18176v1 ) ライセンス: Link先を確認 | Robert-Jan Bruintjes, Attila Lengyel, Marcos Baptista Rios, Osman Semih Kayhan, Davide Zambrano, Nergis Tomen, Jan van Gemert, | (参考訳) VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning”ワークショップの第4版では、2つのデータ不足の課題が紹介されている。
これらの課題は、限られたデータでコンピュータビジョンタスクのディープラーニングモデルをトレーニングする際の問題に対処する。
参加者は、少ない数のトレーニングサンプルを使用してスクラッチからトレーニングモデルに制限され、転送学習のいかなる形式も使用できない。
深層学習モデルのデータ効率を向上させるために,帰納的バイアスを取り入れた新しい手法の開発を促進することを目的としている。
与えられたベースラインと比較して、勝利のソリューションがベースラインを超え、両方のタスクでかなりのマージンを突破する、重要な進歩がなされている。
以前の版と同様に、これらの成果は主にデータ拡張ポリシーの多用と大規模なモデルアンサンブルによるものであるが、新しい事前ベース手法は、昨年と比較してソリューションの成功に寄与しているようだ。
このレポートは、課題とその成果のキーとなる側面を強調します。
The fourth edition of the "VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning" workshop features two data-impaired challenges. These challenges address the problem of training deep learning models for computer vision tasks with limited data. Participants are limited to training models from scratch using a low number of training samples and are not allowed to use any form of transfer learning. We aim to stimulate the development of novel approaches that incorporate inductive biases to improve the data efficiency of deep learning models. Significant advancements are made compared to the provided baselines, where winning solutions surpass the baselines by a considerable margin in both tasks. As in previous editions, these achievements are primarily attributed to heavy use of data augmentation policies and large model ensembles, though novel prior-based methods seem to contribute more to successful solutions compared to last year. This report highlights the key aspects of the challenges and their outcomes. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# Knightian (複数形 Knightians)
Games of Knightian Uncertainty ( http://arxiv.org/abs/2406.18178v1 ) ライセンス: Link先を確認 | Spyridon Samothrakis, Dennis J. N. J. Soemers, Damian Machlanski, | (参考訳) 20世紀後半から21世紀初頭にかけて、ゲームはAIのドロソフィラと見なされてきた。
ゲームはエキサイティングなテストベッドのセットで、そのソリューション(最適なプレイヤーを特定すること)は、ある種の汎用知能を持つマシンにつながるだろう。
Go、Chess、Pokerといった従来のボードゲームだけでなく、Atari 2600コレクションのようなビデオゲームでも驚くべき成功を収めた結果、これがそうではないことは明らかだ。
ゲームはうまく攻撃されていますが、AGIの開発には近づきません(あるいは、より厳しい批評家が言うように、有用なAI開発です!
このショートビジョンペーパーでは、ゲーム研究がAGIパスに再び関係するようになるためには、エージェントが警告なく、過去のデータも、モデルアクセスもなしに、ゲーム上のゲームルールの迅速な変更に適応できる必要があるという、ゲームコンテキストにおける \textit{Knightian uncertainty} に対処する必要があると論じている。
Arguably, for the latter part of the late 20th and early 21st centuries, games have been seen as the drosophila of AI. Games are a set of exciting testbeds, whose solutions (in terms of identifying optimal players) would lead to machines that would possess some form of general intelligence, or at the very least help us gain insights toward building intelligent machines. Following impressive successes in traditional board games like Go, Chess, and Poker, but also video games like the Atari 2600 collection, it is clear that this is not the case. Games have been attacked successfully, but we are nowhere near AGI developments (or, as harsher critics might say, useful AI developments!). In this short vision paper, we argue that for game research to become again relevant to the AGI pathway, we need to be able to address \textit{Knightian uncertainty} in the context of games, i.e. agents need to be able to adapt to rapid changes in game rules on the fly with no warning, no previous data, and no model access. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# DeepExtremeCubes:気候極端の影響評価のための地球系時空間データの統合
DeepExtremeCubes: Integrating Earth system spatio-temporal data for impact assessment of climate extremes ( http://arxiv.org/abs/2406.18179v1 ) ライセンス: Link先を確認 | Chaonan Ji, Tonio Fincke, Vitus Benson, Gustau Camps-Valls, Miguel-Angel Fernandez-Torres, Fabian Gans, Guido Kraemer, Francesco Martinuzzi, David Montero, Karin Mora, Oscar J. Pellicer-Valero, Claire Robin, Maximilian Soechting, Melanie Weynants, Miguel D. Mahecha, | (参考訳) 気候極端の頻度と強度の上昇により、堅牢な分析ツールが地球生態系への影響を予測するのに不可欠である。
機械学習技術は、将来性を示すが、十分に構造化され、高品質で、キュレートされた分析可能なデータセットを必要とする。
地球観測データセットは、気候極端に対する生態系のダイナミクスと反応を包括的に監視するが、データ複雑さは機械学習モデルの有効性に挑戦する可能性がある。
生態系モニタリングへのディープラーニングの最近の進歩にもかかわらず、複合熱波の分析と干ばつによる極端な影響を専門に設計されたデータセットが必要である。
ここでは、これらの極端周辺をマッピングし、永続的な自然植生に焦点を当てたDeepExtremeCubesデータベースを紹介します。
全世界で4万個以上の空間サンプリングされた小さなデータキューブ(すなわちミニキューブ)を含み、空間カバレッジは2.5×2.5kmである。
各ミニキューブ
(i)Sentinel-2 L2A画像
(II)ERA5-Land変数と、2016年から2022年までの極端事象立方体の生成
(三)陸地と地形図。
本研究の目的は,(1)データアクセシビリティ,構造化,前処理,および科学的再現性の向上,(2)複合的極端に対する生物圏の動態予測の効率化である。
With climate extremes' rising frequency and intensity, robust analytical tools are crucial to predict their impacts on terrestrial ecosystems. Machine learning techniques show promise but require well-structured, high-quality, and curated analysis-ready datasets. Earth observation datasets comprehensively monitor ecosystem dynamics and responses to climatic extremes, yet the data complexity can challenge the effectiveness of machine learning models. Despite recent progress in deep learning to ecosystem monitoring, there is a need for datasets specifically designed to analyse compound heatwave and drought extreme impact. Here, we introduce the DeepExtremeCubes database, tailored to map around these extremes, focusing on persistent natural vegetation. It comprises over 40,000 spatially sampled small data cubes (i.e. minicubes) globally, with a spatial coverage of 2.5 by 2.5 km. Each minicube includes (i) Sentinel-2 L2A images, (ii) ERA5-Land variables and generated extreme event cube covering 2016 to 2022, and (iii) ancillary land cover and topography maps. The paper aims to (1) streamline data accessibility, structuring, pre-processing, and enhance scientific reproducibility, and (2) facilitate biosphere dynamics forecasting in response to compound extremes. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# 大規模言語モデルを用いた単体テスト生成に関する実証的研究
An Empirical Study of Unit Test Generation with Large Language Models ( http://arxiv.org/abs/2406.18181v1 ) ライセンス: Link先を確認 | Lin Yang, Chen Yang, Shutao Gao, Weijing Wang, Bo Wang, Qihao Zhu, Xiao Chu, Jianyi Zhou, Guangtai Liang, Qianxiang Wang, Junjie Chen, | (参考訳) 単体テストは、ソフトウェアコンポーネントの正しさを検証するために、ソフトウェア開発において不可欠な活動である。
しかし、手動でユニットテストを書くのは難しく、時間がかかる。
LLM(Large Language Models)の出現は、ユニットテスト生成を自動化するための新しい方向性を提供する。
既存の研究は主に、固定的なプロンプト戦略を持つクローズドソースのLLM(例:ChatGPT、CodeX)に焦点を当てており、様々なプロンプト設定が探索されていない先進的なオープンソースLLMの能力を残している。
特に、オープンソースのLLMは、データプライバシ保護のアドバンテージを提供し、いくつかのタスクにおいて優れたパフォーマンスを示している。
さらに、LLMの能力を最大化するためには、効果的なプロンプトが不可欠である。
本稿では、このギャップを埋めるための最初の実証的研究を行い、17のJavaプロジェクト、異なる構造とパラメータサイズを持つ5つの広く使われているオープンソースLCM、そして包括的な評価指標について述べる。
本研究は, 各種要因の有意な影響, GPT-4 や従来の Evosuite と比較してオープンソース LLM の性能を示すとともに, LLM による単体テスト生成の限界を明らかにすることを目的としている。
そこで本研究では,LLMを用いたユニット・テスト・ジェネレーションの今後の研究と実用化を導くために,本研究から一連の意味を導出する。
Unit testing is an essential activity in software development for verifying the correctness of software components. However, manually writing unit tests is challenging and time-consuming. The emergence of Large Language Models (LLMs) offers a new direction for automating unit test generation. Existing research primarily focuses on closed-source LLMs (e.g., ChatGPT and CodeX) with fixed prompting strategies, leaving the capabilities of advanced open-source LLMs with various prompting settings unexplored. Particularly, open-source LLMs offer advantages in data privacy protection and have demonstrated superior performance in some tasks. Moreover, effective prompting is crucial for maximizing LLMs' capabilities. In this paper, we conduct the first empirical study to fill this gap, based on 17 Java projects, five widely-used open-source LLMs with different structures and parameter sizes, and comprehensive evaluation metrics. Our findings highlight the significant influence of various prompt factors, show the performance of open-source LLMs compared to the commercial GPT-4 and the traditional Evosuite, and identify limitations in LLM-based unit test generation. We then derive a series of implications from our study to guide future research and practical use of LLM-based unit test generation. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# LLMを用いたパーソナライズされた会話のための選択的プロンプティングチューニング
Selective Prompting Tuning for Personalized Conversations with LLMs ( http://arxiv.org/abs/2406.18187v1 ) ライセンス: Link先を確認 | Qiushi Huang, Xubo Liu, Tom Ko, Bo Wu, Wenwu Wang, Yu Zhang, Lilian Tang, | (参考訳) 会話型AIでは、ペルソナプロファイルとコンテキスト理解との対話をパーソナライズすることが不可欠である。
大規模な言語モデル(LLM)による応答コヒーレンスの改善にもかかわらず、効果的なペルソナ統合は依然として課題である。
本研究では,LLMをパーソナライズするための2つの一般的なアプローチとして,テキストプロンプトと直接微調整について検討する。
我々は、テキストのプロンプトがデータセットの基底的な真実に類似した応答を得るのに苦労するのに対し、直接微調整は繰り返しあるいは過度に一般的な応答を生成する傾向があることを観察した。
これらの問題を緩和するために、選択的な方法でパーソナライズされた会話のためにLSMをソフトに促す、 \textbf{S}elective \textbf{P}rompt \textbf{T}uning (SPT)を提案する。
具体的には、SPTは、一連のソフトプロンプトを初期化し、トレーニング可能な高密度レシーバを使用して、異なる入力コンテキストに応じてLLMに適したソフトプロンプトを適応的に選択する。
さらに,SPTがパーソナライズされた会話の多様性を高めるために,文脈型コントラスト学習と融合学習の促進を提案する。
CONVAI2データセットの実験では、SPTは、他の重要なパフォーマンス指標の改善とともに、応答の多様性を最大90%向上することを示した。
これらの結果から,係わる対話生成とパーソナライズのためのSPTの有効性が示唆された。
SPTモデルコード(https://github.com/hqsiswiliam/SPT)は、さらなる探索のために公開されている。
In conversational AI, personalizing dialogues with persona profiles and contextual understanding is essential. Despite large language models' (LLMs) improved response coherence, effective persona integration remains a challenge. In this work, we first study two common approaches for personalizing LLMs: textual prompting and direct fine-tuning. We observed that textual prompting often struggles to yield responses that are similar to the ground truths in datasets, while direct fine-tuning tends to produce repetitive or overly generic replies. To alleviate those issues, we propose \textbf{S}elective \textbf{P}rompt \textbf{T}uning (SPT), which softly prompts LLMs for personalized conversations in a selective way. Concretely, SPT initializes a set of soft prompts and uses a trainable dense retriever to adaptively select suitable soft prompts for LLMs according to different input contexts, where the prompt retriever is dynamically updated through feedback from the LLMs. Additionally, we propose context-prompt contrastive learning and prompt fusion learning to encourage the SPT to enhance the diversity of personalized conversations. Experiments on the CONVAI2 dataset demonstrate that SPT significantly enhances response diversity by up to 90\%, along with improvements in other critical performance indicators. Those results highlight the efficacy of SPT in fostering engaging and personalized dialogue generation. The SPT model code (https://github.com/hqsiswiliam/SPT) is publicly available for further exploration. | 翻訳日:2024-06-27 14:08:51 公開日:2024-06-26 |
# 特定の文化的文脈に対する大規模英語モデルの適用方法
Methodology of Adapting Large English Language Models for Specific Cultural Contexts ( http://arxiv.org/abs/2406.18192v1 ) ライセンス: Link先を確認 | Wenjing Zhang, Siqi Xiao, Xuejiao Lei, Ning Wang, Huazheng Zhang, Meijuan An, Bikun Yang, Zhaoxiang Liu, Kai Wang, Shiguo Lian, | (参考訳) 大規模言語モデル(LLM)の急速な成長は、人工知能分野において顕著なトレンドとなっている。
しかし、現在のLLMは主に英語に基づいている。
諸藩固有の知識の不足や文化価値の相違による誤解などにより、特定の文化領域のタスクに直接適用される場合の限界に遭遇する。
そこで,本稿では,特定の文化的知識と安全性値データに基づく指導訓練を活用した,特定の文化的文脈における大規模モデルの迅速な適応手法を提案する。
評価結果は,LLaMA3-8Bを実験用英語LLMとして使用することにより,LLMがドメイン固有の知識と安全性値への適応性を著しく向上するとともに,元の専門知識の優位性を維持していることを示す。
The rapid growth of large language models(LLMs) has emerged as a prominent trend in the field of artificial intelligence. However, current state-of-the-art LLMs are predominantly based on English. They encounter limitations when directly applied to tasks in specific cultural domains, due to deficiencies in domain-specific knowledge and misunderstandings caused by differences in cultural values. To address this challenge, our paper proposes a rapid adaptation method for large models in specific cultural contexts, which leverages instruction-tuning based on specific cultural knowledge and safety values data. Taking Chinese as the specific cultural context and utilizing the LLaMA3-8B as the experimental English LLM, the evaluation results demonstrate that the adapted LLM significantly enhances its capabilities in domain-specific knowledge and adaptability to safety values, while maintaining its original expertise advantages. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# MammothModa: マルチモーダル大規模言語モデル
MammothModa: Multi-Modal Large Language Model ( http://arxiv.org/abs/2406.18193v1 ) ライセンス: Link先を確認 | Qi She, Junwen Pan, Xin Wan, Rui Zhang, Dawei Lu, Kai Huang, | (参考訳) 本稿では,MammothModaについて紹介する。MammothModaは,基本となるベースラインから,最先端のパフォーマンスを実現するために設計されたマルチモーダル大規模言語モデル(MLLM)である。
私たちは3つの重要なデザインの洞察に焦点を当てています。
(i)複雑な言語理解を維持しながら視覚能力を統合する:視覚エンコーダに加えて、視覚能力を高めるために視覚注意エキスパートをLLMに組み込んだ。
(II)高解像度画像のトークン数とフレーム位置IDを効果的に削減し,位置補間を回避するために,ビジュアルマーガーモジュールを探索する。
3)ハイクオリティバイリンガルデータセット:視覚幻覚を減らすために,高クオリティバイリンガルマルチモーダルデータセットを慎重にキュレートし,フィルタリングした。
上記のレシピを使ってMammothModaを構築することで、最先端のモデル、例えばLLaVAシリーズを、ベルやホイッスルを使わずに、主要な実世界のビジュアル言語ベンチマークで一貫して上回ります。
In this report, we introduce MammothModa, yet another multi-modal large language model (MLLM) designed to achieve state-of-the-art performance starting from an elementary baseline. We focus on three key design insights: (i) Integrating Visual Capabilities while Maintaining Complex Language Understanding: In addition to the vision encoder, we incorporated the Visual Attention Experts into the LLM to enhance its visual capabilities. (ii) Extending Context Window for High-Resolution and Long-Duration Visual Feature: We explore the Visual Merger Module to effectively reduce the token number of high-resolution images and incorporated frame position ids to avoid position interpolation. (iii) High-Quality Bilingual Datasets: We meticulously curated and filtered a high-quality bilingual multimodal dataset to reduce visual hallucinations. With above recipe we build MammothModa that consistently outperforms the state-of-the-art models, e.g., LLaVA-series, across main real-world visual language benchmarks without bells and whistles. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# 人為的プロンプトに基づく異常検出:メタガイドプロンプトスキームによる即時最適化
Human-free Prompted Based Anomaly Detection: prompt optimization with Meta-guiding prompt scheme ( http://arxiv.org/abs/2406.18197v1 ) ライセンス: Link先を確認 | Pi-Wei Chen, Jerry Chun-Wei Lin, Jia Ji, Feng-Hao Yeh, Chao-Chun Chen, | (参考訳) 事前学習された視覚言語モデル(VLM)は、数ショットの学習を通じて様々な下流タスクに高度に適用可能であり、プロンプトベースの異常検出は有望なアプローチである。
従来の手法は、特定の異常なタイプの事前の知識を必要とする人為的なプロンプトに依存している。
我々のゴールは、データ駆動方式でプロンプトを最適に学習し、人間の介入の必要性をなくす、人間の自由なプロンプトベースの異常検出フレームワークを開発することである。
このアプローチの主な課題は、トレーニングフェーズにおける異常サンプルの欠如である。
さらに、VLMにおけるビジョントランスフォーマー(ViT)ベースの画像エンコーダは、元の画像と出力特徴マップとの局所性特徴ミスマッチによる画素ワイド異常セグメンテーションには理想的ではない。
最初の課題に取り組むため、我々は、トレーニング用異常サンプルを合成するオブジェクト指向異常生成モジュール(OAGM)を開発した。
さらに、MPTS(Meta-Guiding Prompt-Tuning Scheme)は、学習可能なプロンプトの勾配に基づく最適化方向を反復的に調整し、合成された異常に過度に適合しないようにする。
第2の課題として,ローカル性意識(Locality-Aware Attention)を提案する。各ローカルパッチ機能は,近傍のパッチ機能にのみ対応し,元のロケーションに対応するローカリティ機能を保持する。
このフレームワークは、人間の意味的な制約なしに、バックプロパゲーションを通じて連続的な潜伏空間を探索することで、最適なプロンプト埋め込みを可能にする。
さらに、修正された局所性認識アテンションにより、画素単位の異常セグメンテーションの精度が向上する。
Pre-trained vision-language models (VLMs) are highly adaptable to various downstream tasks through few-shot learning, making prompt-based anomaly detection a promising approach. Traditional methods depend on human-crafted prompts that require prior knowledge of specific anomaly types. Our goal is to develop a human-free prompt-based anomaly detection framework that optimally learns prompts through data-driven methods, eliminating the need for human intervention. The primary challenge in this approach is the lack of anomalous samples during the training phase. Additionally, the Vision Transformer (ViT)-based image encoder in VLMs is not ideal for pixel-wise anomaly segmentation due to a locality feature mismatch between the original image and the output feature map. To tackle the first challenge, we have developed the Object-Attention Anomaly Generation Module (OAGM) to synthesize anomaly samples for training. Furthermore, our Meta-Guiding Prompt-Tuning Scheme (MPTS) iteratively adjusts the gradient-based optimization direction of learnable prompts to avoid overfitting to the synthesized anomalies. For the second challenge, we propose Locality-Aware Attention, which ensures that each local patch feature attends only to nearby patch features, preserving the locality features corresponding to their original locations. This framework allows for the optimal prompt embeddings by searching in the continuous latent space via backpropagation, free from human semantic constraints. Additionally, the modified locality-aware attention improves the precision of pixel-wise anomaly segmentation. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# VDG:運転シミュレーションのためのヴィジュアルオンリーダイナミックガウス
VDG: Vision-Only Dynamic Gaussian for Driving Simulation ( http://arxiv.org/abs/2406.18198v1 ) ライセンス: Link先を確認 | Hao Li, Jingfeng Li, Dingwen Zhang, Chenming Wu, Jieqi Shi, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang, Junwei Han, | (参考訳) 動的ガウススプラッティングは、印象的なシーン再構築と、新しい視点における画像合成の進歩につながった。
しかし、既存の方法は、事前計算されたポーズと、Structure from Motion (SfM)アルゴリズムや高価なセンサーによるガウスの初期化に大きく依存している。
本稿では, 自己教師型VOをポーズフリーな動的ガウス法 (VDG) に統合し, ポーズと深さの初期化と静的力学の分解を促進することでこの問題に対処する。
さらに、VDGはRGB画像入力のみで動作可能で、ポーズフリーのダイナミックビュー合成法と比較して、より高速で広いシーンで動的シーンを構築することができる。
我々は、広範囲な定量的および定性的な実験を通して、我々のアプローチの頑健さを実証する。
その結果,現状の動的ビュー合成法よりも優れた性能を示した。
追加のビデオとソースコードは、プロジェクトページ https://3d-aigc.github.io/VDG.com に掲載されます。
Dynamic Gaussian splatting has led to impressive scene reconstruction and image synthesis advances in novel views. Existing methods, however, heavily rely on pre-computed poses and Gaussian initialization by Structure from Motion (SfM) algorithms or expensive sensors. For the first time, this paper addresses this issue by integrating self-supervised VO into our pose-free dynamic Gaussian method (VDG) to boost pose and depth initialization and static-dynamic decomposition. Moreover, VDG can work with only RGB image input and construct dynamic scenes at a faster speed and larger scenes compared with the pose-free dynamic view-synthesis method. We demonstrate the robustness of our approach via extensive quantitative and qualitative experiments. Our results show favorable performance over the state-of-the-art dynamic view synthesis methods. Additional video and source code will be posted on our project page at https://3d-aigc.github.io/VDG. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# GS-Octree:強い照明下でのロバスト物体レベル3次元再構成のためのOcree-based 3D Gaussian Splatting
GS-Octree: Octree-based 3D Gaussian Splatting for Robust Object-level 3D Reconstruction Under Strong Lighting ( http://arxiv.org/abs/2406.18199v1 ) ライセンス: Link先を確認 | Jiaze Li, Zhengyu Wen, Luo Zhang, Jiangbei Hu, Fei Hou, Zhebin Zhang, Ying He, | (参考訳) 3次元ガウス散乱技術は、マルチビュー画像からの放射場の構築を大幅に進歩させ、リアルタイムレンダリングを可能にした。
点ベースのラスタライゼーションは、レンダリングの計算要求を効果的に低減するが、特に強い照明の下で、ターゲットオブジェクトの幾何学を正確に再構築するのに苦労することが多い。
この課題に対処するために、オクツリーに基づく暗黙的表面表現とガウススプラッティングを組み合わせた新しいアプローチを導入する。
私たちの方法は4つの段階から成る。
当初は、ボリュームレンダリングによって署名された距離場(SDF)と放射界を再構成し、低解像度のオクツリーにエンコードする。
最初の SDF は対象物の粗い形状を表す。
その後、SDFが指導する3Dガウシアンを追加の自由度として導入する。
第3段階では、最適化されたガウスはSDFの精度をさらに向上し、第1段で得られた初期SDFと比較して、より微細な幾何学的詳細を復元することができる。
最後に、改良されたSDFを採用して、3Dガウシアンをさらに最適化し、視覚的な外観にはほとんど寄与しないものを排除した。
実験結果から,SDFによる3次元ガウス分布を利用する手法は,特に高輝度光による強調画像において,より正確な形状を再構成することがわかった。
The 3D Gaussian Splatting technique has significantly advanced the construction of radiance fields from multi-view images, enabling real-time rendering. While point-based rasterization effectively reduces computational demands for rendering, it often struggles to accurately reconstruct the geometry of the target object, especially under strong lighting. To address this challenge, we introduce a novel approach that combines octree-based implicit surface representations with Gaussian splatting. Our method consists of four stages. Initially, it reconstructs a signed distance field (SDF) and a radiance field through volume rendering, encoding them in a low-resolution octree. The initial SDF represents the coarse geometry of the target object. Subsequently, it introduces 3D Gaussians as additional degrees of freedom, which are guided by the SDF. In the third stage, the optimized Gaussians further improve the accuracy of the SDF, allowing it to recover finer geometric details compared to the initial SDF obtained in the first stage. Finally, it adopts the refined SDF to further optimize the 3D Gaussians via splatting, eliminating those that contribute little to visual appearance. Experimental results show that our method, which leverages the distribution of 3D Gaussians with SDFs, reconstructs more accurate geometry, particularly in images with specular highlights caused by strong lighting. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# SEED: スケジューリングされた投機的デコーディングによる推論ツリー構築の高速化
SEED: Accelerating Reasoning Tree Construction via Scheduled Speculative Decoding ( http://arxiv.org/abs/2406.18200v1 ) ライセンス: Link先を確認 | Zhenglin Wang, Jialong Wu, Yilong Lai, Congzhi Zhang, Deyu Zhou, | (参考訳) 大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な創発的な能力を示すが、複雑な推論や計画タスクには欠ける。
木探索に基づく推論手法は、中間段階の探索を奨励し、思考の連鎖の促進の能力を超越することでこの問題に対処する。
しかし、このような手法は、複数の思考経路の体系的な探索と評価により、大きな推論遅延をもたらす。
本稿では,実行速度とGPUメモリ管理を同時に最適化する新しい,効率的な推論フレームワークであるSeeDを紹介する。
スケジュールされた投機的実行を利用することで、SeeDは思考生成と状態評価のために複数のイテレーションを効率的に処理し、ラウンドスケジューリング戦略を利用してドラフトモデルディスパッチを管理する。
3つの推論データセットに対する大規模な実験的評価により、SeeDの高速化性能が向上し、トレーニング不要な投機復号におけるバッチ推論の実行可能なパスが提供される。
Large Language Models (LLMs) demonstrate remarkable emergent abilities across various tasks, yet fall short of complex reasoning and planning tasks. The tree-search-based reasoning methods address this by surpassing the capabilities of chain-of-thought prompting, encouraging exploration of intermediate steps. However, such methods introduce significant inference latency due to the systematic exploration and evaluation of multiple thought paths. This paper introduces SeeD, a novel and efficient inference framework to optimize runtime speed and GPU memory management concurrently. By employing a scheduled speculative execution, SeeD efficiently handles multiple iterations for the thought generation and the state evaluation, leveraging a rounds-scheduled strategy to manage draft model dispatching. Extensive experimental evaluations on three reasoning datasets demonstrate superior speedup performance of SeeD, providing a viable path for batched inference in training-free speculative decoding. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# EFCNet:小さな医療用オブジェクトセグメンテーションのためのすべての機能
EFCNet: Every Feature Counts for Small Medical Object Segmentation ( http://arxiv.org/abs/2406.18201v1 ) ライセンス: Link先を確認 | Lingjie Kong, Qiaoling Wei, Chengming Xu, Han Chen, Yanwei Fu, | (参考訳) 本稿では, 臨床的意義の大きい, 非常に小さな医療対象のセグメンテーションについて検討する。
畳み込みニューラルネットワーク(CNN),特にUNetライクなモデル,および最近のトランスフォーマーは画像セグメンテーションの著しい進歩を示しているが,本論文では,小さな医学的対象や病変のセグメンテーションにおいて,その性能が劣っていることを実証的に示した。
この制限は、符号化および復号過程における情報損失に起因する可能性がある。
この課題に対応するために,医療画像における小物体分割のためのEFCNetという新しいモデルを提案する。
本モデルは,CSAA(Cross-Stage Axial Attention Module)とMPS(Multi-Precision Supervision Module)の2つのモジュールを含む。
これらのモジュールは、それぞれエンコーディングとデコード手順中の情報損失に対処する。
具体的には、CSAAはエンコーダの全段階の機能を統合し、異なる復号段階に必要な適切な情報を適応的に学習することで、エンコーダの情報損失を低減する。
一方,MPSはデコーダに新しいマルチ精度監視機構を導入する。
このメカニズムは、デコーダの初期段階での低解像度の特徴に注意を向け、その後の畳み込みとサンプリングプロセスによる情報損失を軽減し、モデルのグローバルな知覚を高める。
2つのベンチマーク医用画像データセットを用いて,本モデルの評価を行った。
その結果, EFCNetは, 医用画像と正常画像の両方において, 従来のセグメンテーション法よりも有意に優れていた。
This paper explores the segmentation of very small medical objects with significant clinical value. While Convolutional Neural Networks (CNNs), particularly UNet-like models, and recent Transformers have shown substantial progress in image segmentation, our empirical findings reveal their poor performance in segmenting the small medical objects and lesions concerned in this paper. This limitation may be attributed to information loss during their encoding and decoding process. In response to this challenge, we propose a novel model named EFCNet for small object segmentation in medical images. Our model incorporates two modules: the Cross-Stage Axial Attention Module (CSAA) and the Multi-Precision Supervision Module (MPS). These modules address information loss during encoding and decoding procedures, respectively. Specifically, CSAA integrates features from all stages of the encoder to adaptively learn suitable information needed in different decoding stages, thereby reducing information loss in the encoder. On the other hand, MPS introduces a novel multi-precision supervision mechanism to the decoder. This mechanism prioritizes attention to low-resolution features in the initial stages of the decoder, mitigating information loss caused by subsequent convolution and sampling processes and enhancing the model's global perception. We evaluate our model on two benchmark medical image datasets. The results demonstrate that EFCNet significantly outperforms previous segmentation methods designed for both medical and normal images. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# AIカード:EUのAI法に触発された、機械可読なAIとリスクドキュメンテーションのためのフレームワークを目指す
AI Cards: Towards an Applied Framework for Machine-Readable AI and Risk Documentation Inspired by the EU AI Act ( http://arxiv.org/abs/2406.18211v1 ) ライセンス: Link先を確認 | Delaram Golpayegani, Isabelle Hupont, Cecilia Panigutti, Harshvardhan J. Pandit, Sven Schade, Declan O'Sullivan, Dave Lewis, | (参考訳) EU AI Actの施行により、リスクの高いAIシステムとそのリスク管理情報のドキュメントは、コンプライアンスの実証において重要な役割を果たす法的要件となる。
その重要性にもかかわらず、AI法に沿ったAIとリスクドキュメントの作成を支援するための標準やガイドラインが欠如している。
本稿では、技術ドキュメントに関するAI法の規定を詳細に分析し、特にAIリスク管理に焦点を当てることで、このギャップに対処することを目的とする。
この分析に基づいて、人間と機械可読フォーマットの両方において、技術的仕様、使用状況、リスク管理に関する情報を包含することにより、AIシステムの意図された使用を表現するための新しい総合的なフレームワークとして、AIカードを提案する。
AI Cardの人間可読な表現は、AIステークホルダーに、AIユースケースの透明で理解しやすい概要を提供する一方で、マシン可読な仕様は、最先端のセマンティックWeb技術を活用して、AIバリューチェーン内のドキュメントの交換に必要な相互運用性を具現化している。
これにより、AIシステムとそのコンテキストに適用される変更を反映するために必要な柔軟性が実現し、法的要件の潜在的な修正に対応するために必要なスケーラビリティを提供し、法的コンプライアンスと適合性評価タスクを支援する自動化ツールの開発を可能にする。
この利点を固めるために、AIベースの学生プロクターシステムのための模範的なAIカードを提供し、AI法の範囲内およびそれ以上の潜在的な応用についてさらに議論する。
With the upcoming enforcement of the EU AI Act, documentation of high-risk AI systems and their risk management information will become a legal requirement playing a pivotal role in demonstration of compliance. Despite its importance, there is a lack of standards and guidelines to assist with drawing up AI and risk documentation aligned with the AI Act. This paper aims to address this gap by providing an in-depth analysis of the AI Act's provisions regarding technical documentation, wherein we particularly focus on AI risk management. On the basis of this analysis, we propose AI Cards as a novel holistic framework for representing a given intended use of an AI system by encompassing information regarding technical specifications, context of use, and risk management, both in human- and machine-readable formats. While the human-readable representation of AI Cards provides AI stakeholders with a transparent and comprehensible overview of the AI use case, its machine-readable specification leverages on state of the art Semantic Web technologies to embody the interoperability needed for exchanging documentation within the AI value chain. This brings the flexibility required for reflecting changes applied to the AI system and its context, provides the scalability needed to accommodate potential amendments to legal requirements, and enables development of automated tools to assist with legal compliance and conformity assessment tasks. To solidify the benefits, we provide an exemplar AI Card for an AI-based student proctoring system and further discuss its potential applications within and beyond the context of the AI Act. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# 共同ストリーム:乳癌診断のための悪性領域学習
Joint Stream: Malignant Region Learning for Breast Cancer Diagnosis ( http://arxiv.org/abs/2406.18212v1 ) ライセンス: Link先を確認 | Abdul Rehman, Sarfaraz Hussein, Waqas Sultani, | (参考訳) 早期乳癌(BC)の診断は、世界中で死亡率の低下に大きく寄与する。
Estrogen receptor (ER), Progesterone receptor (PR), Human epidermal Growth Factor receptor 2 (HER2) gene, Histological grade (HG), Auxiliary lymph node (ALN) status, Molecular subtype (MS) などの異なる因子やバイオマーカーの検出は、BCG診断の改善に重要な役割を果たしている。
しかし、既存の方法では、診断や治療戦略の設計に適さない1つの要因しか予測できない。
本稿では,H&E染色WSIを用いて早期に診断された6つの重要な因子 (ER, PR, HER2, ALN, HG, MS) を分類することを提案する。
局所的な近接関係を正確に把握するために、WSIの悪性領域のパッチサイズから空間的および周波数的領域情報を用いる。
さらに,関心領域の変動数を計測し,各領域に注意を向けるために,悪性領域学習注意ネットワークを提案する。
実験の結果,悪性領域学習モジュールを用いた空間情報と周波数情報を組み合わせることで,公開データセット上での多要素・単要素分類性能が著しく向上することが示された。
Early diagnosis of breast cancer (BC) significantly contributes to reducing the mortality rate worldwide. The detection of different factors and biomarkers such as Estrogen receptor (ER), Progesterone receptor (PR), Human epidermal growth factor receptor 2 (HER2) gene, Histological grade (HG), Auxiliary lymph node (ALN) status, and Molecular subtype (MS) can play a significant role in improved BC diagnosis. However, the existing methods predict only a single factor which makes them less suitable to use in diagnosis and designing a strategy for treatment. In this paper, we propose to classify the six essential indicating factors (ER, PR, HER2, ALN, HG, MS) for early BC diagnosis using H\&E stained WSI's. To precisely capture local neighboring relationships, we use spatial and frequency domain information from the large patch size of WSI's malignant regions. Furthermore, to cater the variable number of regions of interest sizes and give due attention to each region, we propose a malignant region learning attention network. Our experimental results demonstrate that combining spatial and frequency information using the malignant region learning module significantly improves multi-factor and single-factor classification performance on publicly available datasets. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# 脂肪のトリミング:プルーニングによる3次元ガウス平板の効率的な圧縮
Trimming the Fat: Efficient Compression of 3D Gaussian Splats through Pruning ( http://arxiv.org/abs/2406.18214v1 ) ライセンス: Link先を確認 | Muhammad Salman Ali, Maryam Qamar, Sung-Ho Bae, Enzo Tartaglione, | (参考訳) 近年,ニューラル・ラディアンス・フィールド(Neural Radiance Fields)やより最近では3Dガウス・スプラッティング(3DGS)モデルによって提供されるエンドツーエンドのトレーニング能力によって,3Dモデルの利用が勢いを増している。
後者は、トレーニング中の急激な収束を本質的に緩和し、広範囲な編集性を提供することで、大きな優位性を持っている。
しかし、急速な進歩にもかかわらず、これらのモデルのスケーラビリティに関する文献はまだ幼少期である。
本研究では,このギャップに対処するための最初のステップとして,そのようなモデルのメモリと計算のスケーラビリティの両方を実現するアプローチを示す。
具体的には、モデルに符号化された余分な情報を除去するために、ポストホック勾配インフォームドイテレーティブプルーニング手法である"Trimming the fat"を提案する。
提案手法の有効性を検証した結果, ベースライン性能の維持や改善を図りながら, 最大75%のガウスを除去できることが判明した。
提案手法は,ベースラインモデルと同等の性能を維持しつつ,50$\times$圧縮を実現し,最大600〜FPSの高速化を実現している。
In recent times, the utilization of 3D models has gained traction, owing to the capacity for end-to-end training initially offered by Neural Radiance Fields and more recently by 3D Gaussian Splatting (3DGS) models. The latter holds a significant advantage by inherently easing rapid convergence during training and offering extensive editability. However, despite rapid advancements, the literature still lives in its infancy regarding the scalability of these models. In this study, we take some initial steps in addressing this gap, showing an approach that enables both the memory and computational scalability of such models. Specifically, we propose "Trimming the fat", a post-hoc gradient-informed iterative pruning technique to eliminate redundant information encoded in the model. Our experimental findings on widely acknowledged benchmarks attest to the effectiveness of our approach, revealing that up to 75% of the Gaussians can be removed while maintaining or even improving upon baseline performance. Our approach achieves around 50$\times$ compression while preserving performance similar to the baseline model, and is able to speed-up computation up to 600~FPS. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# マルチグラフマッチングのための操作研究の可能性の解き放つ
Unlocking the Potential of Operations Research for Multi-Graph Matching ( http://arxiv.org/abs/2406.18215v1 ) ライセンス: Link先を確認 | Max Kahl, Sebastian Stricker, Lisa Hutschenreiter, Florian Bernard, Bogdan Savchynskyy, | (参考訳) 複数の有限集合をマッチングするNPハード二次代入問題の一般化である不完全多重グラフマッチング問題を考察する。
マルチグラフマッチングは、画像や形状をマッチングするコンピュータビジョンにおいて中心的な役割を果たすため、多くの専用最適化技術が提案されている。
NP-hard multi-dimensional assignment problem (MDAP) は、運用研究コミュニティにおいて何十年も研究されてきたが、完全なマッチングのみを考慮し、コスト構造が異なる。
このギャップを埋め、MDAPのよく知られた近似アルゴリズムを不完全な多重グラフマッチングに転送する。
この目的のために、各アルゴリズムを再検討し、不完全な多重グラフマッチングに適応し、拡張および並列化バージョンを提案する。
実験により,我々の新しい手法は,目的と実行の両面で,従来の最先端の手法よりも大幅に優れていたことが確認された。
私たちのアルゴリズムは、2分未満でそれぞれ500以上のキーポイントを持つ29の画像と一致します。
We consider the incomplete multi-graph matching problem, which is a generalization of the NP-hard quadratic assignment problem for matching multiple finite sets. Multi-graph matching plays a central role in computer vision, e.g., for matching images or shapes, so that a number of dedicated optimization techniques have been proposed. While the closely related NP-hard multi-dimensional assignment problem (MDAP) has been studied for decades in the operations research community, it only considers complete matchings and has a different cost structure. We bridge this gap and transfer well-known approximation algorithms for the MDAP to incomplete multi-graph matching. To this end, we revisit respective algorithms, adapt them to incomplete multi-graph matching, and propose their extended and parallelized versions. Our experimental validation shows that our new method substantially outperforms the previous state of the art in terms of objective and runtime. Our algorithm matches, for example, 29 images with more than 500 keypoints each in less than two minutes, whereas the fastest considered competitor requires at least half an hour while producing far worse results. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# 大規模言語モデルにおけるMixture-of-Experts
A Closer Look into Mixture-of-Experts in Large Language Models ( http://arxiv.org/abs/2406.18219v1 ) ライセンス: Link先を確認 | Ka Man Lo, Zeyu Huang, Zihan Qiu, Zili Wang, Jie Fu, | (参考訳) ミックス・オブ・エキスパート(Mixture-of-Experts、MoE)は、特に言語タスクにおいて、その特徴と顕著なパフォーマンスにより、注目を集めている。
トークンごとにパラメータのサブセットをわずかに活性化することにより、MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを拡大し、パフォーマンスとトレーニングコストのトレードオフを向上できる。
しかし、MoEの基盤となるメカニズムは依然としてさらなる探索を欠いており、そのモジュール化の度合いは疑問視されている。
本稿では,MoEをベースとした大規模言語モデルの内部動作を理解するための最初の試みを行う。
具体的には、最近の3つのMoEモデルにおけるパラメトリックおよび行動の特徴を包括的に研究し、(1)ニューロンがきめ細かい専門家のように振る舞うことを含む興味深い観察を明らかにした。
2) MoEのルータは通常、より大きな出力基準を持つ専門家を選択する。
(3) 層が増加するにつれて, 専門家の多様性が増大する一方, 最後の層は外れやすい。
また,観測結果に基づいて,ルータの設計や専門家のアロケーションなど,幅広いMoE実践者に対して提案を行う。
この作業が、MoEフレームワークや他のモジュラーアーキテクチャに関する将来の研究に光を当ててくれることを期待しています。
コードはhttps://github.com/kamanphoebe/Look-into-MoEsで入手できる。
Mixture-of-experts (MoE) is gaining increasing attention due to its unique properties and remarkable performance, especially for language tasks. By sparsely activating a subset of parameters for each token, MoE architecture could increase the model size without sacrificing computational efficiency, achieving a better trade-off between performance and training costs. However, the underlying mechanism of MoE still lacks further exploration, and its modularization degree remains questionable. In this paper, we make an initial attempt to understand the inner workings of MoE-based large language models. Concretely, we comprehensively study the parametric and behavioral features of three recent MoE-based models and reveal some intriguing observations, including (1) Neurons act like fine-grained experts. (2) The router of MoE usually selects experts with larger output norms. (3) The expert diversity increases as the layer increases, while the last layer is an outlier. Based on the observations, we also provide suggestions for a broad spectrum of MoE practitioners, such as router design and expert allocation. We hope this work could shed light on future research on the MoE framework and other modular architectures. Code is available at https://github.com/kamanphoebe/Look-into-MoEs. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# 明示的な手続き的知識による映像予測の指導
Guiding Video Prediction with Explicit Procedural Knowledge ( http://arxiv.org/abs/2406.18220v1 ) ライセンス: Link先を確認 | Patrick Takenaka, Johannes Maucher, Marco F. Huber, | (参考訳) 本稿では,ドメインの手続き的知識をディープラーニングモデルに統合する一般的な方法を提案する。
我々は、オブジェクト中心のディープモデルの上に構築されたビデオ予測のケースに適用し、これがデータ駆動モデル単独の使用よりも優れたパフォーマンスをもたらすことを示す。
そこで我々は,映像予測の下流タスクを用いて,潜在空間における手続き的インタフェースを学習するためのセットアップを構築する。
我々は、そのパフォーマンスを最先端のデータ駆動アプローチと対比し、純粋にデータ駆動アプローチが苦労する問題に対して、ドメインに関する知識を使用することで対処できることを示し、より多くのデータを集める代替手段を提供する。
We propose a general way to integrate procedural knowledge of a domain into deep learning models. We apply it to the case of video prediction, building on top of object-centric deep models and show that this leads to a better performance than using data-driven models alone. We develop an architecture that facilitates latent space disentanglement in order to use the integrated procedural knowledge, and establish a setup that allows the model to learn the procedural interface in the latent space using the downstream task of video prediction. We contrast the performance to a state-of-the-art data-driven approach and show that problems where purely data-driven approaches struggle can be handled by using knowledge about the domain, providing an alternative to simply collecting more data. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# プライベートアソシエーション編集による大規模言語モデルにおけるデータプライバシ向上
Enhancing Data Privacy in Large Language Models through Private Association Editing ( http://arxiv.org/abs/2406.18221v1 ) ライセンス: Link先を確認 | Davide Venditti, Elena Sofia Ruzzetti, Giancarlo A. Xompero, Cristina Giannone, Andrea Favalli, Raniero Romagnoli, Fabio Massimo Zanzotto, | (参考訳) 大規模言語モデル(LLM)は、広範なアプリケーションを持つ強力なツールであるが、プライベートな情報を記憶する傾向は、プライベートなデータ漏洩が容易に起こりうるため、重大な懸念を生じさせる。
本稿では,プライベート・アソシエーション・編集(PAE)について紹介する。
PAEは、モデルを再訓練することなく、PII(Personally Identible Information)を効果的に除去するように設計されている。
提案手法は, 暗記PIIの検出, プライベートデータの暗記を緩和するためのPAEカードの適用, ターゲットデータ抽出(TDE)攻撃に対するレジリエンスの検証, 後LPMにおける一貫性の確保の4段階からなる。
バッチ修正を可能にするPAEの汎用性と効率は、LLMにおけるデータのプライバシを大幅に向上させる。
PAEの個人データ漏洩軽減効果を示す実験結果が得られた。
PAEは、LLMにおけるデータプライバシ保護の継続的な取り組みにおいて、重要なツールとして機能し、現実世界のアプリケーションのためのより安全なモデルの開発を促進します。
Large Language Models (LLMs) are powerful tools with extensive applications, but their tendency to memorize private information raises significant concerns as private data leakage can easily happen. In this paper, we introduce Private Association Editing (PAE), a novel defense approach for private data leakage. PAE is designed to effectively remove Personally Identifiable Information (PII) without retraining the model. Our approach consists of a four-step procedure: detecting memorized PII, applying PAE cards to mitigate memorization of private data, verifying resilience to targeted data extraction (TDE) attacks, and ensuring consistency in the post-edit LLMs. The versatility and efficiency of PAE, which allows for batch modifications, significantly enhance data privacy in LLMs. Experimental results demonstrate the effectiveness of PAE in mitigating private data leakage. We believe PAE will serve as a critical tool in the ongoing effort to protect data privacy in LLMs, encouraging the development of safer models for real-world applications. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# SoK: エンドツーエンド暗号化時代のWeb認証
SoK: Web Authentication in the Age of End-to-End Encryption ( http://arxiv.org/abs/2406.18226v1 ) ライセンス: Link先を確認 | Jenny Blessing, Daniel Hugenroth, Ross J. Anderson, Alastair R. Beresford, | (参考訳) エンドツーエンド暗号化(E2EE)メッセージングとバックアップサービスの出現は、使用可能な認証に新たな課題をもたらした。
通常のWebサービスと比較して、E2EEの性質は、パスワードや失われたデバイスを忘れたユーザのためのデータを復元できないことを意味する。
そのため、新たな堅牢性と回復性が必要となり、ランダムに生成されたリカバリコードからしきい値に基づく社会的検証まで、数多くのソリューションが生み出された。
パスワードなし認証("passkeys")は、パスワードを完全に置き換える有望な候補となっているが、本質的にはデバイスバウンドである。
しかし、ユーザーは、複数のデバイスからログインし、デバイスが紛失した場合にパスワードを復元できることを期待している。
したがって、E2EE認証は、専用E2EE愛好家のニッチなグループだけでなく、デバイスベンダーが推進するパスワードレス認証技術を使って一般大衆にとって急速に重要になる。
本稿では,E2EE認証のセキュリティ,プライバシ,ユーザビリティ,回復性に関する既存の研究文献と産業プラクティスを体系化する。
広く利用されているすべてのE2EE Webサービスにおける認証とリカバリの仕組みを調査し,上位200のWebサイトにおけるパスワードレス認証の展開を調査した。
最後に,産業展開と学術文献とのギャップを観測し,具体的な研究の方向性を示す。
The advent of end-to-end encrypted (E2EE) messaging and backup services has brought new challenges for usable authentication. Compared to regular web services, the nature of E2EE implies that the provider cannot recover data for users who have forgotten passwords or lost devices. Therefore, new forms of robustness and recoverability are required, leading to a plethora of solutions ranging from randomly-generated recovery codes to threshold-based social verification. These implications also spread to new forms of authentication and legacy web services: passwordless authentication ("passkeys") has become a promising candidate to replace passwords altogether, but are inherently device-bound. However, users expect that they can login from multiple devices and recover their passwords in case of device loss--prompting providers to sync credentials to cloud storage using E2EE, resulting in the very same authentication challenges of regular E2EE services. Hence, E2EE authentication quickly becomes relevant not only for a niche group of dedicated E2EE enthusiasts but for the general public using the passwordless authentication techniques promoted by their device vendors. In this paper we systematize existing research literature and industry practice relating to security, privacy, usability, and recoverability of E2EE authentication. We investigate authentication and recovery schemes in all widely-used E2EE web services and survey passwordless authentication deployment in the top-200 most popular websites. Finally, we present concrete research directions based on observed gaps between industry deployment and academic literature. | 翻訳日:2024-06-27 13:59:06 公開日:2024-06-26 |
# GUIDE: インストラクショナルビデオ理解のためのガイドラインガイド付きデータセット
GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension ( http://arxiv.org/abs/2406.18227v1 ) ライセンス: Link先を確認 | Jiafeng Liang, Shixin Jiang, Zekun Wang, Haojie Pan, Zerui Chen, Zheng Chu, Ming Liu, Ruiji Fu, Zhongyuan Wang, Bing Qin, | (参考訳) インターネット上には、様々なタスクを完了するためのチュートリアルを提供する、相当な指導ビデオがある。
既存の指導ビデオデータセットは、ビデオレベルでの特定のステップのみに焦点を当てており、タスクレベルでの経験的なガイドラインが欠如しているため、初心者は関連する経験の欠如のために新しいタスクを学ぶのに苦労する可能性がある。
さらに、ガイドラインのない特定のステップは自明で非体系的であり、明確なチュートリアルを提供することが難しい。
このような問題に対処するため,GUIDE(Guideline-Guided)データセットを提示する。
具体的には,すべてのタスク関連ビデオで共有される共通パターンを表すガイドラインを用いて,各命令タスクに注釈を付ける。
そこで,本論文では,関連するガイドラインステップ,具体的なステップ記述,タイムスタンプなど,体系的な具体的なステップについて解説する。
提案するベンチマークは,モデルの理解能力を評価するための3つのサブタスクから構成される。(1)ステップキャプション:モデルがビデオから特定のステップのキャプションを生成する。
2) ガイドライン要約: モデルはタスク関連ビデオの共通パターンをマイニングし,それらからガイドラインを要約する必要がある。
(3) ガイドライン誘導キャプション: モデルはガイドラインのガイドの下で特定のステップのキャプションを生成する必要がある。
GUIDEを用いて基礎モデルを多数評価し,詳細な解析を行う。
GUIDEの多様性と実用性を考えると、より優れたビデオ理解のベンチマークとして利用できると信じている。
There are substantial instructional videos on the Internet, which provide us tutorials for completing various tasks. Existing instructional video datasets only focus on specific steps at the video level, lacking experiential guidelines at the task level, which can lead to beginners struggling to learn new tasks due to the lack of relevant experience. Moreover, the specific steps without guidelines are trivial and unsystematic, making it difficult to provide a clear tutorial. To address these problems, we present the GUIDE (Guideline-Guided) dataset, which contains 3.5K videos of 560 instructional tasks in 8 domains related to our daily life. Specifically, we annotate each instructional task with a guideline, representing a common pattern shared by all task-related videos. On this basis, we annotate systematic specific steps, including their associated guideline steps, specific step descriptions and timestamps. Our proposed benchmark consists of three sub-tasks to evaluate comprehension ability of models: (1) Step Captioning: models have to generate captions for specific steps from videos. (2) Guideline Summarization: models have to mine the common pattern in task-related videos and summarize a guideline from them. (3) Guideline-Guided Captioning: models have to generate captions for specific steps under the guide of guideline. We evaluate plenty of foundation models with GUIDE and perform in-depth analysis. Given the diversity and practicality of GUIDE, we believe that it can be used as a better benchmark for instructional video comprehension. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# 測定誘起分光遷移
Measurement-Induced Spectral Transition ( http://arxiv.org/abs/2406.18234v1 ) ライセンス: Link先を確認 | Ken Mochizuki, Ryusuke Hamazaki, | (参考訳) 弱い測定値に曝露された雑音量子力学は、ギャップレス位相とギャップド位相の間のスペクトル遷移を示す。
この目的のために、力学を記述する非単位行列の特異値から得られるリアプノフスペクトルを用いる。
ギャップレス位相とギャップド位相はそれぞれ、支配的なリャプノフベクトルに対する絡み合いエントロピーの体積-法則と面積-法則位相に対応する。
このスペクトルギャップと絡み合いのスケーリングの対応は、基底状態の相転移と興味深い類似性をもたらす。
また、絡み合いのスケーリング法則や指数関数的に小さなギャップなど、基底状態遷移と重要な相違についても論じる。
さらに、スペクトル遷移が初期状態のメモリ損失の時間スケールの遷移につながることを示す。
We show that noisy quantum dynamics exposed to weak measurements exhibit a spectral transition between gapless and gapped phases. To this end, we employ the Lyapunov spectrum obtained through singular values of a non-unitary matrix describing the dynamics. We discover that the gapless and gapped phases respectively correspond to the volume-law and area-law phases of the entanglement entropy for the dominant Lyapunov vector. This correspondence between the spectral gap and the scaling of entanglement offers an intriguing analogy with ground-state phase transitions. We also discuss some crucial differences from ground-state transitions, such as the scaling law of the entanglement and the exponentially small gaps. Furthermore, we show that the spectral transition leads to the transition of the timescale for the memory loss of initial states. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# CoDA: ストーニーコールドウォーターサンゴを模擬したデンドロイド構造の対話的セグメンテーションと形態解析
CoDA: Interactive Segmentation and Morphological Analysis of Dendroid Structures Exemplified on Stony Cold-Water Corals ( http://arxiv.org/abs/2406.18236v1 ) ライセンス: Link先を確認 | Kira Schmitt, Jürgen Titschack, Daniel Baum, | (参考訳) 本稿では,CoDA, Coral Dendroid structure Analyzerについて紹介する。これは複雑なデンドロイドサンゴ群集の個体発生形態を初めて研究するためのビジュアル分析スイートで, 3つの重要なフレームワークを形成するデンドロイドコールドウォーターサンゴであるLophelia pertusa (Linnaeus, 1758), Madrepora oculata (Linnaeus, 1758), Goniocorella dumosa (Alcock, 1902)を例に示す。
CoDAへの入力は、植民地の骨格樹を推定し、個々のサンゴライトの古典的な形態計測と高度な形状の特徴を抽出するサンゴの多孔体の初期の例である。
CoDAはまた、スケルトンツリーの間違った部分を識別し、これらのエラーを迅速に修正するツールを提供することで、証明読影とエラー訂正ツールとしても機能する。
最終骨格樹は、その個体発生や枝分かれパターンを含む、他の方法では得られなかったカリス/コルライトの事例に関する追加情報(サンゴコロニーの形態に関する完全に定量的な統計分析の基礎)を導出することを可能にする。
CoDAの一部としてCoDAGraphがある。これは、抽出された特徴とスケルトンツリーの2Dグラフレイアウトを視覚化するための機能豊富なリンク・アンド・ブラシユーザインターフェースで、複雑なサンゴコロニーとそのビルディングブロック、個々のサンゴライトとブランチをリアルタイムに探索することができる。
将来、CoDAは、異なる種や形態の大型スズメサンゴや他のデンドロイド構造の分析を大いに促進し、遺伝学的および環境学的要因が個体発生形態形成に与える影響について新たな洞察を得られることを期待している。
Herein, we present CoDA, the Coral Dendroid structure Analyzer, a visual analytics suite that allows for the first time to investigate the ontogenetic morphological development of complex dendroid coral colonies, exemplified on three important framework-forming dendroid cold-water corals: Lophelia pertusa (Linnaeus, 1758), Madrepora oculata (Linnaeus, 1758), and Goniocorella dumosa (Alcock, 1902). Input to CoDA is an initial instance segmentation of the coral polyp cavities (calices), from which it estimates the skeleton tree of the colony and extracts classical morphological measurements and advanced shape features of the individual corallites. CoDA also works as a proofreading and error correction tool by helping to identify wrong parts in the skeleton tree and providing tools to quickly correct these errors. The final skeleton tree enables the derivation of additional information about the calices/corallite instances that otherwise could not be obtained, including their ontogenetic generation and branching patterns - the basis of a fully quantitative statistical analysis of the coral colony morphology. Part of CoDA is CoDAGraph, a feature-rich link-and-brush user interface for visualizing the extracted features and 2D graph layouts of the skeleton tree, enabling the real-time exploration of complex coral colonies and their building blocks, the individual corallites and branches. In the future, we expect CoDA to greatly facilitate the analysis of large stony corals of different species and morphotypes, as well as other dendroid structures, enabling new insights into the influence of genetic and environmental factors on their ontogenetic morphological development. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# PlaMo:リッチな3D物理環境の計画と動き
PlaMo: Plan and Move in Rich 3D Physical Environments ( http://arxiv.org/abs/2406.18237v1 ) ライセンス: Link先を確認 | Assaf Hallak, Gal Dalal, Chen Tessler, Kelly Guo, Shie Mannor, Gal Chechik, | (参考訳) 複雑な物理的にシミュレートされた世界におけるヒューマノイドの制御は、ゲーム、シミュレーション、視覚コンテンツ作成における多くの応用において長年の課題である。
我々の設定では、リッチで複雑な3Dシーンを前提として、ユーザはターゲット位置と移動タイプからなる命令のリストを提供する。
この課題を解決するために、シーン認識パスプランナとロバストな物理ベースのコントローラであるPlaMoを紹介する。
経路プランナーは、場所、高さ、速度など、シーンが動きに課す様々な制限を考慮して、一連の動き経路を生成する。
プランナーを補完し、我々の制御ポリシーは計画に忠実なリッチでリアルな物理運動を生成する。
両モジュールの組み合わせによって,環境のリアルタイムな変化に対応しながら,多様な形態で複雑な景観をトラバースできることを示す。
ビデオ: https://youtu.be/wWlqSQlRZ9M
Controlling humanoids in complex physically simulated worlds is a long-standing challenge with numerous applications in gaming, simulation, and visual content creation. In our setup, given a rich and complex 3D scene, the user provides a list of instructions composed of target locations and locomotion types. To solve this task we present PlaMo, a scene-aware path planner and a robust physics-based controller. The path planner produces a sequence of motion paths, considering the various limitations the scene imposes on the motion, such as location, height, and speed. Complementing the planner, our control policy generates rich and realistic physical motion adhering to the plan. We demonstrate how the combination of both modules enables traversing complex landscapes in diverse forms while responding to real-time changes in the environment. Video: https://youtu.be/wWlqSQlRZ9M . | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# ゼロショットプロンプトに基づく分類:ドイツのつぶやきの基盤モデルにおけるトピックラベリング
Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets ( http://arxiv.org/abs/2406.18239v1 ) ライセンス: Link先を確認 | Simon Münker, Kai Kugler, Achim Rettinger, | (参考訳) テキストデータのフィルタリングと注釈付けは、ソーシャルメディアやニュース分析など、多くの分野で日常的なタスクである。
これらのタスクの自動化は、分析をwrtにスケールすることができる。
スピードとコンテンツの幅がカバーされ 手作業の労力が減ります
自然言語処理の技術的進歩、特に大規模な基盤モデルの成功により、トレーニングサンプルを提供することなく、記述されたガイドラインをテキスト・トゥ・テキスト・インタフェースで自動化する新たなツールが利用可能になった。
本研究では、ドイツにおける社会と政治の危機に関するTwitterデータに対するアノテーションタスクを経験的にテストすることで、これらの進歩を評価する。
提案手法は,ヒトのアノテーションと従来の分類手法,例えばNie BayesやBERTベースの微調整/ドメイン適応パイプラインとを比較した。
提案手法は,モデル選択時に局所的な計算資源に制限されているにもかかわらず,注釈付きトレーニングデータを持たない細調整BERTと同等であることを示す。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
Filtering and annotating textual data are routine tasks in many areas, like social media or news analytics. Automating these tasks allows to scale the analyses wrt. speed and breadth of content covered and decreases the manual effort required. Due to technical advancements in Natural Language Processing, specifically the success of large foundation models, a new tool for automating such annotation processes by using a text-to-text interface given written guidelines without providing training samples has become available. In this work, we assess these advancements in-the-wild by empirically testing them in an annotation task on German Twitter data about social and political European crises. We compare the prompt-based results with our human annotation and preceding classification approaches, including Naive Bayes and a BERT-based fine-tuning/domain adaptation pipeline. Our results show that the prompt-based approach - despite being limited by local computation resources during the model selection - is comparable with the fine-tuned BERT but without any annotated training data. Our findings emphasize the ongoing paradigm shift in the NLP landscape, i.e., the unification of downstream tasks and elimination of the need for pre-labeled training data. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# 基底細胞癌診断における一致 : 人工知能ツールの訓練のための適切な基礎的真理の構築
Concordance in basal cell carcinoma diagnosis. Building a proper ground truth to train Artificial Intelligence tools ( http://arxiv.org/abs/2406.18240v1 ) ライセンス: Link先を確認 | Francisca Silva-Clavería, Carmen Serrano, Iván Matas, Amalia Serrano, Tomás Toledo-Pastrana, David Moreno-Ramírez, Begoña Acha, | (参考訳) 背景: 異なる基底細胞癌 (BCC) の診断基準は客観的に検証できない。
皮膚内視鏡的特徴を提供することでBCCの診断を説明する人工知能(AI)ツールを訓練するには、十分な地道が必要とされる。
目的:204BCCの皮膚内視鏡的基準に基づく皮膚科医間のコンセンサスを決定すること。
接地構造が推定された場合、AIツールの性能を分析する。
方法: 皮膚科医4名による皮膚内視鏡検査基準の一致を分析し, 基準基準を導出するために, 単一の中心的, 診断的および予測的研究を行った。
1434年、最初の健康診断医によって撮影され、皮膚科医によって送信され、皮膚科医によって診断された。
テレダーマトロジープラットフォーム(2019-2021)からランダムに選択された。
そのうち204人はAIツールでテストされ、残りはそれを訓練した。
4人の皮膚科医のコンセンサスから統計的に推定された1人の皮膚科医の地上構造と地上構造を用いて訓練したAIツールの性能を,マクネマール試験とハミング距離を用いて分析した。
結果: 皮膚科医はBCC (Fleiss-Kappa=0.9079) の診断において完全一致し, 生検 (PPV=0.9670) と高い相関を示した。
しかし、いくつかの皮膚内視鏡的基準を検出することにはあまり一致しない。
4人の皮膚科医のコンセンサスから統計的に推測し, 1人の皮膚科医のグラウンド・トゥルースを用いて訓練したAIツールのパフォーマンスに統計的差異が認められた。
結論: 病変に存在するBCCパターンを決定するために、AIツールをトレーニングする際には、注意が必要である。
複数の皮膚科医から地道を確立しなければならない。
Background: The existence of different basal cell carcinoma (BCC) clinical criteria cannot be objectively validated. An adequate ground-truth is needed to train an artificial intelligence (AI) tool that explains the BCC diagnosis by providing its dermoscopic features. Objectives: To determine the consensus among dermatologists on dermoscopic criteria of 204 BCC. To analyze the performance of an AI tool when the ground-truth is inferred. Methods: A single center, diagnostic and prospective study was conducted to analyze the agreement in dermoscopic criteria by four dermatologists and then derive a reference standard. 1434 dermoscopic images have been used, that were taken by a primary health physician, sent via teledermatology, and diagnosed by a dermatologist. They were randomly selected from the teledermatology platform (2019-2021). 204 of them were tested with an AI tool; the remainder trained it. The performance of the AI tool trained using the ground-truth of one dermatologist versus the ground-truth statistically inferred from the consensus of four dermatologists was analyzed using McNemar's test and Hamming distance. Results: Dermatologists achieve perfect agreement in the diagnosis of BCC (Fleiss-Kappa=0.9079), and a high correlation with the biopsy (PPV=0.9670). However, there is low agreement in detecting some dermoscopic criteria. Statistical differences were found in the performance of the AI tool trained using the ground-truth of one dermatologist versus the ground-truth statistically inferred from the consensus of four dermatologists. Conclusions: Care should be taken when training an AI tool to determine the BCC patterns present in a lesion. Ground-truth should be established from multiple dermatologists. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# ConStyle v2:オールインワン画像復元のための強力なプロンプタ
ConStyle v2: A Strong Prompter for All-in-One Image Restoration ( http://arxiv.org/abs/2406.18242v1 ) ライセンス: Link先を確認 | Dongqi Fan, Junhao Zhang, Liang Chang, | (参考訳) 本稿では,クリーンな視覚的プロンプトを出力し,U-Net画像復元モデルを支援する強力なプラグアンドプレイプロンプトであるConStyle v2を紹介する。
ConStyleと一般的な修復ネットワークからなる画像復元フレームワークであるIRConStyleの合同トレーニングプロセスは、まず、事前トレーニングのConStyle単独と、その重量を凍結して一般的な修復ネットワークのトレーニングをガイドする2つの段階に分けられる。
事前訓練の段階では、教師なしの事前訓練、プレテキストタスクの追加(分類)、知識蒸留の導入の3つの改善が提案されている。
ベルとホイッスルがなければ、オールインワン画像復元の強力なプロンプトであるConStyle v2を2日以内のGPUで入手でき、微調整も不要です。
Restormer(トランスフォーマーベース)、NAFNet(CNNベース)、MAXIM-1S(MLPベース)、バニラCNNネットワークに関する大規模な実験により、ConStyle v2が任意のU-Netスタイルの画像復元モデルをオールインワン画像復元モデルに拡張できることが証明された。
さらに、よく訓練されたConStyle v2でガイドされたモデルは、ConStyleと比較して特定の劣化において優れた性能を示す。
This paper introduces ConStyle v2, a strong plug-and-play prompter designed to output clean visual prompts and assist U-Net Image Restoration models in handling multiple degradations. The joint training process of IRConStyle, an Image Restoration framework consisting of ConStyle and a general restoration network, is divided into two stages: first, pre-training ConStyle alone, and then freezing its weights to guide the training of the general restoration network. Three improvements are proposed in the pre-training stage to train ConStyle: unsupervised pre-training, adding a pretext task (i.e. classification), and adopting knowledge distillation. Without bells and whistles, we can get ConStyle v2, a strong prompter for all-in-one Image Restoration, in less than two GPU days and doesn't require any fine-tuning. Extensive experiments on Restormer (transformer-based), NAFNet (CNN-based), MAXIM-1S (MLP-based), and a vanilla CNN network demonstrate that ConStyle v2 can enhance any U-Net style Image Restoration models to all-in-one Image Restoration models. Furthermore, models guided by the well-trained ConStyle v2 exhibit superior performance in some specific degradation compared to ConStyle. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# 弱リワードモデルによる生成モデルからロバスト因果イベント抽出システムへの変換
Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems ( http://arxiv.org/abs/2406.18245v1 ) ライセンス: Link先を確認 | Italo Luis da Silva, Hanqi Yan, Lin Gui, Yulan He, | (参考訳) 原因と効果の境界の本来の曖昧さは、因果イベント抽出タスクを評価する上での課題となる。
Exact MatchやBertScoreといった従来のメトリクスはモデルのパフォーマンスをあまり反映していません。
我々は、強化学習を抽出モデルを用いて実行し、人間の嗜好と整合させ、意味的理解を優先した。
我々は、人間の注釈付きデータへの依存を減らす方法として、あるデータセットでトレーニングされた評価器を別のデータセットに転送することを含む、複数のデータセットを通して、我々のアプローチをうまく探索した。
そこで本研究では,RLモデルのトレーニングにおいて高い性能を保ちながら,アノテートされたデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。
我々のコードは \url{https://github.com/oyarsa/event_extraction/tree/causal-event-extraction} で利用可能です。
The inherent ambiguity of cause and effect boundaries poses a challenge in evaluating causal event extraction tasks. Traditional metrics like Exact Match and BertScore poorly reflect model performance, so we trained evaluation models to approximate human evaluation, achieving high agreement. We used them to perform Reinforcement Learning with extraction models to align them with human preference, prioritising semantic understanding. We successfully explored our approach through multiple datasets, including transferring an evaluator trained on one dataset to another as a way to decrease the reliance on human-annotated data. In that vein, we also propose a weak-to-strong supervision method that uses a fraction of the annotated data to train an evaluation model while still achieving high performance in training an RL model. Our code is available at \url{https://github.com/oyarsa/event_extraction/tree/causal-event-extraction}. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# 眼科領域における創発的人工知能 : 畳み込みニューラルネットワークを用いたアルツハイマー病診断のための多モード網膜画像
Generative artificial intelligence in ophthalmology: multimodal retinal images for the diagnosis of Alzheimer's disease with convolutional neural networks ( http://arxiv.org/abs/2406.18247v1 ) ライセンス: Link先を確認 | I. R. Slootweg, M. Thach, K. R. Curro-Tafili, F. D. Verbraak, F. H. Bouwman, Y. A. L. Pijnenburg, J. F. Boer, J. H. P. de Kwisthout, L. Bagheriye, P. J. González, | (参考訳) バックグラウンド/テーマ。
本研究の目的は,マルチモーダル網膜イメージングと畳み込みニューラルネットワーク(CNN)を用いたアミロイドポジトロントモグラフィ(AmyloidPET)の評価と,合成データによる事前トレーニングによる性能向上である。
メソッド。
アミロイドPET陽性59例,アミロイドPET陰性108例の眼328例の眼底自家蛍光,光コヒーレンス断層撮影 (OCT) , OCTアンギオグラフィー画像を用いて分類を行った。
Denoising Diffusion Probabilistic Models (DDPMs) は合成画像を生成するために訓練され、合成データで事前訓練され、実際のデータで微調整されたり、実際のデータでのみ訓練された。
4つのCNNの予測と患者のメタデータを組み合わせたマルチモーダル分類器を開発した。
ユニモーダル分類器のクラスアクティベーションマップは、入力に対するネットワークの注意についての洞察を提供した。
結果。
DDPMは記憶のない多様なリアルな画像を生成する。
合成データによる単調CNNの事前訓練により、AUPRは0.350から0.579に改善した。
マルチモーダルCNNにおけるメタデータの統合により、AUPRは0.486から0.634に改善された。
クラスアクティベーションマップでは、ADと相関した関連網膜領域が強調された。
結論。
合成データの生成と利用には,多モード網膜イメージングによるアミロイドPET予測の改善が期待できる。
DDPMは、現実的でユニークな多モード合成網膜画像を生成することができる。
しかし, 合成データによる事前学習は, 4つのモードのうち2つの分類性能をわずかに改善した。
Background/Aim. This study aims to predict Amyloid Positron Emission Tomography (AmyloidPET) status with multimodal retinal imaging and convolutional neural networks (CNNs) and to improve the performance through pretraining with synthetic data. Methods. Fundus autofluorescence, optical coherence tomography (OCT), and OCT angiography images from 328 eyes of 59 AmyloidPET positive subjects and 108 AmyloidPET negative subjects were used for classification. Denoising Diffusion Probabilistic Models (DDPMs) were trained to generate synthetic images and unimodal CNNs were pretrained on synthetic data and finetuned on real data or trained solely on real data. Multimodal classifiers were developed to combine predictions of the four unimodal CNNs with patient metadata. Class activation maps of the unimodal classifiers provided insight into the network's attention to inputs. Results. DDPMs generated diverse, realistic images without memorization. Pretraining unimodal CNNs with synthetic data improved AUPR at most from 0.350 to 0.579. Integration of metadata in multimodal CNNs improved AUPR from 0.486 to 0.634, which was the best overall best classifier. Class activation maps highlighted relevant retinal regions which correlated with AD. Conclusion. Our method for generating and leveraging synthetic data has the potential to improve AmyloidPET prediction from multimodal retinal imaging. A DDPM can generate realistic and unique multimodal synthetic retinal images. Our best performing unimodal and multimodal classifiers were not pretrained on synthetic data, however pretraining with synthetic data slightly improved classification performance for two out of the four modalities. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# 病理・内視鏡画像の基礎モデル:胃炎症への応用
Foundational Models for Pathology and Endoscopy Images: Application for Gastric Inflammation ( http://arxiv.org/abs/2406.18249v1 ) ライセンス: Link先を確認 | Hamideh Kerdegari, Kyle Higgins, Dennis Veselkov, Ivan Laponogov, Inese Polaka, Miguel Coimbra, Junior Andrea Pescino, Marcis Leja, Mario Dinis-Ribeiro, Tania Fleitas Kanonnikoff, Kirill Veselkov, | (参考訳) 医学診断における人工知能(AI)の統合は, 上部消化管癌 (GI) 管理における重要な進歩であり, 世界的がん死亡の主な原因である。
特に胃癌(GC)では、慢性炎症は萎縮、腸内転移(IM)、異形成、最終的には癌などの粘膜に変化を引き起こす。
内視鏡的定期監視による早期発見は、より良い結果を得るために不可欠である。
ファンデーションモデル(FM)は、多様なデータに基づいて訓練され、幅広いユースケースに適用可能な機械学習モデルまたはディープラーニングモデルであり、内視鏡の精度とその後の病理画像解析の精度を高めるための有望なソリューションを提供する。
本総説では, 内視鏡および病理画像診断におけるFMの最近の進歩, 応用, 課題について述べる。
まず、これらのモデルの根底にある中核となる原則とアーキテクチャを解明し、トレーニング方法論と予測能力開発における大規模データの役割を解明しました。
さらに,マルチモーダルデータの統合,より堅牢で公平なモデルの開発,リアルタイム診断支援の可能性など,新たな動向と今後の研究方向性について論じる。
本総説は,GC症例の予防・管理に関する臨床実践にFMを取り入れることの複雑さをナビゲートする上で,研究者や実践者にとってのロードマップを提供することを目的としている。
The integration of artificial intelligence (AI) in medical diagnostics represents a significant advancement in managing upper gastrointestinal (GI) cancer, a major cause of global cancer mortality. Specifically for gastric cancer (GC), chronic inflammation causes changes in the mucosa such as atrophy, intestinal metaplasia (IM), dysplasia and ultimately cancer. Early detection through endoscopic regular surveillance is essential for better outcomes. Foundation models (FM), which are machine or deep learning models trained on diverse data and applicable to broad use cases, offer a promising solution to enhance the accuracy of endoscopy and its subsequent pathology image analysis. This review explores the recent advancements, applications, and challenges associated with FM in endoscopy and pathology imaging. We started by elucidating the core principles and architectures underlying these models, including their training methodologies and the pivotal role of large-scale data in developing their predictive capabilities. Moreover, this work discusses emerging trends and future research directions, emphasizing the integration of multimodal data, the development of more robust and equitable models, and the potential for real-time diagnostic support. This review aims to provide a roadmap for researchers and practitioners in navigating the complexities of incorporating FM into clinical practice for prevention/management of GC cases, thereby improving patient outcomes. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# VQAにおける視覚的接地の役割について
On the Role of Visual Grounding in VQA ( http://arxiv.org/abs/2406.18253v1 ) ライセンス: Link先を確認 | Daniel Reich, Tanja Schultz, | (参考訳) VQAの視覚的グラウンド(VG)とは、質問関連画像領域に基づいて回答を推測するモデルの確率のことである。
概念的には、VGはVQAタスクの公理要求である。
しかし実際には、DNNベースのVQAモデルは、標準ベンチマークで明らかなパフォーマンス損失を被ることなく、ショートカット(SC)学習によってVGをバイパスしたことで悪名高い。
SC学習の影響を明らかにするために、低精度でVGの欠如を露呈するアウト・オブ・ディストリビューション(OOD)テストが提案されている。
これらの試験はその後VG研究の中心となり、VGの精度への影響に関する様々な調査の基礎となった。
しかしながら、VQAにおけるVGの役割は、まだ完全には理解されておらず、まだ適切に形式化されていない。
本稿では,VQAにおけるVGの役割を概念レベルで定式化し,その役割を明らかにすることを目的とする。
本稿では、VGとReasoningの概念を用いて、理想的なOODテストにおけるVQA推論を記述する新しい理論フレームワーク"Visually Grounded Reasoning"(VGR)を提案する。
VQAにおけるVGの役割に関する基本的な知見を統合することで、VGRはOODテストにおけるVG関連SCの活用を明らかにするのに役立ち、VGとOODの精度の関係は定義が困難であった理由を説明する。
最後に、VGの要件を適切に強調するOODテストを作成するためのアプローチを提案し、その性能を改善する方法を示す。
Visual Grounding (VG) in VQA refers to a model's proclivity to infer answers based on question-relevant image regions. Conceptually, VG identifies as an axiomatic requirement of the VQA task. In practice, however, DNN-based VQA models are notorious for bypassing VG by way of shortcut (SC) learning without suffering obvious performance losses in standard benchmarks. To uncover the impact of SC learning, Out-of-Distribution (OOD) tests have been proposed that expose a lack of VG with low accuracy. These tests have since been at the center of VG research and served as basis for various investigations into VG's impact on accuracy. However, the role of VG in VQA still remains not fully understood and has not yet been properly formalized. In this work, we seek to clarify VG's role in VQA by formalizing it on a conceptual level. We propose a novel theoretical framework called "Visually Grounded Reasoning" (VGR) that uses the concepts of VG and Reasoning to describe VQA inference in ideal OOD testing. By consolidating fundamental insights into VG's role in VQA, VGR helps to reveal rampant VG-related SC exploitation in OOD testing, which explains why the relationship between VG and OOD accuracy has been difficult to define. Finally, we propose an approach to create OOD tests that properly emphasize a requirement for VG, and show how to improve performance on them. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# 1対Kのコントラスト学習による言語横断検索における一貫性の向上
Improving the Consistency in Cross-Lingual Cross-Modal Retrieval with 1-to-K Contrastive Learning ( http://arxiv.org/abs/2406.18254v1 ) ライセンス: Link先を確認 | Zhijie Nie, Richong Zhang, Zhangchi Feng, Hailang Huang, Xudong Liu, | (参考訳) CCR(Cross-lingual Cross-modal Retrieval)は,モダリティと言語の間の障壁を同時に破壊し,複数言語シナリオにおける画像テキスト検索を単一モデルで実現することを目的として,Web検索において不可欠なタスクである。
近年,多言語横断型モーダル事前学習による優れた進歩が見られ,特に大規模データに対するコントラスト学習に基づく手法では,検索作業が大幅に改善されている。
しかし、これらの手法は、クロスランガルドメインやクロスモーダルドメインの既存の事前学習手法に直接従い、CCRにおける2つの不整合の問題をもたらす: クロスランガルスタイルの手法は、モーダル内エラーの伝搬に悩まされ、データセット全体の言語間での一貫性のないリコール性能をもたらす。
クロスモーダルなスタイルのメソッドは、モーダル間の最適化方向バイアスに悩まされ、結果として各インスタンス内の言語間で一貫性のないランクとなり、Recall@Kでは反映できない。
これらの問題を解決するために,各言語を等しく扱い,誤りの伝播や最適化バイアスを排除した,シンプルで効果的な1対Kのコントラスト学習法を提案する。
さらに,各インスタンス内の言語間でのランクの不整合を反映する評価指標として,平均ランク変動(MRV)を提案する。
4つのCCRデータセットの大規模な実験により、我々の手法はより小規模な事前学習データを用いてリコール率とMRVの両方を改善し、新しい最先端技術を実現する。
Cross-lingual Cross-modal Retrieval (CCR) is an essential task in web search, which aims to break the barriers between modality and language simultaneously and achieves image-text retrieval in the multi-lingual scenario with a single model. In recent years, excellent progress has been made based on cross-lingual cross-modal pre-training; particularly, the methods based on contrastive learning on large-scale data have significantly improved retrieval tasks. However, these methods directly follow the existing pre-training methods in the cross-lingual or cross-modal domain, leading to two problems of inconsistency in CCR: The methods with cross-lingual style suffer from the intra-modal error propagation, resulting in inconsistent recall performance across languages in the whole dataset. The methods with cross-modal style suffer from the inter-modal optimization direction bias, resulting in inconsistent rank across languages within each instance, which cannot be reflected by Recall@K. To solve these problems, we propose a simple but effective 1-to-K contrastive learning method, which treats each language equally and eliminates error propagation and optimization bias. In addition, we propose a new evaluation metric, Mean Rank Variance (MRV), to reflect the rank inconsistency across languages within each instance. Extensive experiments on four CCR datasets show that our method improves both recall rates and MRV with smaller-scale pre-trained data, achieving the new state-of-art. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# LLaMIPa: インクリメンタルな談話パーザ
LLaMIPa: An Incremental Discourse Parser ( http://arxiv.org/abs/2406.18256v1 ) ライセンス: Link先を確認 | Kate Thompson, Akshay Chaturvedi, Julie Hunter, Nicholas Asher, | (参考訳) 本稿では,SDRT方式のコーパスを微調整した大規模言語モデル(LLM)を用いた最初の談話解析実験を行う(Asher,1993; Asher and Lascarides, 2003)。
この結果、LLaMIPa(LLaMA Incremental Parser)は、会話コンテキストをより完全に活用することができ、エンコーダのみのモデルを使用して、談話単位の局所的、文脈に敏感な表現を提供するアプローチよりも大きなパフォーマンス向上をもたらす。
さらに、下流タスクにおける言論情報の最終的な活用に欠かせない言論データを漸進的に処理することが可能である。
This paper provides the first discourse parsing experiments with a large language model (LLM) finetuned on corpora annotated in the style of SDRT (Asher, 1993; Asher and Lascarides, 2003). The result is a discourse parser, LLaMIPa (LLaMA Incremental Parser), which is able to more fully exploit discourse context, leading to substantial performance gains over approaches that use encoder-only models to provide local, context-sensitive representations of discourse units. Furthermore, it is able to process discourse data incrementally, which is essential for the eventual use of discourse information in downstream tasks. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# フォトニックGHZ状態発生に及ぼす実験欠陥の影響
The Influence of Experimental Imperfections on Photonic GHZ State Generation ( http://arxiv.org/abs/2406.18257v1 ) ライセンス: Link先を確認 | Fabian Wiesner, Helen M. Chrzanowski, Gregor Pieplow, Tim Schröder, Anna Pappa, Janik Wolters, | (参考訳) 通信との直接互換性を含むフォトニック量子コンピューティングの利点は明らかであるが、損失や識別可能性などのいくつかの欠陥は、現在、実際の実装を制限している。
これらの不完全性は完全に排除される可能性は低いため、どちらが最も支配的であり、その存在下で何が達成可能かを調べることは有益である。
本研究では,光子損失,多光子項,光子識別性が,確立された核融合プロトコルによる光子3部GHZ状態の生成に与える影響について詳細に検討する。
実測パラメータを用いてSPDCおよび固体単光子源の生成過程をシミュレートし、不完全性の異なる種類が不完全性および生成成功確率に関して支配的であることを示す。
この結果から,光子源としての主要な欠陥は何か,そして近い将来にフォトニック量子コンピューティングを実装できるパラメータがどのようなものかが示唆された。
While the advantages of photonic quantum computing, including direct compatibility with communication, are apparent, several imperfections such as loss and distinguishability presently limit actual implementations. These imperfections are unlikely to be completely eliminated, and it is therefore beneficial to investigate which of these are the most dominant and what is achievable under their presence. In this work, we provide an in-depth investigation of the influence of photon loss, multi-photon terms and photon distinguishability on the generation of photonic 3-partite GHZ states via established fusion protocols. We simulate the generation process for SPDC and solid-state-based single-photon sources using realistic parameters and show that different types of imperfections are dominant with respect to the fidelity and generation success probability. Our results indicate what are the dominant imperfections for the different photon sources and in which parameter regimes we can hope to implement photonic quantum computing in the near future. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# サンバースト量子イジング電池
Sunburst quantum Ising battery ( http://arxiv.org/abs/2406.18258v1 ) ライセンス: Link先を確認 | Akash Mitra, Shashi C. L. Srivastava, | (参考訳) 我々は最近提案されたサンバースト量子イジングモデルにおいて、非常に小さな横磁場を持つ横イジング鎖と有限個の外部孤立量子ビットからなる2つの相互作用可能な可積分系からなるエネルギー伝達過程について検討した。
量子電池のこのモデルでは、電池と充電器の結合は、電池から抽出できる最大エネルギー量であるエルゴトロピーの最適化に利用できることを示す。
同時に、最大充電電力は結合強度とともに増大し、強い結合限界におけるエルゴトロピーと充電電力の同時最適化が可能となる。
さらに、エルゴトロピーと充電パワーは、充電器の初期状態とは独立であることを示す。
We study the energy transfer process in the recently proposed sunburst quantum Ising model, which consists of two interacting integrable systems: a transverse Ising chain with a very small transverse field and a finite number of external isolated qubits. We show that in this model of the quantum battery, coupling between the battery and charger can be used to optimize the ergotropy, which is the maximum amount of energy that can be extracted from the battery. At the same time, maximum charging power increases with the coupling strength, allowing for the simultaneous optimization of both ergotropy and charging power in the strong coupling limit. Furthermore, we show that both ergotropy and charging power are independent of the initial state of the charger. | 翻訳日:2024-06-27 13:49:09 公開日:2024-06-26 |
# 機械生成テキストの検出:「AI対人間」だけでなく、説明可能性も複雑に
Detecting Machine-Generated Texts: Not Just "AI vs Humans" and Explainability is Complicated ( http://arxiv.org/abs/2406.18259v1 ) ライセンス: Link先を確認 | Jiazhou Ji, Ruizhe Li, Shujun Li, Jie Guo, Weidong Qiu, Zheng Huang, Chiyu Chen, Xiaoyu Jiang, Xinru Lu, | (参考訳) LLMが急速に進歩するにつれて、オンラインや現実世界で見られるテキストの実際の著者権に関するリスクが増大する。
LLMで書かれたテキストを区別する作業は、機械と人間のあいまいさと重なり合う振る舞いによって複雑になる。
本稿では,人間とAIを区別する二項分類タスクとして,LLM生成テキスト検出の現在の実践に挑戦する。
そこで本研究では,新たな3つのテキスト分類手法を導入し,いずれの情報源に起因する可能性のあるテキストに対して"未決定"なカテゴリを追加するとともに,本カテゴリが,検出結果を日常ユーザにとってより説明しやすいものにする方法を理解する上で重要であることを示す。
この研究は、単に分類から機械が生成したテキストの説明へとパラダイムをシフトさせ、ユーザーに対して明確で理解可能な説明を提供するための検出器の必要性を強調した。
我々の研究は、様々なLLMと人間の著者のテキストからなる4つの新しいデータセットを作成することを含む。
新たなデータセットに基づいて、最も有効なSOTA検出方法を確認するためにバイナリ分類テストを行い、より難しいテキストを生成することができるSOTA LLMを特定した。
我々は,2つのトップパフォーマンスなLCMとヒトの著者によって生成されたテキストのデータセットを構築し,説明文で3つのアノテータに3つのアノテータラベルを作成するよう依頼した。
このデータセットは、3つの最高性能のSOTA検出器が新しい3次分類の文脈でどのように振る舞うかを調べるために使用された。
その結果、説明可能性の観点から「未決定」カテゴリーが要求される理由が浮き彫りになった。
さらに,3つの優れた検出器の説明可能性と人間の注釈装置の説明ノートの分析を行い,機械生成テキストの説明可能な検出の複雑さに関する知見を明らかにした。
最後に,説明力の向上による将来の検知システム開発のためのガイドラインを提案する。
As LLMs rapidly advance, increasing concerns arise regarding risks about actual authorship of texts we see online and in real world. The task of distinguishing LLM-authored texts is complicated by the nuanced and overlapping behaviors of both machines and humans. In this paper, we challenge the current practice of considering LLM-generated text detection a binary classification task of differentiating human from AI. Instead, we introduce a novel ternary text classification scheme, adding an "undecided" category for texts that could be attributed to either source, and we show that this new category is crucial to understand how to make the detection result more explainable to lay users. This research shifts the paradigm from merely classifying to explaining machine-generated texts, emphasizing need for detectors to provide clear and understandable explanations to users. Our study involves creating four new datasets comprised of texts from various LLMs and human authors. Based on new datasets, we performed binary classification tests to ascertain the most effective SOTA detection methods and identified SOTA LLMs capable of producing harder-to-detect texts. We constructed a new dataset of texts generated by two top-performing LLMs and human authors, and asked three human annotators to produce ternary labels with explanation notes. This dataset was used to investigate how three top-performing SOTA detectors behave in new ternary classification context. Our results highlight why "undecided" category is much needed from the viewpoint of explainability. Additionally, we conducted an analysis of explainability of the three best-performing detectors and the explanation notes of the human annotators, revealing insights about the complexity of explainable detection of machine-generated texts. Finally, we propose guidelines for developing future detection systems with improved explanatory power. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# GlucOS: 自動インスリンデリバリーのセキュリティ、正確性、単純性
GlucOS: Security, correctness, and simplicity for automated insulin delivery ( http://arxiv.org/abs/2406.18262v1 ) ライセンス: Link先を確認 | Hari Venugopalan, Shreyas Madhav Ambattur Vijayanand, Caleb Stanford, Stephanie Crossen, Samuel T. King, | (参考訳) 1型糖尿病(1 type 1 Diabetes、T1D)は、膵臓がインスリンを産生するのを止める代謝障害である。
補うために、合成インスリンを注入する。
自動インスリンデリバリーシステムと呼ばれるコンピュータシステムは、インスリンを自動的に注入する。
しかし、インスリンは危険なホルモンであり、インスリンが多すぎると数時間で人を殺すことができ、インスリンが少なければ数日で人を殺すことができる。
本稿では,GlucOSと呼ばれる新しい信頼性の高い自動インスリンデリバリーシステムの構築に挑戦する。
本設計では,実装をシンプルに保つために分離原則を適用し,システムの最重要部分を正すための形式的手法を用いて,悪意あるコンポーネントやシステムに対する攻撃に耐える新しいセキュリティ機構とポリシーを設計する。
GlucOSを用いた実世界利用を6カ月間報告した。
我々のデータは、この個人にとってMLベースのアルゴリズムが安全に動作し、T1Dを効果的に管理していることを示している。
また、シミュレーションを用いて21人の仮想人間上でシステムを実行し、我々のセキュリティと安全メカニズムにより、MLは代謝健康のコアT1Dを平均4.3倍改善できることを示す。
最後に、我々の安全と安全のメカニズムは、他の方法では死に至るであろう攻撃に直面した場合でも、T1Dに対する推奨の制御レベルを維持していることを示す。
GlucOSはオープンソースで、私たちのコードはGitHubから入手可能です。
Type 1 Diabetes (T1D) is a metabolic disorder where an individual's pancreas stops producing insulin. To compensate, they inject synthetic insulin. Computer systems, called automated insulin delivery systems, exist that inject insulin automatically. However, insulin is a dangerous hormone, where too much insulin can kill people in a matter of hours and too little insulin can kill people in a matter of days. In this paper, we take on the challenge of building a new trustworthy automated insulin delivery system, called GlucOS. In our design, we apply separation principles to keep our implementation simple, we use formal methods to prove correct the most critical parts of the system, and we design novel security mechanisms and policies to withstand malicious components and attacks on the system. We report on real world use for one individual for 6 months using GlucOS. Our data shows that for this individual, our ML-based algorithm runs safely and manages their T1D effectively. We also run our system on 21 virtual humans using simulations and show that our security and safety mechanisms enable ML to improve their core T1D measures of metabolic health by 4.3\% on average. Finally, we show that our security and safety mechanisms maintain recommended levels of control over T1D even in the face of active attacks that would have otherwise led to death. GlucOS is open source and our code is available on GitHub. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# 『フォルベシュティ・ロマーネテ』? : 英語教育によるルーマニア語LLMの教育の試み
"Vorbeşti Româneşte?" A Recipe to Train Powerful Romanian LLMs with English Instructions ( http://arxiv.org/abs/2406.18266v1 ) ライセンス: Link先を確認 | Mihai Masala, Denis C. Ilie-Ablachim, Alexandru Dima, Dragos Corlatescu, Miruna Zavelca, Ovio Olaru, Simina Terian-Dan, Andrei Terian-Dan, Marius Leordeanu, Horia Velicu, Marius Popescu, Mihai Dascalu, Traian Rebedea, | (参考訳) 近年、LLM(Large Language Models)は、様々なタスクにおいて、ほぼ人間のようなパフォーマンスを実現している。
一部のLSMは多言語データで訓練されているが、トレーニングデータの大部分は英語であり、英語のパフォーマンスは他の言語よりもはるかに優れている。
我々の知る限り、我々はルーマニア語用にカスタマイズされたオープンソースのLLMを収集し、翻訳し、訓練し、評価し、リリースしました。
我々は学術ベンチマーク、MT-Bench(マニュアル翻訳)、ルーマニア語に適応した専門的な歴史的、文化的、社会的なベンチマークを含む4つのカテゴリで手法を評価した。
我々は,RoLLMsの有用性と高い性能について,各ボードにまたがって最先端の結果を得ることによって論じる。
我々は、すべてのリソース(データ、トレーニング、評価コード、モデル)を公開して、ルーマニアのLCMの研究を支援し、奨励するとともに、他の低あるいは低リソースの言語に適した一般的なレシピを同時に作成します。
In recent years, Large Language Models (LLMs) have achieved almost human-like performance on various tasks. While some LLMs have been trained on multilingual data, most of the training data is in English; hence, their performance in English greatly exceeds other languages. To our knowledge, we are the first to collect and translate a large collection of texts, instructions, and benchmarks and train, evaluate, and release open-source LLMs tailored for Romanian. We evaluate our methods on four different categories, including academic benchmarks, MT-Bench (manually translated), and a professionally built historical, cultural, and social benchmark adapted to Romanian. We argue for the usefulness and high performance of RoLLMs by obtaining state-of-the-art results across the board. We publicly release all resources (i.e., data, training and evaluation code, models) to support and encourage research on Romanian LLMs while concurrently creating a generalizable recipe, adequate for other low or less-resourced languages. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# 紫外線および青色励起下での極低窒素空洞の電荷・スピンダイナミクスと不安定化
Charge and Spin Dynamics and Destabilization of Shallow Nitrogen-Vacancy Centers under UV and Blue Excitation ( http://arxiv.org/abs/2406.18272v1 ) ライセンス: Link先を確認 | Laura A. Völker, Konstantin Herb, Darin A. Merchant, Lorenzo Bechelli, Christian L. Degen, John M. Abendroth, | (参考訳) ダイヤモンド中の低窒素空孔(NV)中心は、近位分子におけるラジカル対の光生成など、単一の分子レベルで光化学反応を研究する特別な機会を提供する。
このような実験計画の前提条件は、光励起化学種に必要な短波長光にさらされたNV中心の電荷とスピンダイナミクスの詳細な理解である。
ここでは,445nm(青色)および375nm(UV)照明下での浅いNV中心の電荷とスピンのダイナミクスを測定し,解析する。
青色励起では,スピン初期化忠実度を緩やかに保存した電力依存型帯電状態の準備が観察された。
紫外線励起下では、パワー非依存の電荷状態の準備が行われ、スピン偏極は起こらない。
さらに、UVの長期曝露下でのNV中心の可逆的老化と、新しい電子トラップ状態の形成に起因するブルーレーザー励起を観察した。
この老化は電荷安定性とスピンコントラストを低下させ、NVセンシング性能に有害である。
青, 紫外励起による感度を実験的に測定し, 光生成ラジカル対を探索するためのNV中心の可能性と限界を評価し, センシング方式の設計規則を概説した。
Shallow nitrogen-vacancy (NV) centers in diamond offer unique opportunities for studying photochemical reactions at the single-molecule level, such as the photogeneration of radical pairs in proximal molecules. A prerequesite for such experimental schemes is the detailed understanding of the charge and spin dynamics of NV centers exposed to the short-wavelength light required for photoexciting chemical species. Here, we measure and analyze the charge and spin dynamics of shallow NV centers under 445 nm (blue) and 375 nm (UV) illumination. With blue excitation, we observe a power-dependent charge-state preparation accompanied by modest preservation of spin initialization fidelity. Under UV excitation, we find a power-independent charge-state preparation and no spin polarization. We further observe an irreversible aging of NV centers under prolonged exposure to UV, and to a lesser extent, blue laser excitation, which we attribute to formation of new electronic trap states. This aging manifests itself in a reduced charge stability and spin contrast, and is detrimental to the NV sensing performance. We evaluate the prospects and limitations of NV centers for probing photogenerated radical pairs based on experimentally measured sensitivities following blue and UV excitation, and outline the design rules for possible sensing schemes. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# サンスクリット知識ベースシステム:注釈と計算ツール
Sanskrit Knowledge-based Systems: Annotation and Computational Tools ( http://arxiv.org/abs/2406.18276v1 ) ライセンス: Link先を確認 | Hrishikesh Terdalkar, | (参考訳) 我々は,サンスクリットにおける知識システム開発における課題と機会に対処し,質問応答に焦点をあてる。
知識グラフの自動構築のためのフレームワークを提案し,オントロジー駆動および汎用タスクのためのアノテーションツールを導入し,Webインターフェース,ツール,ソフトウェアライブラリの多種多様なコレクションを提供することで,計算サンスクリットの分野に多大な貢献をした。
これらの貢献は、サンスクリットのテキスト分析のアクセシビリティと精度を高めるだけでなく、知識表現と言語処理のさらなる進歩の道を開いた。
最終的に、この研究はサンスクリット語文に具現化された豊かな言語情報の保存、理解、活用に寄与する。
We address the challenges and opportunities in the development of knowledge systems for Sanskrit, with a focus on question answering. By proposing a framework for the automated construction of knowledge graphs, introducing annotation tools for ontology-driven and general-purpose tasks, and offering a diverse collection of web-interfaces, tools, and software libraries, we have made significant contributions to the field of computational Sanskrit. These contributions not only enhance the accessibility and accuracy of Sanskrit text analysis but also pave the way for further advancements in knowledge representation and language processing. Ultimately, this research contributes to the preservation, understanding, and utilization of the rich linguistic information embodied in Sanskrit texts. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# 一般化されたディープフェイク属性
Generalized Deepfake Attribution ( http://arxiv.org/abs/2406.18278v1 ) ライセンス: Link先を確認 | Sowdagar Mahammad Shahid, Sudev Kumar Padhi, Umesh Kashyap, Sk. Subidh Ali, | (参考訳) 偽メディア作成の状況は、GAN(Generative Adversarial Networks)の導入によって変化した。
フェイクメディアの創造は、世代技術の急速な進歩と共に増加しており、フェイクメディアの検出における新たな課題につながっている。
GAN sの基本的な特徴は、種子として知られるパラメータ初期化に対する感受性である。
トレーニングで使用するそれぞれの異なるシードは、ユニークなモデルインスタンスの作成につながる。
つまり、GANアーキテクチャが1つあるとしても、使用するシードによって、数え切れないほど異なるGANモデルを生成することができるのです。
既存のディープフェイクの帰属方法は、トレーニング中に特定のGANモデルを見た場合にのみうまく機能する。
GANアーキテクチャが別のシードで再トレーニングされる場合、これらのメソッドはフェイクを属性付けするのに苦労する。
このシード依存性の問題により、既存のメソッドによるディープフェイクの属性付けが困難になった。
我々は,GANアーキテクチャの再訓練版(クロスシード)や既存のGANモデルの微調整版から生成したものであっても,偽画像をそれぞれのGANアーキテクチャに属性付けるための一般化されたディープフェイク属性ネットワーク(GDA-N et)を提案した。
GANモデルのクロスシードおよび微調整データに対する大規模な実験により,本手法は既存手法と比較して極めて有効であることが示された。
結果を検証するためのソースコードを提供しました。
The landscape of fake media creation changed with the introduction of Generative Adversarial Networks (GAN s). Fake media creation has been on the rise with the rapid advances in generation technology, leading to new challenges in Detecting fake media. A fundamental characteristic of GAN s is their sensitivity to parameter initialization, known as seeds. Each distinct seed utilized during training leads to the creation of unique model instances, resulting in divergent image outputs despite employing the same architecture. This means that even if we have one GAN architecture, it can produce countless variations of GAN models depending on the seed used. Existing methods for attributing deepfakes work well only if they have seen the specific GAN model during training. If the GAN architectures are retrained with a different seed, these methods struggle to attribute the fakes. This seed dependency issue made it difficult to attribute deepfakes with existing methods. We proposed a generalized deepfake attribution network (GDA-N et) to attribute fake images to their respective GAN architectures, even if they are generated from a retrained version of the GAN architecture with a different seed (cross-seed) or from the fine-tuned version of the existing GAN model. Extensive experiments on cross-seed and fine-tuned data of GAN models show that our method is highly effective compared to existing methods. We have provided the source code to validate our results. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# CAS:EOデータのセマンティックセグメンテーションのための分類アルゴリズムの信頼性評価
CAS: Confidence Assessments of classification algorithms for Semantic segmentation of EO data ( http://arxiv.org/abs/2406.18279v1 ) ライセンス: Link先を確認 | Nikolaos Dionelis, Nicolas Longepe, | (参考訳) リモートセンシングにおけるセマンティックセグメンテーションアルゴリズムの信頼性評価が重要である。
モデルが誤った出力を生成するかどうかを事前に知ることは、モデルの望ましい性質である。
地球観測(EO)における分類作業のモデル推定に割り当てられた信頼度の評価は、セマンティックセグメンテーション性能の向上と、推測および展開中の高いエラー率の防止に使用できるため、重要である。
セマンティックセグメンテーション(CAS)モデルのための分類アルゴリズムの信頼性評価を行い、セグメントレベルと画素レベルの両方で信頼度評価を行い、ラベルと信頼度の両方を出力する。
この研究の結果は重要な応用がある。
主な応用は、セマンティックセグメンテーション下流タスク、特に衛星Copernicus Sentinel-2データを用いた土地被覆分類におけるEOファンデーションモデルの評価である。
評価の結果,提案モデルは有効であり,他の代替ベースラインモデルよりも優れていた。
Confidence assessments of semantic segmentation algorithms in remote sensing are important. It is a desirable property of models to a priori know if they produce an incorrect output. Evaluations of the confidence assigned to the estimates of models for the task of classification in Earth Observation (EO) are crucial as they can be used to achieve improved semantic segmentation performance and prevent high error rates during inference and deployment. The model we develop, the Confidence Assessments of classification algorithms for Semantic segmentation (CAS) model, performs confidence evaluations at both the segment and pixel levels, and outputs both labels and confidence. The outcome of this work has important applications. The main application is the evaluation of EO Foundation Models on semantic segmentation downstream tasks, in particular land cover classification using satellite Copernicus Sentinel-2 data. The evaluation shows that the proposed model is effective and outperforms other alternative baseline models. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# $n$-qubit並列化SWAPテストによる量子量列挙子探索
Exploring quantum weight enumerators from the $n$-qubit parallelized SWAP test ( http://arxiv.org/abs/2406.18280v1 ) ライセンス: Link先を確認 | Fei Shi, Kaiyi Guo, Xiande Zhang, Qi Zhao, | (参考訳) 量子ウェイト列挙器は、量子エラー訂正符号と多部絡みにおいて重要な役割を果たす。
量子誤り訂正符号と$k$-uniform状態の存在を調べるために使用できる。
本研究では,量子量列挙器と$n$-qubit並列化SWAPテストの接続を構築する。
それぞれのシャドウ列挙子は$n$-qubit並列化SWAPテストの確率に正確に対応し、シャドウ列挙子に対して計算可能かつ操作的意味を与える。
確率の非負性のため、影の不等式のエレガントな証明が得られる。
同時に、$n$-qubit並列化SWAPテストからShor-Laflamme列挙子とRainsユニタリ列挙子を計算することもできる。
アプリケーションでは、$n$-qubit並列化SWAPテストを用いて、量子誤り訂正符号の距離と純状態の$k$-uniformityを決定する。
本結果は,量子量列挙器を量子コンピュータ上で効率的に推定し,量子誤り訂正符号の距離を計算する経路を開くことを示唆している。
Quantum weight enumerators play a crucial role in quantum error-correcting codes and multipartite entanglement. They can be used to investigate the existence of quantum error-correcting codes and $k$-uniform states. In this work, we build the connection between quantum weight enumerators and the $n$-qubit parallelized SWAP test. We discover that each shadow enumerator corresponds precisely to a probability in the $n$-qubit parallelized SWAP test, providing a computable and operational meaning for the shadow enumerators. Due to the non-negativity of probabilities, we obtain an elegant proof for the shadow inequalities. Concurrently, we can also calculate the Shor-Laflamme enumerators and the Rains unitary enumerators from the $n$-qubit parallelized SWAP test. For applications, we employ the $n$-qubit parallelized SWAP test to determine the distances of quantum error-correcting codes, and the $k$-uniformity of pure states. Our results indicate that quantum weight enumerators can be efficiently estimated on quantum computers, and opening a path to calculate the distances of quantum error-correcting codes. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# RealTalk: 3D Facial pre-guided Identity Alignment Networkによるリアルタイム・リアルオーディオ駆動顔生成
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network ( http://arxiv.org/abs/2406.18284v1 ) ライセンス: Link先を確認 | Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang, | (参考訳) 人物生成型音声駆動顔生成はコンピュータビジョンにおいて難しい課題である。
従来の手法は音声と視覚の同期において顕著な進歩を遂げてきたが、現在の結果と実用的な応用の間には依然として大きなギャップがある。
課題は2つあります。
1) 高精度な唇同期を実現するために, 個々の特徴を個別に保存する。
2) リアルタイムな顔の描画における高品質な顔画像の生成
本稿では,音声から表現への変換と高忠実度表現から顔へのレンダラーからなる,新しい一般化された音声駆動フレームワークであるRealTalkを提案する。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
顔の重み付けにモーダルな注意を組み込むことで, 唇の動きを音声に効果的に合わせることができ, 表情予測の精度が向上する。
第2のコンポーネントでは、リップ形状制御構造と顔テクスチャ参照構造を含む軽量な顔識別アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
公開データセットにおける定量的および定性的な実験結果から,唇音声同期と生成品質の観点から,本手法の明確な利点が示された。
さらに,本手法は効率が高く,計算資源も少なく,実用アプリケーションのニーズを満たすのに適している。
Person-generic audio-driven face generation is a challenging task in computer vision. Previous methods have achieved remarkable progress in audio-visual synchronization, but there is still a significant gap between current results and practical applications. The challenges are two-fold: 1) Preserving unique individual traits for achieving high-precision lip synchronization. 2) Generating high-quality facial renderings in real-time performance. In this paper, we propose a novel generalized audio-driven framework RealTalk, which consists of an audio-to-expression transformer and a high-fidelity expression-to-face renderer. In the first component, we consider both identity and intra-personal variation features related to speaking lip movements. By incorporating cross-modal attention on the enriched facial priors, we can effectively align lip movements with audio, thus attaining greater precision in expression prediction. In the second component, we design a lightweight facial identity alignment (FIA) module which includes a lip-shape control structure and a face texture reference structure. This novel design allows us to generate fine details in real-time, without depending on sophisticated and inefficient feature alignment modules. Our experimental results, both quantitative and qualitative, on public datasets demonstrate the clear advantages of our method in terms of lip-speech synchronization and generation quality. Furthermore, our method is efficient and requires fewer computational resources, making it well-suited to meet the needs of practical applications. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# ハイパーパラメータの自動最適化と後向き形状の併用
Combining Automated Optimisation of Hyperparameters and Reward Shape ( http://arxiv.org/abs/2406.18293v1 ) ライセンス: Link先を確認 | Julian Dierkes, Emma Cramer, Holger H. Hoos, Sebastian Trimpe, | (参考訳) 近年, 深部強化学習(RL)の進歩が著しい。
それでも、適切なハイパーパラメータ構成と報酬関数の発見は専門家にとっても困難なままであり、パフォーマンスはこれらの設計選択に大きく依存している。
また、ほとんどのRL研究は、これらの選択に関する知識がすでに存在する既知のベンチマークで行われている。
しかし、新しい実用的応用は、良いハイパーパラメータや報酬関数に関する事前の知識が得られない複雑なタスクをしばしば生み出すため、スクラッチから導出する必要が生じる。
以前の研究では、ハイパーパラメータまたは報酬関数を個別に自動チューニングすることが検討されている。
我々は、RLアルゴリズムのハイパーパラメータ構成と報酬関数が互いに依存していることを実証的に示す。
次に,超パラメータの最適化と報酬関数の併用に関する方法論を提案する。
さらに,学習方針の安定性向上のための最適化目的として,分散ペナルティを含む。
我々は, 4つの環境において, 近接政策最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。
これらの結果から,組合せ最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境での競争性能も向上し,計算コストはわずかに増大した。
これは、組み合わせた最適化がベストプラクティスであることを示唆している。
There has been significant progress in deep reinforcement learning (RL) in recent years. Nevertheless, finding suitable hyperparameter configurations and reward functions remains challenging even for experts, and performance heavily relies on these design choices. Also, most RL research is conducted on known benchmarks where knowledge about these choices already exists. However, novel practical applications often pose complex tasks for which no prior knowledge about good hyperparameters and reward functions is available, thus necessitating their derivation from scratch. Prior work has examined automatically tuning either hyperparameters or reward functions individually. We demonstrate empirically that an RL algorithm's hyperparameter configurations and reward function are often mutually dependent, meaning neither can be fully optimised without appropriate values for the other. We then propose a methodology for the combined optimisation of hyperparameters and the reward function. Furthermore, we include a variance penalty as an optimisation objective to improve the stability of learned policies. We conducted extensive experiments using Proximal Policy Optimisation and Soft Actor-Critic on four environments. Our results show that combined optimisation significantly improves over baseline performance in half of the environments and achieves competitive performance in the others, with only a minor increase in computational costs. This suggests that combined optimisation should be best practice. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# 階層型コンテキストプルーニング - Repository-Level Pretrained Code LLMによる実世界のコード補完の最適化
Hierarchical Context Pruning: Optimizing Real-World Code Completion with Repository-Level Pretrained Code LLMs ( http://arxiv.org/abs/2406.18294v1 ) ライセンス: Link先を確認 | Lei Zhang, Yunshui Li, Jiaming Li, Xiaobo Xia, Jiaxi Yang, Run Luo, Minzheng Wang, Longze Chen, Junhao Liu, Min Yang, | (参考訳) 最近開発されたコード大言語モデル(Code LLM)はリポジトリレベルのコードデータ(Repo-Code LLM)で事前トレーニングされており、リポジトリ構造を認識し、コード補完にクロスファイル情報を利用することができる。
しかし、実際の開発シナリオでは、単にコードリポジトリ全体を結合するだけで、Repo-Code LLMのコンテキストウィンドウ限界を超え、パフォーマンスが大幅に低下する。
本研究では,6つのRepo-Code LLMの予備実験と解析を行った。
その結果、ファイルのトポロジ的依存関係を維持し、コンプリートプロンプトでコードファイルの内容を増やすことで、コンプリート精度が向上することが示唆された。
これらの知見に基づいて,高情報コードコンテンツを用いたコンプリートプロンプト構築のための階層型コンテキストプルーニング(HCP)という戦略を提案した。
HCPは関数レベルでコードリポジトリをモデル化し、コードファイル間のトポロジ的な依存関係を維持しながら、大量の無関係なコードコンテンツを取り除き、リポジトリレベルのコード補完の入力長を大幅に削減します。
その結果,提案手法は入力長を大幅に削減しつつ,完了精度を大幅に向上させることができることを示した。
私たちのコードとデータはhttps://github.com/Hambaobao/HCP-Coder.orgで公開されています。
Some recently developed code large language models (Code LLMs) have been pre-trained on repository-level code data (Repo-Code LLMs), enabling these models to recognize repository structures and utilize cross-file information for code completion. However, in real-world development scenarios, simply concatenating the entire code repository often exceeds the context window limits of these Repo-Code LLMs, leading to significant performance degradation. In this study, we conducted extensive preliminary experiments and analyses on six Repo-Code LLMs. The results indicate that maintaining the topological dependencies of files and increasing the code file content in the completion prompts can improve completion accuracy; pruning the specific implementations of functions in all dependent files does not significantly reduce the accuracy of completions. Based on these findings, we proposed a strategy named Hierarchical Context Pruning (HCP) to construct completion prompts with high informational code content. The HCP models the code repository at the function level, maintaining the topological dependencies between code files while removing a large amount of irrelevant code content, significantly reduces the input length for repository-level code completion. We applied the HCP strategy in experiments with six Repo-Code LLMs, and the results demonstrate that our proposed method can significantly enhance completion accuracy while substantially reducing the length of input. Our code and data are available at https://github.com/Hambaobao/HCP-Coder. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# 地球観測と地理空間AIのための基礎モデルの評価とベンチマーク
Evaluating and Benchmarking Foundation Models for Earth Observation and Geospatial AI ( http://arxiv.org/abs/2406.18295v1 ) ライセンス: Link先を確認 | Nikolaos Dionelis, Casper Fibaek, Luke Camilleri, Andreas Luyts, Jente Bosmans, Bertrand Le Saux, | (参考訳) 主にターゲットアプリケーションごとに所定の高パフォーマンスの精度でいくつかの問題を解決することに興味がある場合、ファンデーションモデルは問題固有のモデルではなく、ほとんどのケースで使用されるべきです。
我々は、地球観測のための基礎モデル(EO)と地理空間AIのコンピュータビジョン応用に焦点を当てた。
これらのモデルは,土地被覆分類,作物型マッピング,洪水セグメンテーション,建物密度推定,道路回帰セグメンテーションなど,私たちが取り組んでいる重要な問題を解決することができる。
本稿では,限られたラベル付きデータに対して,問題固有モデルと比較して,ファンデーションモデルにより性能が向上することを示す。
本稿では,EOのためのファンデーションモデルの評価ベンチマークも提案する。
ファンデーションモデルの一般化性能のベンチマークは、最近提案された多くの異なるモデル間での公正な比較の標準化が困難になっているため重要である。
本稿では,EO ファンデーションモデルの評価ベンチマークを用いて,下流タスクにおいて,ファンデーションモデルがラベル効率が高いことを示すとともに,EO とリモートセンシングの課題に対処する上で有効であることを示す。
When we are primarily interested in solving several problems jointly with a given prescribed high performance accuracy for each target application, then Foundation Models should for most cases be used rather than problem-specific models. We focus on the specific Computer Vision application of Foundation Models for Earth Observation (EO) and geospatial AI. These models can solve important problems we are tackling, including for example land cover classification, crop type mapping, flood segmentation, building density estimation, and road regression segmentation. In this paper, we show that for a limited number of labelled data, Foundation Models achieve improved performance compared to problem-specific models. In this work, we also present our proposed evaluation benchmark for Foundation Models for EO. Benchmarking the generalization performance of Foundation Models is important as it has become difficult to standardize a fair comparison across the many different models that have been proposed recently. We present the results using our evaluation benchmark for EO Foundation Models and show that Foundation Models are label efficient in the downstream tasks and help us solve problems we are tackling in EO and remote sensing. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# FactFinders at CheckThat! 2024: データプルーニングによるLLMによるチェック価値のあるステートメント検出の精錬
FactFinders at CheckThat! 2024: Refining Check-worthy Statement Detection with LLMs through Data Pruning ( http://arxiv.org/abs/2406.18297v1 ) ライセンス: Link先を確認 | Yufeng Li, Rrubaa Panchendrarajan, Arkaitz Zubiaga, | (参考訳) ソーシャルメディアやインターネットを通じての情報発信が急速に進んでいることは、事実チェックが大量の文から事実チェックを必要とする主張をフィルタリングするなど、事実チェックを行う上で重要な課題となっている。
この課題は、クレームの優先順位を決定すること、特にどのクレームが事実確認に値するかに焦点を当てることを強調している。
近年、この分野の進歩にもかかわらず、GPTのような大規模言語モデル(LLM)の適用は、最近になって研究に注目が集まっている。
しかし、多くのオープンソース LLM は未調査のままである。
そこで本研究では,8つの著名なオープンソースLCMを微調整・迅速な工学的手法を用いて,政治的書き起こしからチェック価値のある文章を識別する手法について検討した。
さらに,効率的な学習のために,高品質なトレーニングデータインスタンスを自動識別する2段階のデータプルーニング手法を提案する。
提案手法の有効性は,CheckThatのチェックしやすさ評価タスクの一環として,英語データセットの評価を通じて実証される。
2024年。
さらに,データプルーニングを用いて行った実験では,トレーニングデータの44.5%程度で,競争性能が達成できることが示されている。
私たちのチームは英語のチェック・マインドネス・タスクで1位にランクインした。
The rapid dissemination of information through social media and the Internet has posed a significant challenge for fact-checking, among others in identifying check-worthy claims that fact-checkers should pay attention to, i.e. filtering claims needing fact-checking from a large pool of sentences. This challenge has stressed the need to focus on determining the priority of claims, specifically which claims are worth to be fact-checked. Despite advancements in this area in recent years, the application of large language models (LLMs), such as GPT, has only recently drawn attention in studies. However, many open-source LLMs remain underexplored. Therefore, this study investigates the application of eight prominent open-source LLMs with fine-tuning and prompt engineering to identify check-worthy statements from political transcriptions. Further, we propose a two-step data pruning approach to automatically identify high-quality training data instances for effective learning. The efficiency of our approach is demonstrated through evaluations on the English language dataset as part of the check-worthiness estimation task of CheckThat! 2024. Further, the experiments conducted with data pruning demonstrate that competitive performance can be achieved with only about 44\% of the training data. Our team ranked first in the check-worthiness estimation task in the English language. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# MSR-86K:音声認識研究のための86,300時間符号付き音声の進化型多言語コーパス
MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research ( http://arxiv.org/abs/2406.18301v1 ) ライセンス: Link先を確認 | Song Li, Yongbin You, Xuezhi Wang, Zhengkun Tian, Ke Ding, Guanglu Wan, | (参考訳) 近年,ChatGPTに代表される多言語人工知能アシスタントが広く普及している。
人-コンピュータインタラクションの重要なゲートウェイとして、Whisperのようなシステムで証明されているように、多言語自動音声認識(ASR)も大きな注目を集めている。
しかし、トレーニングデータのプロプライエタリな性質は、多言語ASRの研究に研究者の努力を妨げている。
本稿では,音声認識研究のための大規模多言語コーパスであるMSR-86Kを紹介する。
コーパスは15の言語と86,300時間の転写されたASRデータからなるYouTube上の公開ビデオに由来する。
また、MSR-86Kコーパスや他のオープンソースコーパスを用いて、Whisperと競合する堅牢な多言語ASRモデルをトレーニングする方法についても紹介する。
MSR-86K は HuggingFace 上で公開され,多言語 ASR 研究のための新たな道が開かれると我々は信じている。
Recently, multilingual artificial intelligence assistants, exemplified by ChatGPT, have gained immense popularity. As a crucial gateway to human-computer interaction, multilingual automatic speech recognition (ASR) has also garnered significant attention, as evidenced by systems like Whisper. However, the proprietary nature of the training data has impeded researchers' efforts to study multilingual ASR. This paper introduces MSR-86K, an evolving, large-scale multilingual corpus for speech recognition research. The corpus is derived from publicly accessible videos on YouTube, comprising 15 languages and a total of 86,300 hours of transcribed ASR data. We also introduce how to use the MSR-86K corpus and other open-source corpora to train a robust multilingual ASR model that is competitive with Whisper. MSR-86K will be publicly released on HuggingFace, and we believe that such a large corpus will pave new avenues for research in multilingual ASR. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# S3: 単純ストロングサンプル有効マルチモーダルダイアログシステム
S3: A Simple Strong Sample-effective Multimodal Dialog System ( http://arxiv.org/abs/2406.18305v1 ) ライセンス: Link先を確認 | Elisei Rykov, Egor Malkershin, Alexander Panchenko, | (参考訳) 本稿では、MMMUとAI Journey Contest 2023という2つの魅力的なリーダーボード上で、最先端の成果をほぼ達成するマルチモーダルダイアログタスクであるS3モデルについて、概念的にシンプルながら強力なベースラインを示す。
このシステムは、訓練済みの大規模言語モデル、画像とオーディオのための訓練済みのモダリティエンコーダ、および訓練可能なモダリティプロジェクタに基づいている。
このようなアーキテクチャを訓練するために提案した効果的なデータ混合は、強力な言語モデルに基づくマルチモーダルモデルであり、少量のマルチモーダルデータに基づいて訓練されたマルチモーダルモデルが、マルチモーダルダイアログのタスクにおいて効率的に実行可能であることを示す。
In this work, we present a conceptually simple yet powerful baseline for the multimodal dialog task, an S3 model, that achieves near state-of-the-art results on two compelling leaderboards: MMMU and AI Journey Contest 2023. The system is based on a pre-trained large language model, pre-trained modality encoders for image and audio, and a trainable modality projector. The proposed effective data mixture for training such an architecture demonstrates that a multimodal model based on a strong language model and trained on a small amount of multimodal data can perform efficiently in the task of multimodal dialog. | 翻訳日:2024-06-27 13:39:16 公開日:2024-06-26 |
# 小児急性白血病診断のためのセットトランスフォーマーを用いた自動免疫フェノタイピング評価
Automated Immunophenotyping Assessment for Diagnosing Childhood Acute Leukemia using Set-Transformers ( http://arxiv.org/abs/2406.18309v1 ) ライセンス: Link先を確認 | Elpiniki Maria Lygizou, Michael Reiter, Margarita Maurer-Granofszky, Michael Dworzak, Radu Grosu, | (参考訳) 急性白血病は小児や青年期で最も一般的な血液悪性腫瘍である。
この悪性度を診断するための重要な手法は、多パラメータフローサイトメトリー(FCM)に基づく免疫フェノタイピングである。
しかし、このアプローチは手作業であり、そのため時間がかかり、主観的です。
本論文では,小児急性白血病における免疫フェノタイピング評価を自動化する機械学習・自己注意型FCM診断ツールであるFCM-Formerを提案する。
FCM-Formerは、フローサイトメトリーデータを直接使用することにより、教師付きで訓練される。
急性B細胞,T細胞リンパ芽球性白血病,急性骨髄性白血病(B-ALL,T-ALL,AML)の960例において,FCM-Formerは96.5%の精度でそれぞれの標本に系統を割り当てた。
我々の知る限り、FCM-Formerは小児急性白血病の診断において、FCMデータによる免疫フェノタイピング評価を自動化する最初の研究である。
Acute Leukemia is the most common hematologic malignancy in children and adolescents. A key methodology in the diagnostic evaluation of this malignancy is immunophenotyping based on Multiparameter Flow Cytometry (FCM). However, this approach is manual, and thus time-consuming and subjective. To alleviate this situation, we propose in this paper the FCM-Former, a machine learning, self-attention based FCM-diagnostic tool, automating the immunophenotyping assessment in Childhood Acute Leukemia. The FCM-Former is trained in a supervised manner, by directly using flow cytometric data. Our FCM-Former achieves an accuracy of 96.5% assigning lineage to each sample among 960 cases of either acute B-cell, T-cell lymphoblastic, and acute myeloid leukemia (B-ALL, T-ALL, AML). To the best of our knowledge, the FCM-Former is the first work that automates the immunophenotyping assessment with FCM data in diagnosing pediatric Acute Leukemia. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# 超解像解析のための時空間階層型強化学習
Spatial-temporal Hierarchical Reinforcement Learning for Interpretable Pathology Image Super-Resolution ( http://arxiv.org/abs/2406.18310v1 ) ライセンス: Link先を確認 | Wenting Chen, Jie Liu, Tommy W. S. Chow, Yixuan Yuan, | (参考訳) 病理画像は、細胞病理検査における病変細胞を正確に解釈するために必須であるが、高解像度のデジタルスライドを取得するには、特別な装置と長い走査時間が必要である。
超解像(SR)技術はこの問題を軽減することができるが、既存のディープラーニングモデルはブラックボックス方式で病理像を復元する。
さらに、現在の方法では、同じ計算資源を割り当てて、病理画像の各ピクセルを復元する。
本稿では,画像超解像問題における上記の問題に対処するために,空間的階層的階層的強化学習(Spatial-Temporal Hierarchical Reinforcement Learning, STAR-RL)と呼ばれる最初の階層的強化学習フレームワークを提案する。
我々は,SR問題を解釈操作のマルコフ決定プロセスとして再構成し,階層的回復機構をパッチレベルで適用し,準最適回復を回避する。
具体的には、より高レベルな空間マネージャを提案し、低レベルなパッチワーカーに対して最も破損したパッチを選択する。
さらに、高レベルの時間的マネージャが進み、選択したパッチを評価し、最適化を早期に停止すべきかどうかを判断し、オーバープロセスの問題を回避する。
空間的時間的マネージャの指導の下で、下層パッチワーカは、選択したパッチを各ステップでピクセル単位で解釈可能なアクションで処理する。
異なるカーネルによる医用画像の劣化実験の結果,STAR-RLの有効性が示された。
さらに,STAR-RLは悪性腫瘍の悪性度を高いマージンで評価し,各種劣化下での一般化性を示した。
ソースコードはhttps://github.com/CUHK-AIM-Group/STAR-RLで公開されている。
Pathology image are essential for accurately interpreting lesion cells in cytopathology screening, but acquiring high-resolution digital slides requires specialized equipment and long scanning times. Though super-resolution (SR) techniques can alleviate this problem, existing deep learning models recover pathology image in a black-box manner, which can lead to untruthful biological details and misdiagnosis. Additionally, current methods allocate the same computational resources to recover each pixel of pathology image, leading to the sub-optimal recovery issue due to the large variation of pathology image. In this paper, we propose the first hierarchical reinforcement learning framework named Spatial-Temporal hierARchical Reinforcement Learning (STAR-RL), mainly for addressing the aforementioned issues in pathology image super-resolution problem. We reformulate the SR problem as a Markov decision process of interpretable operations and adopt the hierarchical recovery mechanism in patch level, to avoid sub-optimal recovery. Specifically, the higher-level spatial manager is proposed to pick out the most corrupted patch for the lower-level patch worker. Moreover, the higher-level temporal manager is advanced to evaluate the selected patch and determine whether the optimization should be stopped earlier, thereby avoiding the over-processed problem. Under the guidance of spatial-temporal managers, the lower-level patch worker processes the selected patch with pixel-wise interpretable actions at each time step. Experimental results on medical images degraded by different kernels show the effectiveness of STAR-RL. Furthermore, STAR-RL validates the promotion in tumor diagnosis with a large margin and shows generalizability under various degradations. The source code is available at https://github.com/CUHK-AIM-Group/STAR-RL. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# 複数タスクのオンライン学習とその関連性 : 建設現場で記録されたスパムメールデータと脳波信号による検証
Online Learning of Multiple Tasks and Their Relationships : Testing on Spam Email Data and EEG Signals Recorded in Construction Fields ( http://arxiv.org/abs/2406.18311v1 ) ライセンス: Link先を確認 | Yixin Jin, Wenjing Zhou, Meiqi Wang, Meng Li, Xintao Li, Tianyu Hu, Xingyuan Bu, | (参考訳) 本稿では,オンラインマルチタスク学習(OMTL)手法について検討する。
このフレームワークはタスクの重みとその関連性を同時に学習する。
静的なタスク関連性を仮定する従来のモデルとは異なり、本手法はタスクを独立に扱い、新たに計算された重みベクトルを用いて関連性を反復的に更新する。
我々は,OMTLCOV,OMTLLOG,OMTLVONというタスク関連性行列を更新する3つのルールを導入し,それらを固定された関連性値を用いた従来手法(CMTL)と比較した。
各種条件下での3つのスパムデータセットと2つのEEGデータセットの性能評価により,OMTL法がCMTLを上回り,脳波データの精度を1~3倍に向上し,スパムデータセットの誤差率を約12倍に抑えた。
This paper examines an online multi-task learning (OMTL) method, which processes data sequentially to predict labels across related tasks. The framework learns task weights and their relatedness concurrently. Unlike previous models that assumed static task relatedness, our approach treats tasks as initially independent, updating their relatedness iteratively using newly calculated weight vectors. We introduced three rules to update the task relatedness matrix: OMTLCOV, OMTLLOG, and OMTLVON, and compared them against a conventional method (CMTL) that uses a fixed relatedness value. Performance evaluations on three datasets a spam dataset and two EEG datasets from construction workers under varying conditions demonstrated that our OMTL methods outperform CMTL, improving accuracy by 1\% to 3\% on EEG data, and maintaining low error rates around 12\% on the spam dataset. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# AIネイティブメモリ - LLMからAGIへの道
AI-native Memory: A Pathway from LLMs Towards AGI ( http://arxiv.org/abs/2406.18312v1 ) ライセンス: Link先を確認 | Jingbo Shang, Zai Zheng, Xiang Ying, Felix Tao, Mindverse Team, | (参考訳) 大規模言語モデル(LLM)は、人工知能(AGI)の火花で世界を実証している。
LLMに携わるスタートアップの中には、ほとんど無制限のコンテキストを持つLLMはAGIを実現することができる、という意見もある。
しかし, LLMの長期的文脈能力については, (1) 有効文脈長が主張する文脈長よりも著しく小さいこと, (2) 長期的文脈から関連情報を同時に発見し, 簡単な推論を行うことがほぼ不可能であること, など, 楽観的すぎるかもしれない。
本稿では,LLM から AGI への経路を,emph{Memory} の統合により想定する。
AGIはLLMがコアプロセッサとして機能するシステムであるべきだと考えています。
生データに加えて、このシステムのメモリは推論プロセスから派生した多くの重要な結論を格納する。
生データのみを処理する検索拡張生成(RAG)と比較すると,本手法は意味的関連情報をより緊密に接続するだけでなく,クエリ時に複雑な推論を単純化する。
中間段階として、メモリはおそらく自然言語記述の形で、ユーザも直接使用することができる。
究極的には、すべてのエージェント/人それぞれが独自の大きなパーソナルモデルを持ち、すべてのタイプのメモリをパラメータ化して圧縮するディープニューラルネットワークモデル(thus \emph{AI-native})を持つべきである。
最後に、AIネイティブメモリが、AGI時代の(積極的な)エンゲージメント、パーソナライゼーション、配布、ソーシャルの変革的基盤である可能性、および予備的なソリューションによる引き起こされたプライバシとセキュリティ上の課題について論じる。
Large language models (LLMs) have demonstrated the world with the sparks of artificial general intelligence (AGI). One opinion, especially from some startups working on LLMs, argues that an LLM with nearly unlimited context length can realize AGI. However, they might be too optimistic about the long-context capability of (existing) LLMs -- (1) Recent literature has shown that their effective context length is significantly smaller than their claimed context length; and (2) Our reasoning-in-a-haystack experiments further demonstrate that simultaneously finding the relevant information from a long context and conducting (simple) reasoning is nearly impossible. In this paper, we envision a pathway from LLMs to AGI through the integration of \emph{memory}. We believe that AGI should be a system where LLMs serve as core processors. In addition to raw data, the memory in this system would store a large number of important conclusions derived from reasoning processes. Compared with retrieval-augmented generation (RAG) that merely processing raw data, this approach not only connects semantically related information closer, but also simplifies complex inferences at the time of querying. As an intermediate stage, the memory will likely be in the form of natural language descriptions, which can be directly consumed by users too. Ultimately, every agent/person should have its own large personal model, a deep neural network model (thus \emph{AI-native}) that parameterizes and compresses all types of memory, even the ones cannot be described by natural languages. Finally, we discuss the significant potential of AI-native memory as the transformative infrastructure for (proactive) engagement, personalization, distribution, and social in the AGI era, as well as the incurred privacy and security challenges with preliminary solutions. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# 空港タワー指令認識の高度化:スクイーズ・アンド・エキサイティングと放送残差学習の統合
Advancing Airport Tower Command Recognition: Integrating Squeeze-and-Excitation and Broadcasted Residual Learning ( http://arxiv.org/abs/2406.18313v1 ) ライセンス: Link先を確認 | Yuanxi Lin, Tonglin Zhou, Yang Xiao, | (参考訳) パイロットは航空管制の指示を正確に守らなければならないため、航空管制の正確な認識は飛行の安全性と効率に不可欠である。
本稿では,キーワードスポッティング技術の進歩により,雑音の多い環境や限られた計算資源といった音声コマンド認識の課題に対処する。
我々は、定期や緊急の指示を含む、標準化された空港タワーコマンドのデータセットを作成します。
我々は,BC-SENetモデルにより,シャープ・アンド・エキサイティングおよびタイムフレーム・周波数ワイズ・アンド・エキサイティング技術を用いて,放送残差学習を強化した。
このモデルはより少ないパラメータで重要な情報に焦点を当てる。
BC-SENetを含む5つのキーワードスポッティングモデルに対するテストでは、精度と効率が向上した。
これらの結果から,高騒音環境下での航空安全・効率向上のための音声認識におけるモデル改良の有効性が示唆された。
さらに、BC-SENetは一般的なGoogle Speech Commandデータセットで同等のパフォーマンスを示している。
Accurate recognition of aviation commands is vital for flight safety and efficiency, as pilots must follow air traffic control instructions precisely. This paper addresses challenges in speech command recognition, such as noisy environments and limited computational resources, by advancing keyword spotting technology. We create a dataset of standardized airport tower commands, including routine and emergency instructions. We enhance broadcasted residual learning with squeeze-and-excitation and time-frame frequency-wise squeeze-and-excitation techniques, resulting in our BC-SENet model. This model focuses on crucial information with fewer parameters. Our tests on five keyword spotting models, including BC-SENet, demonstrate superior accuracy and efficiency. These findings highlight the effectiveness of our model advancements in improving speech command recognition for aviation safety and efficiency in noisy, high-stakes environments. Additionally, BC-SENet shows comparable performance on the common Google Speech Command dataset. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# ContactNet:タンパク質-タンパク質相互作用予測のための幾何学的深層学習モデル
ContactNet: Geometric-Based Deep Learning Model for Predicting Protein-Protein Interactions ( http://arxiv.org/abs/2406.18314v1 ) ライセンス: Link先を確認 | Matan Halfon, Tomer Cohen, Raanan Fattal, Dina Schneidman-Duhovny, | (参考訳) 深層学習のアプローチはタンパク質構造の予測に大きな進歩をもたらした。
これらの方法はしばしばタンパク質-タンパク質相互作用(PPI)に適用されるが、抗体-抗原のような様々な相互作用では利用できない多重配列アライメント(MSA)を必要とする。
計算ドッキング法は、正確な複雑なモデルをサンプリングするだけでなく、数千の不正な構成を生成することができる。
正確なモデルを特定するためのスコアリング関数の設計は、長年にわたる課題である。
本研究では,ドッキングアルゴリズムから得られたPPIモデルを高精度かつ不正確なものに分類するための,新しい注目型グラフニューラルネットワーク(GNN)であるContactNetを開発した。
ドッキング抗原とモデル抗体構造を訓練すると、ContactNetは最先端のスコアリング機能の精度を2倍にし、テストケースの43%でTop-10の正確なモデルを達成する。
アンバウンド抗体に適用すると、Top-10の精度は65%に向上する。
この性能はMSAを使わずに達成され、アプローチは宿主-病原体や一般のPPIのような他のタイプの相互作用に適用できる。
Deep learning approaches achieved significant progress in predicting protein structures. These methods are often applied to protein-protein interactions (PPIs) yet require Multiple Sequence Alignment (MSA) which is unavailable for various interactions, such as antibody-antigen. Computational docking methods are capable of sampling accurate complex models, but also produce thousands of invalid configurations. The design of scoring functions for identifying accurate models is a long-standing challenge. We develop a novel attention-based Graph Neural Network (GNN), ContactNet, for classifying PPI models obtained from docking algorithms into accurate and incorrect ones. When trained on docked antigen and modeled antibody structures, ContactNet doubles the accuracy of current state-of-the-art scoring functions, achieving accurate models among its Top-10 at 43% of the test cases. When applied to unbound antibodies, its Top-10 accuracy increases to 65%. This performance is achieved without MSA and the approach is applicable to other types of interactions, such as host-pathogens or general PPIs. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# 深部量子ニューラルネットワークにおける勾配測定効率と表現率のトレードオフ
Trade-off between Gradient Measurement Efficiency and Expressivity in Deep Quantum Neural Networks ( http://arxiv.org/abs/2406.18316v1 ) ライセンス: Link先を確認 | Koki Chinzei, Shinichiro Yamano, Quoc Hoan Tran, Yasuhiro Endo, Hirotaka Oshima, | (参考訳) 量子ニューラルネットワーク(QNN)は、実用的な量子優位性を達成するために効率的なトレーニングアルゴリズムを必要とする。
有望なアプローチは勾配に基づく最適化アルゴリズムを使うことであり、量子的測定によって勾配を推定する。
しかし、量子状態が測定時に崩壊するため、QNNの勾配を効率的に測定することは一般的に困難である。
本研究では,多種多様な深部QNNにおける勾配測定効率と表現率の一般的なトレードオフを証明し,効率的な勾配推定の理論的限界と可能性を明らかにする。
このトレードオフは、より表現力の高いQNNは勾配推定において高い測定コストを必要とすることを意味し、一方、与えられたタスクに適合するようにQNN表現率を減少させることで勾配測定効率を向上させることができることを示している。
さらに、量子回路の対称構造を利用して、トレードオフ不等式の上限に達することのできる安定化器-論理積アンサッツ(SLPA)と呼ばれる一般的なQNNアンサッツを提案する。
未知対称関数の学習において、SLPAはパラメータシフト法に基づくよく設計された対称回路と比較して、精度と訓練性を維持しながら、トレーニングに必要な量子リソースを劇的に削減する。
この結果から,QNNにおける効率的なトレーニングの理論的理解だけでなく,標準化され,広く適用可能なQNN設計も明らかにした。
Quantum neural networks (QNNs) require an efficient training algorithm to achieve practical quantum advantages. A promising approach is the use of gradient-based optimization algorithms, where gradients are estimated through quantum measurements. However, it is generally difficult to efficiently measure gradients in QNNs because the quantum state collapses upon measurement. In this work, we prove a general trade-off between gradient measurement efficiency and expressivity in a wide class of deep QNNs, elucidating the theoretical limits and possibilities of efficient gradient estimation. This trade-off implies that a more expressive QNN requires a higher measurement cost in gradient estimation, whereas we can increase gradient measurement efficiency by reducing the QNN expressivity to suit a given task. We further propose a general QNN ansatz called the stabilizer-logical product ansatz (SLPA), which can reach the upper limit of the trade-off inequality by leveraging the symmetric structure of the quantum circuit. In learning an unknown symmetric function, the SLPA drastically reduces the quantum resources required for training while maintaining accuracy and trainability compared to a well-designed symmetric circuit based on the parameter-shift method. Our results not only reveal a theoretical understanding of efficient training in QNNs but also provide a standard and broadly applicable efficient QNN design. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# MathOdyssey: Odysseyの数学データを用いた大規模言語モデルにおける数学的問題解決スキルのベンチマーク
MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data ( http://arxiv.org/abs/2406.18321v1 ) ライセンス: Link先を確認 | Meng Fang, Xiangpeng Wan, Fei Lu, Fei Xing, Kai Zou, | (参考訳) 大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。
これらの成功にもかかわらず、ほとんどのLLMは複雑な推論を必要とする数学的問題の解決に苦戦している。
本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
このデータセットには、先進的な問題解決シナリオにおいてLSMを厳格にテストし、幅広い対象領域をカバーするために、著名な機関の専門家によって作成された、高校や大学レベルでの多様な数学的問題が含まれている。
AIコミュニティのリソースとしてMathOdysseyデータセットを提供することで、複雑な数学的問題解決におけるAI能力の理解と改善に貢献することを目指している。
我々は,Llama-3 や DBRX-Instruct などのオープンソースモデルと GPT シリーズおよび Gemini モデルからのクローズソースモデルをベンチマークする。
以上の結果から, LLM は日常的かつ適度に困難なタスクにおいて, オリンピアードレベルの問題や複雑な大学レベルの問題において, 重大な課題に直面していることが明らかとなった。
我々の分析では、オープンソースモデルとクローズドソースモデルの間のパフォーマンスギャップは狭くなっているが、大きな課題が残っている。
本研究は,LLMの数学的推論を強化する研究の必要性を浮き彫りにするものである。
データセット、結果、コードは公開されています。
Large language models (LLMs) have significantly advanced natural language understanding and demonstrated strong problem-solving abilities. Despite these successes, most LLMs still struggle with solving mathematical problems due to the intricate reasoning required. This paper investigates the mathematical problem-solving capabilities of LLMs using the newly developed "MathOdyssey" dataset. The dataset includes diverse mathematical problems at high school and university levels, created by experts from notable institutions to rigorously test LLMs in advanced problem-solving scenarios and cover a wider range of subject areas. By providing the MathOdyssey dataset as a resource to the AI community, we aim to contribute to the understanding and improvement of AI capabilities in complex mathematical problem-solving. We conduct benchmarking on open-source models, such as Llama-3 and DBRX-Instruct, and closed-source models from the GPT series and Gemini models. Our results indicate that while LLMs perform well on routine and moderately difficult tasks, they face significant challenges with Olympiad-level problems and complex university-level questions. Our analysis shows a narrowing performance gap between open-source and closed-source models, yet substantial challenges remain, particularly with the most demanding problems. This study highlights the ongoing need for research to enhance the mathematical reasoning of LLMs. The dataset, results, and code are publicly available. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# PaCoST:大規模言語モデルにおけるベンチマーク汚染検出のための信頼度テスト
PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models ( http://arxiv.org/abs/2406.18326v1 ) ライセンス: Link先を確認 | Huixuan Zhang, Yun Lin, Xiaojun Wan, | (参考訳) 大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
このベンチマーク汚染問題に対処するために,我々はまず,実際の汚染検出手法が従うべき要件のセットを提案する。
これらの要件に従えば, LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを導入する。
提案手法は,同一の分布を持つ各データに対する対応性を構築し,対応する信頼度を統計的に解析し,そのモデルが元のベンチマークで有意に信頼性が高いかどうかを検証する。
我々はPaCoSTの有効性を検証し、人気のあるオープンソースモデルやベンチマークに適用する。
テストしたほぼすべてのモデルとベンチマークが、多かれ少なかれ汚染されていると疑われていることが分かりました。
最終的に新しいLCM評価手法を提唱する。
Large language models (LLMs) are known to be trained on vast amounts of data, which may unintentionally or intentionally include data from commonly used benchmarks. This inclusion can lead to cheatingly high scores on model leaderboards, yet result in disappointing performance in real-world applications. To address this benchmark contamination problem, we first propose a set of requirements that practical contamination detection methods should follow. Following these proposed requirements, we introduce PaCoST, a Paired Confidence Significance Testing to effectively detect benchmark contamination in LLMs. Our method constructs a counterpart for each piece of data with the same distribution, and performs statistical analysis of the corresponding confidence to test whether the model is significantly more confident under the original benchmark. We validate the effectiveness of PaCoST and apply it on popular open-source models and benchmarks. We find that almost all models and benchmarks we tested are suspected contaminated more or less. We finally call for new LLM evaluation methods. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# PET/CT腫瘍分離のためのマルチモーダル・エビデンシャル・フュージョンネットワーク
Multi-modal Evidential Fusion Network for Trusted PET/CT Tumor Segmentation ( http://arxiv.org/abs/2406.18327v1 ) ライセンス: Link先を確認 | Yuxuan Qi, Li Lin, Jiajun Wang, Jingya Zhang, Bin Zhang, | (参考訳) PET/CT画像における腫瘍の正確なセグメンテーションは、コンピュータ支援によるがんの診断と治療において重要である。
このようなセグメンテーション問題の鍵となる問題は、PETおよびCT画像からの補完情報を効果的に統合することにある。
しかし,PET画像とCT画像の画質は臨床環境によって大きく変化しており,ネットワークによって抽出されたモダリティ情報の不確実性が生じる。
マルチモーダル情報融合における不確実性を考慮するために,クロスモーダル・フィーチャーラーニング(CFL)モジュールとマルチモーダル・トラスト・フュージョン(MTF)モジュールからなる新しいマルチモーダル・エビデンシャル・フュージョン・ネットワーク(MEFN)を提案する。
CFLモジュールは、モダリティ変換時のドメインギャップを減らし、共通の腫瘍の特徴を強調し、モダリティ特異性を扱うためのセグメンテーションモジュールの必要性を軽減する。
MTFモジュールは、相互注意機構と不確実性校正器を利用して、モダリティの不確実性に基づいてモダリティ特徴を融合し、デプスター・シェーファー理論の指導の下でセグメンテーション結果を融合する。
さらに、不確実性に着目したモデルに新たな不確実性知覚損失を導入し、信頼されたモダリティ情報を抽出する能力を向上させる。
提案手法の有効性を評価するために,2つの一般公開PET/CTデータセットを用いて大規模な比較実験を行い,その結果から,AutoPETデータセットとHecktorデータセットのDSCスコアが2.15%,3.23%向上し,MEFNは最先端手法を著しく上回っていることが示された。
さらに, 臨床応用において特に重要な自動セグメンテーション結果の受け入れ, 拒絶の決定に対するセグメンテーション結果の不確かさを, 放射線科医に提供することができる。
私たちのコードはhttps://github.com/QPaws/MEFN.comで公開されます。
Accurate segmentation of tumors in PET/CT images is important in computer-aided diagnosis and treatment of cancer. The key issue of such a segmentation problem lies in the effective integration of complementary information from PET and CT images. However, the quality of PET and CT images varies widely in clinical settings, which leads to uncertainty in the modality information extracted by networks. To take the uncertainty into account in multi-modal information fusion, this paper proposes a novel Multi-modal Evidential Fusion Network (MEFN) comprising a Cross-Modal Feature Learning (CFL) module and a Multi-modal Trusted Fusion (MTF) module. The CFL module reduces the domain gap upon modality conversion and highlights common tumor features, thereby alleviating the needs of the segmentation module to handle modality specificity. The MTF module utilizes mutual attention mechanisms and an uncertainty calibrator to fuse modality features based on modality uncertainty and then fuse the segmentation results under the guidance of Dempster-Shafer Theory. Besides, a new uncertainty perceptual loss is introduced to force the model focusing on uncertain features and hence improve its ability to extract trusted modality information. Extensive comparative experiments are conducted on two publicly available PET/CT datasets to evaluate the performance of our proposed method whose results demonstrate that our MEFN significantly outperforms state-of-the-art methods with improvements of 2.15% and 3.23% in DSC scores on the AutoPET dataset and the Hecktor dataset, respectively. More importantly, our model can provide radiologists with credible uncertainty of the segmentation results for their decision in accepting or rejecting the automatic segmentation results, which is particularly important for clinical applications. Our code will be available at https://github.com/QPaws/MEFN. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# PDFA Distillation via String Probability Queries {PDFA Distillation via String Probability Queries}
PDFA Distillation via String Probability Queries {PDFA Distillation via String Probability Queries} ( http://arxiv.org/abs/2406.18328v1 ) ライセンス: Link先を確認 | Robert Baumgartner, Sicco Verwer, | (参考訳) 確率論的決定論的有限オートマトン(PDFA)は、言語上の条件付き確率をモデル化する離散事象系である。
これらのモデルは、言語モデルとして訓練されたニューラルネットワークの代理モデルとして使用される、説明可能な機械学習の領域に関心を寄せている。
本研究では,ニューラルネットワークからPDFAを抽出するアルゴリズムを提案する。
我々のアルゴリズムはL#アルゴリズムの派生であり、新しいタイプのクエリからPDFAを学習し、クエリされた文字列の確率から条件付き確率を推定する。
訓練されたニューラルネットワークの集合からPDFAを蒸留することにより、最近の公開データセット上での有効性を示す。
Probabilistic deterministic finite automata (PDFA) are discrete event systems modeling conditional probabilities over languages: Given an already seen sequence of tokens they return the probability of tokens of interest to appear next. These types of models have gained interest in the domain of explainable machine learning, where they are used as surrogate models for neural networks trained as language models. In this work we present an algorithm to distill PDFA from neural networks. Our algorithm is a derivative of the L# algorithm and capable of learning PDFA from a new type of query, in which the algorithm infers conditional probabilities from the probability of the queried string to occur. We show its effectiveness on a recent public dataset by distilling PDFA from a set of trained neural networks. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# 仮想受容体を用いた分子拡散モデル
Molecular Diffusion Models with Virtual Receptors ( http://arxiv.org/abs/2406.18330v1 ) ライセンス: Link先を確認 | Matan Halfon, Eyal Rozenberg, Ehud Rivlin, Daniel Freedman, | (参考訳) 構造ベースドラッグデザイン(SBDD)に対する機械学習アプローチは、ここ数年でかなり肥大化している。
特に、SBDDへの拡散ベースのアプローチは、非常に有望です。
本稿では,この拡散アプローチを2つの重要な方法で拡張する手法を提案する。
まず、薬物分子とターゲット/受容体の間のサイズ格差に対処し、学習をより困難にし、推論を遅くする。
我々は、この受容体を圧縮したヴァーチャル・レセプター(Virtual Receptor)の概念を通じて実現し、関連する群同値を尊重しながら、元の受容体の構造情報のキーとなる側面を保存するように学習する。
第2に、タンパク質の折り畳みの文脈で使われるタンパク質言語の埋め込みを組み込んだ。
仮想受容体とタンパク質の埋め込みの両方の貢献を実験的に実証し、実際、より優れた性能とより高速な計算をもたらす。
Machine learning approaches to Structure-Based Drug Design (SBDD) have proven quite fertile over the last few years. In particular, diffusion-based approaches to SBDD have shown great promise. We present a technique which expands on this diffusion approach in two crucial ways. First, we address the size disparity between the drug molecule and the target/receptor, which makes learning more challenging and inference slower. We do so through the notion of a Virtual Receptor, which is a compressed version of the receptor; it is learned so as to preserve key aspects of the structural information of the original receptor, while respecting the relevant group equivariance. Second, we incorporate a protein language embedding used originally in the context of protein folding. We experimentally demonstrate the contributions of both the virtual receptors and the protein embeddings: in practice, they lead to both better performance, as well as significantly faster computations. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# 時系列の早期分類:分類学とベンチマーク
Early Classification of Time Series: Taxonomy and Benchmark ( http://arxiv.org/abs/2406.18332v1 ) ライセンス: Link先を確認 | Aurélien Renault, Alexis Bondu, Antoine Cornuéjols, Vincent Lemaire, | (参考訳) 多くの場合、研究された現象の測定は順次提供され、タイムペナルティを過度に高くしないよう、クラスをできるだけ早く予測する必要があるが、早すぎるのではなく、誤分類のコストを支払うリスクがある。
この問題は特に時系列の場合において研究されており、早期時系列分類(Early Classification of Time Series, ECTS)として知られている。
文学の分野として発展してきたが,既存手法の相対的メリットを比較するための,体系的かつ共有的な評価プロトコルがいまだに存在しない。
この文書は、これらの手法を原則に基づく分類に位置づけることから始まる。
評価を整理するための次元を定義し、その後、9つの最先端ECTSアルゴリズムを含む、これらの次元に沿った非常に広範な実験の結果を報告する。
さらに、これらや他の実験は、既存のECTSアルゴリズムの大部分が実装されているオープンソースライブラリを使って行うことができる(参照: \url{https://github.com/ML-EDM/ml_edm})。
In many situations, the measurements of a studied phenomenon are provided sequentially, and the prediction of its class needs to be made as early as possible so as not to incur too high a time penalty, but not too early and risk paying the cost of misclassification. This problem has been particularly studied in the case of time series, and is known as Early Classification of Time Series (ECTS). Although it has been the subject of a growing body of literature, there is still a lack of a systematic, shared evaluation protocol to compare the relative merits of the various existing methods. This document begins by situating these methods within a principle-based taxonomy. It defines dimensions for organizing their evaluation, and then reports the results of a very extensive set of experiments along these dimensions involving nine state-of-the art ECTS algorithms. In addition, these and other experiments can be carried out using an open-source library in which most of the existing ECTS algorithms have been implemented (see \url{https://github.com/ML-EDM/ml_edm}). | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# 内部グロス注意を用いた連続手話認識
Continuous Sign Language Recognition Using Intra-inter Gloss Attention ( http://arxiv.org/abs/2406.18333v1 ) ライセンス: Link先を確認 | Hossein Ranjbar, Alireza Taheri, | (参考訳) 多くの連続手話認識(CSLR)研究は、グローバルコンテキストを捕捉する強力な能力のため、シーケンスモデリングにトランスフォーマーベースのアーキテクチャを採用する。
それでも、トランスのコアモジュールとして機能するバニラ自己注意は、すべての時間ステップで重み付け平均を計算するため、手話ビデオの局所的時間的意味論は十分に活用されない。
本研究では,グルース内のフレーム間の関係とビデオ内のグルース間の意味的および文法的依存関係を活用するために,イントラインター・グロース・アテンション・モジュール(inter-inter gloss attention module)と呼ばれる手話認識研究における新しいモジュールを提案する。
グロス内注目モジュールでは、動画を等サイズのチャンクに分割し、各チャンク内に自己注意機構を適用する。
この局所的な自己アテンションは複雑さを著しく減らし、非相対的フレームを考慮することによって生じるノイズを除去する。
グロス間アテンションモジュールでは、まず時間次元に沿って平均プールすることで、各グロスチャンク内のチャンクレベルの特徴を集約する。
その後、すべてのチャンクレベルの機能にマルチヘッド自己注意が適用される。
シグナーと環境の相互作用が重要でないことを考慮し、セグメンテーションを用いてビデオの背景を除去する。
これにより、提案されたモデルはシグナーに焦点を向けることができる。
PHOENIX-2014ベンチマークデータセットを用いた実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドに抽出し,CSLRの精度を向上し,テストセット上で20.4の単語誤り率(WER)を達成することができた。
Many continuous sign language recognition (CSLR) studies adopt transformer-based architectures for sequence modeling due to their powerful capacity for capturing global contexts. Nevertheless, vanilla self-attention, which serves as the core module of the transformer, calculates a weighted average over all time steps; therefore, the local temporal semantics of sign videos may not be fully exploited. In this study, we introduce a novel module in sign language recognition studies, called intra-inter gloss attention module, to leverage the relationships among frames within glosses and the semantic and grammatical dependencies between glosses in the video. In the intra-gloss attention module, the video is divided into equally sized chunks and a self-attention mechanism is applied within each chunk. This localized self-attention significantly reduces complexity and eliminates noise introduced by considering non-relative frames. In the inter-gloss attention module, we first aggregate the chunk-level features within each gloss chunk by average pooling along the temporal dimension. Subsequently, multi-head self-attention is applied to all chunk-level features. Given the non-significance of the signer-environment interaction, we utilize segmentation to remove the background of the videos. This enables the proposed model to direct its focus toward the signer. Experimental results on the PHOENIX-2014 benchmark dataset demonstrate that our method can effectively extract sign language features in an end-to-end manner without any prior knowledge, improve the accuracy of CSLR, and achieve the word error rate (WER) of 20.4 on the test set which is a competitive result compare to the state-of-the-art which uses additional supervisions. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# 分布圧縮による効率的かつ正確な説明推定
Efficient and Accurate Explanation Estimation with Distribution Compression ( http://arxiv.org/abs/2406.18334v1 ) ライセンス: Link先を確認 | Hubert Baniecki, Giuseppe Casalicchio, Bernd Bischl, Przemyslaw Biecek, | (参考訳) 様々な機械学習説明の厳密な計算には、多くのモデル評価が必要であり、極端な場合、非現実的になる。
近似の計算コストは、データとモデルパラメータのサイズが絶え間なく大きくなるにつれて増加する。
ホック後の説明を効率的に近似する多くのヒューリスティックが提案されている。
本稿では, 広い範囲のアルゴリズムにおいて, 説明推定に使用される標準i.d.サンプリングが, 改良に値する近似誤差をもたらすことを示す。
この目的のために,より効率的かつ正確な説明推定のための新しいパラダイムであるCompress Then Explain (CTE)を紹介した。
CTEはカーネルスライニングによる分散圧縮を用いて、限界分布を最もよく近似するデータサンプルを得る。
本稿では,CTEによる局所的および大域的説明の削除に基づく推定を,計算オーバーヘッドを無視して改善することを示す。
2-3倍のサンプル、すなわち2-3倍のモデル評価を必要とするサンプルを用いて、オンパー説明近似誤差をしばしば達成する。
CTEはシンプルだが強力で、今やi.d.サンプリングに依存しているあらゆる説明法のためのプラグインである。
Exact computation of various machine learning explanations requires numerous model evaluations and in extreme cases becomes impractical. The computational cost of approximation increases with an ever-increasing size of data and model parameters. Many heuristics have been proposed to approximate post-hoc explanations efficiently. This paper shows that the standard i.i.d. sampling used in a broad spectrum of algorithms for explanation estimation leads to an approximation error worthy of improvement. To this end, we introduce Compress Then Explain (CTE), a new paradigm for more efficient and accurate explanation estimation. CTE uses distribution compression through kernel thinning to obtain a data sample that best approximates the marginal distribution. We show that CTE improves the estimation of removal-based local and global explanations with negligible computational overhead. It often achieves an on-par explanation approximation error using 2-3x less samples, i.e. requiring 2-3x less model evaluations. CTE is a simple, yet powerful, plug-in for any explanation method that now relies on i.i.d. sampling. | 翻訳日:2024-06-27 13:29:21 公開日:2024-06-26 |
# 構文構造を用いた文法支援システム(GAUSS)
Grammar Assistance Using Syntactic Structures (GAUSS) ( http://arxiv.org/abs/2406.18340v1 ) ライセンス: Link先を確認 | Olga Zamaraeva, Lorena S. Allegue, Carlos Gómez-Rodríguez, Anastasiia Ogneva, Margarita Alonso-Ramos, | (参考訳) 自動文法コーチングは、社会的プレッシャーを課したり、確立された社会的役割を補強したりすることなく、標準文法の品種に助言する重要な目的である。
このようなシステムはすでに存在するが、そのほとんどは英語用であり、意味のあるフィードバックを提供するものはほとんどない。
さらに、それらは一般的に完全にニューラルネットワークに依存しており、世界中のほとんどの人が手に入らない膨大な計算資源を必要とする。
スペイン語による文法学習システムを提案する。
一 情報的フィードバックをすることができる豊かな言語形式主義
(II) この形式を現実のアプリケーションで実用化する高速解析アルゴリズム。
このアプローチは、コンピュータ化された文法が存在する言語でも実現可能であり、高価で環境的にコストのかかるニューラルな手法に依存しない。
我々は、グリーンアーAIに貢献し、文法コーチングにおけるインクリシティとエンゲージメントの基準を高めることで、グローバルな教育課題に取り組みたいと考えています。
Automatic grammar coaching serves an important purpose of advising on standard grammar varieties while not imposing social pressures or reinforcing established social roles. Such systems already exist but most of them are for English and few of them offer meaningful feedback. Furthermore, they typically rely completely on neural methods and require huge computational resources which most of the world cannot afford. We propose a grammar coaching system for Spanish that relies on (i) a rich linguistic formalism capable of giving informative feedback; and (ii) a faster parsing algorithm which makes using this formalism practical in a real-world application. The approach is feasible for any language for which there is a computerized grammar and is less reliant on expensive and environmentally costly neural methods. We seek to contribute to Greener AI and to address global education challenges by raising the standards of inclusivity and engagement in grammar coaching. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# AlignedCut: 脳誘導のユニバーサル機能空間における視覚概念の発見
AlignedCut: Visual Concepts Discovery on Brain-Guided Universal Feature Space ( http://arxiv.org/abs/2406.18344v1 ) ライセンス: Link先を確認 | Huzheng Yang, James Gee, Jianbo Shi, | (参考訳) 視覚データ,深層ネットワーク,脳間の興味深い関連性について検討する。
本手法は,脳のボクセルfMRI応答予測をトレーニングの目的とするユニバーサルチャネルアライメントを生成する。
異なる目的で訓練されたディープ・ネットワークが、様々なモデルで共通の特徴チャネルを共有することを発見した。
これらのチャネルは、視覚的概念の形成を示す、異なる脳領域に対応する繰り返しセットにまとめることができる。
チャネル応答のクラスタを画像に追跡すると、教師付きデコーダがなくても意味のあるオブジェクトセグメントが出現する。
さらに、チャネルの普遍的な特徴アライメントとクラスタリングは、異なるネットワーク層を通して視覚情報がどのように処理されるかの図と定量化を生成し、ネットワーク間の正確な比較を生成する。
We study the intriguing connection between visual data, deep networks, and the brain. Our method creates a universal channel alignment by using brain voxel fMRI response prediction as the training objective. We discover that deep networks, trained with different objectives, share common feature channels across various models. These channels can be clustered into recurring sets, corresponding to distinct brain regions, indicating the formation of visual concepts. Tracing the clusters of channel responses onto the images, we see semantically meaningful object segments emerge, even without any supervised decoder. Furthermore, the universal feature alignment and the clustering of channels produce a picture and quantification of how visual information is processed through the different network layers, which produces precise comparisons between the networks. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# EmT: 一般化多目的脳波認識のための新しい変換器
EmT: A Novel Transformer for Generalized Cross-subject EEG Emotion Recognition ( http://arxiv.org/abs/2406.18345v1 ) ライセンス: Link先を確認 | Yi Ding, Chengxuan Tong, Shuailei Zhang, Muyun Jiang, Yong Li, Kevin Lim Jun Liang, Cuntai Guan, | (参考訳) 神経生理学の事前知識をニューラルネットワークアーキテクチャに統合することで、感情の復号化性能が向上する。
多くのテクニックは、空間的および短期的な時間的パターンの学習を強調するが、感情的認知過程に関連する重要な長期的文脈情報の収集に重点を置いている。
この相違に対処するために,感情トランス (EmT) と呼ばれる新しいトランスフォーマーモデルを導入する。
EmTは、一般化されたクロスオブジェクトEEG感情分類と回帰タスクの両方において優れているように設計されている。
EmTでは、EEG信号は時間グラフ形式に変換され、時間グラフ構築モジュール(TGC)を使用してEEG特徴グラフのシーケンスを生成する。
その後、各EEG特徴グラフの動的グラフ表現をシリーズ内で学習するために、新しいマルチビューピラミッドGCNモジュール(RMPG)が提案され、各グラフの学習された表現を1つのトークンに融合する。
さらに,2種類のトークンミキサーを用いた時間的文脈変換モジュール(TCT)を設計し,時間的文脈情報を学習する。
最後に、タスク固有出力モジュール(TSO)が所望の出力を生成する。
4つの公開データセットの実験により、EmTは脳波の感情分類と回帰タスクの両方のベースラインメソッドよりも高い結果が得られることが示された。
コードはhttps://github.com/yi-ding-cs/EmT.comで入手できる。
Integrating prior knowledge of neurophysiology into neural network architecture enhances the performance of emotion decoding. While numerous techniques emphasize learning spatial and short-term temporal patterns, there has been limited emphasis on capturing the vital long-term contextual information associated with emotional cognitive processes. In order to address this discrepancy, we introduce a novel transformer model called emotion transformer (EmT). EmT is designed to excel in both generalized cross-subject EEG emotion classification and regression tasks. In EmT, EEG signals are transformed into a temporal graph format, creating a sequence of EEG feature graphs using a temporal graph construction module (TGC). A novel residual multi-view pyramid GCN module (RMPG) is then proposed to learn dynamic graph representations for each EEG feature graph within the series, and the learned representations of each graph are fused into one token. Furthermore, we design a temporal contextual transformer module (TCT) with two types of token mixers to learn the temporal contextual information. Finally, the task-specific output module (TSO) generates the desired outputs. Experiments on four publicly available datasets show that EmT achieves higher results than the baseline methods for both EEG emotion classification and regression tasks. The code is available at https://github.com/yi-ding-cs/EmT. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# 人間のフィードバックからの強化学習によるAIアライメント : 矛盾と限界
AI Alignment through Reinforcement Learning from Human Feedback? Contradictions and Limitations ( http://arxiv.org/abs/2406.18346v1 ) ライセンス: Link先を確認 | Adam Dahlgren Lindström, Leila Methnani, Lea Krause, Petter Ericson, Íñigo Martínez de Rituerto de Troya, Dimitri Coelho Mollo, Roel Dobbe, | (参考訳) 本稿では,人工知能(AI)システム,特にLarge Language Models(LLMs)を,人間のフィードバック(RLHF)とAIフィードバック(RLAIF)のいずれにもかかわるReinforcement Learning from Feedback(RLxF)手法を通じて,人間の価値と意図に合わせる試みを批判的に評価する。
具体的には、誠実さ、無害さ、役立たずという、広く追求されたアライメント目標の欠点を示す。
多分野の社会技術的批判を通じて、RLxF技術の理論的基盤と実践的実装の両方を検証し、人間の倫理の複雑さを捉え、AIの安全性に寄与するアプローチにおける重要な限界を明らかにした。
我々はRLxFの目標に固有の緊張と矛盾を強調する。
さらに、アライメントとRLxFに関する議論において無視される傾向にある倫理的問題について論じ、その中では、ユーザフレンドリさと騙し、柔軟性と解釈可能性、システム安全性のトレードオフについて論じる。
我々は、研究者や実践者がRLxFの社会技術的影響を批判的に評価するよう促すことで、AI開発におけるその応用に対するよりニュアンスで反射的なアプローチを提唱する。
This paper critically evaluates the attempts to align Artificial Intelligence (AI) systems, especially Large Language Models (LLMs), with human values and intentions through Reinforcement Learning from Feedback (RLxF) methods, involving either human feedback (RLHF) or AI feedback (RLAIF). Specifically, we show the shortcomings of the broadly pursued alignment goals of honesty, harmlessness, and helpfulness. Through a multidisciplinary sociotechnical critique, we examine both the theoretical underpinnings and practical implementations of RLxF techniques, revealing significant limitations in their approach to capturing the complexities of human ethics and contributing to AI safety. We highlight tensions and contradictions inherent in the goals of RLxF. In addition, we discuss ethically-relevant issues that tend to be neglected in discussions about alignment and RLxF, among which the trade-offs between user-friendliness and deception, flexibility and interpretability, and system safety. We conclude by urging researchers and practitioners alike to critically assess the sociotechnical ramifications of RLxF, advocating for a more nuanced and reflective approach to its application in AI development. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# 量子センシングにおける量子速度制限
Quantum speed limit in quantum sensing ( http://arxiv.org/abs/2406.18348v1 ) ライセンス: Link先を確認 | Konstantin Herb, Christian L. Degen, | (参考訳) 量子センサは感度と精度を最大化するために高度な制御シーケンスを利用する。
しかし、プロトコルは通常、時間分解能に最適化されていない。
ここでは、キュービットプローブを用いた動的信号の時間分解センシングの限界を確立する。
最適時間分解能は、基底状態間の変換に必要な最小時間を記述する量子速度制限(QSL)と密接に関連していることを示す。
さらに、2つの位相シフトパルスからなる二部制御シーケンスがQSLに達することを示す。
実用化は, ダイヤモンド中の窒素空孔(NV)中心のスピン-1 クォートを例に考察する。
Quantum sensors capitalize on advanced control sequences for maximizing sensitivity and precision. However, protocols are not usually optimized for temporal resolution. Here, we establish the limits for time-resolved sensing of dynamical signals using qubit probes. We show that the best possible time resolution is closely related to the quantum speed limit (QSL), which describes the minimum time needed to transform between basis states. We further show that a bipartite control sequence consisting of two phase-shifted pulses reaches the QSL. Practical implementation is discussed based on the example of the spin-1 qutrit of a nitrogen-vacancy (NV) center in diamond. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# エネルギー効率の良いスパイクニューラルネットワークにおける蒸留と正規化による低減活動について
On Reducing Activity with Distillation and Regularization for Energy Efficient Spiking Neural Networks ( http://arxiv.org/abs/2406.18350v1 ) ライセンス: Link先を確認 | Thomas Louis, Benoit Miramond, Alain Pegatoquet, Adrien Girard, | (参考訳) スパイクニューラルネットワーク(SNN)への関心は着実に高まり、フォーマルニューラルネットワーク(FNN)に代わるエネルギー効率の高い代替品として期待されている。
特にエッジアプリケーションに対する関心は高まっているが、これらのイベント駆動ニューラルネットワークは、FNNと比較してトレーニングが困難であった。
この問題を軽減するために、FNNに匹敵する性能を提供するために、多くの革新的な方法が開発されている。
しかし、推論中のネットワークのスパイク活性は考慮されないことが多い。
SNNは通常、FNNに匹敵する性能を持つが、ネットワークの活動の増加のコストがかかるため、よりエネルギー効率の良いソリューションとして使用するメリットが制限されることが多い。
本稿では,SNN訓練における知識蒸留(KD)を活用して,性能とスパイク活動のトレードオフを最適化する手法を提案する。
その後,KDが空間性の向上に繋がった理由を理解するとともに,活性化正則化を探求し,ロジス正則化を用いた新しい手法を提案する。
これらのアプローチはいくつかのデータセットで検証され、精度を維持しながらネットワークスパイ活動の減少(GSCでは-26.73%、CIFAR-10では-14.32%)が明らかに示されている。
Interest in spiking neural networks (SNNs) has been growing steadily, promising an energy-efficient alternative to formal neural networks (FNNs), commonly known as artificial neural networks (ANNs). Despite increasing interest, especially for Edge applications, these event-driven neural networks suffered from their difficulty to be trained compared to FNNs. To alleviate this problem, a number of innovative methods have been developed to provide performance more or less equivalent to that of FNNs. However, the spiking activity of a network during inference is usually not considered. While SNNs may usually have performance comparable to that of FNNs, it is often at the cost of an increase of the network's activity, thus limiting the benefit of using them as a more energy-efficient solution. In this paper, we propose to leverage Knowledge Distillation (KD) for SNNs training with surrogate gradient descent in order to optimize the trade-off between performance and spiking activity. Then, after understanding why KD led to an increase in sparsity, we also explored Activations regularization and proposed a novel method with Logits Regularization. These approaches, validated on several datasets, clearly show a reduction in network spiking activity (-26.73% on GSC and -14.32% on CIFAR-10) while preserving accuracy. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# ロスセールインベントリ制御のための本質的なモチベーションフィードバックグラフによる強化学習
Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control ( http://arxiv.org/abs/2406.18351v1 ) ライセンス: Link先を確認 | Zifan Liu, Xinran Li, Shibo Chen, Gen Li, Jiashuo Jiang, Jun Zhang, | (参考訳) 強化学習(Reinforcement Learning, RL)は, 在庫管理(IC)において, 優れた性能と汎用性があることが証明されている。
しかし、オンライン体験の2つの制限により、ICドメインにおけるRLアルゴリズムのさらなる改善が妨げられている。
第一に、オンライン体験は現実世界のアプリケーションを購入するのに費用がかかる。
RLアルゴリズムのサンプル効率性が低いため、収束のためにRLポリシーを訓練するのに長い時間がかかる。
第二に、オンライン体験は、ICで典型的な販売現象が失われたことによる真の需要を反映していないため、学習プロセスがより困難になる可能性がある。
以上の課題に対処するために,強化学習とフィードバックグラフ(RLFG)を組み合わせた意思決定フレームワークを提案し,本質的なモチベーション探索(IME)を行い,サンプル効率を向上する。
特に,ロスセールIC問題の本質的特性を第一に活用し,ロスセールIC問題に特化してフィードバックグラフ(FG)を設計し,豊富なサイドエクスペリエンスを生成することでRL更新を支援する。
次に、設計されたFGがRL法のサンプル複雑性をいかに低減するかに関する厳密な理論的解析を行う。
理論的知見に基づいて、我々はRLエージェントにより多くのサイドエクスペリエンスを持つ状態-アクション空間への探索を指示する本質的な報酬を設計し、FGのパワーをさらに活用する。
実験により,本手法はICにRLを適用する際の試料効率を大幅に向上することが示された。
私たちのコードはhttps://anonymous.4open.science/r/RLIMFG4IC-811D/で利用可能です。
Reinforcement learning (RL) has proven to be well-performed and general-purpose in the inventory control (IC). However, further improvement of RL algorithms in the IC domain is impeded due to two limitations of online experience. First, online experience is expensive to acquire in real-world applications. With the low sample efficiency nature of RL algorithms, it would take extensive time to train the RL policy to convergence. Second, online experience may not reflect the true demand due to the lost sales phenomenon typical in IC, which makes the learning process more challenging. To address the above challenges, we propose a decision framework that combines reinforcement learning with feedback graph (RLFG) and intrinsically motivated exploration (IME) to boost sample efficiency. In particular, we first take advantage of the inherent properties of lost-sales IC problems and design the feedback graph (FG) specially for lost-sales IC problems to generate abundant side experiences aid RL updates. Then we conduct a rigorous theoretical analysis of how the designed FG reduces the sample complexity of RL methods. Based on the theoretical insights, we design an intrinsic reward to direct the RL agent to explore to the state-action space with more side experiences, further exploiting FG's power. Experimental results demonstrate that our method greatly improves the sample efficiency of applying RL in IC. Our code is available at https://anonymous.4open.science/r/RLIMFG4IC-811D/ | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# Kolmogorov-Arnoldグラフニューラルネットワーク
Kolmogorov-Arnold Graph Neural Networks ( http://arxiv.org/abs/2406.18354v1 ) ライセンス: Link先を確認 | Gianluca De Carlo, Andrea Mastropietro, Aris Anagnostopoulos, | (参考訳) グラフニューラルネットワーク(GNN)は、ネットワークライクなデータから学習する上で優れていますが、解釈可能性に欠けることが多いため、透過的な意思決定を必要とするドメインではアプリケーションが困難になります。
エッジ上でのスプラインベースのアクティベーション機能を利用して精度と解釈性を向上させる新しいGNNモデルであるGraph Kolmogorov-Arnold Network (GKAN)を提案する。
GKANはノード分類,リンク予測,グラフ分類タスクにおいて,最先端のGNNモデルよりも優れていることを示す。
精度の向上に加えて、GKANの設計は本質的にモデルの意思決定プロセスに対する明確な洞察を与え、ポストホックな説明可能性技術の必要性を排除している。
本稿では、GKANの方法論、性能、解釈可能性について論じ、解釈可能性が非常に重要である領域における応用の可能性を明らかにする。
Graph neural networks (GNNs) excel in learning from network-like data but often lack interpretability, making their application challenging in domains requiring transparent decision-making. We propose the Graph Kolmogorov-Arnold Network (GKAN), a novel GNN model leveraging spline-based activation functions on edges to enhance both accuracy and interpretability. Our experiments on five benchmark datasets demonstrate that GKAN outperforms state-of-the-art GNN models in node classification, link prediction, and graph classification tasks. In addition to the improved accuracy, GKAN's design inherently provides clear insights into the model's decision-making process, eliminating the need for post-hoc explainability techniques. This paper discusses the methodology, performance, and interpretability of GKAN, highlighting its potential for applications in domains where interpretability is crucial. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# XLD:新しい駆動ビュー合成のベンチマークのためのクロスレーンデータセット
XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis ( http://arxiv.org/abs/2406.18360v1 ) ライセンス: Link先を確認 | Hao Li, Ming Yuan, Yan Zhang, Chenming Wu, Chen Zhao, Chunyu Song, Haocheng Feng, Errui Ding, Dingwen Zhang, Jingdong Wang, | (参考訳) 自動運転システムを十分にテストすることは、安全な自動運転車の追求に不可欠である。
これらのシナリオの多くは公道で頻繁に発生するため、現実世界のデータから安全に収集できる範囲を超えて安全クリティカルなシナリオを作成する必要がある。
しかし、既存のほとんどのNVS手法の評価は、トレーニングデータからの画像フレームの散発的サンプリングに依存し、レンダリングされた画像と地上の真理画像とをメトリクスを用いて比較する。
残念ながら、この評価プロトコルはクローズドループシミュレーションの実際の要件を満たしていない。
具体的には、真のアプリケーションは、(クロスレーンビューのような)オリジナルの軌跡を越えて広がる新しいビューをレンダリングする能力を必要とします。
そこで本研究では,自律走行シミュレーションに特化して設計された新しい駆動ビュー合成データセットとベンチマークを提案する。
このデータセットは、トレーニング軌跡から1-4mずれて撮影した画像のテストを含む、ユニークなものだ。
様々な時間と天候を含む6つのシーケンスから構成される。
各シーケンスには450のトレーニングイメージ、150のテストイメージ、対応するカメラポーズと固有のパラメータが含まれている。
この新たなデータセットを活用することで、フロントオンリーおよびマルチカメラ設定下で既存のNVSアプローチを評価するための、最初の現実的なベンチマークを確立します。
実験の結果は、現在のアプローチに存在する重要なギャップを浮き彫りにして、クロスレーンやクローズドループシミュレーションの要求される前提条件を満たす能力が不十分であることを明らかにした。
私たちのデータセットはプロジェクトのページで公開されています。
Thoroughly testing autonomy systems is crucial in the pursuit of safe autonomous driving vehicles. It necessitates creating safety-critical scenarios that go beyond what can be safely collected from real-world data, as many of these scenarios occur infrequently on public roads. However, the evaluation of most existing NVS methods relies on sporadic sampling of image frames from the training data, comparing the rendered images with ground truth images using metrics. Unfortunately, this evaluation protocol falls short of meeting the actual requirements in closed-loop simulations. Specifically, the true application demands the capability to render novel views that extend beyond the original trajectory (such as cross-lane views), which are challenging to capture in the real world. To address this, this paper presents a novel driving view synthesis dataset and benchmark specifically designed for autonomous driving simulations. This dataset is unique as it includes testing images captured by deviating from the training trajectory by 1-4 meters. It comprises six sequences encompassing various time and weather conditions. Each sequence contains 450 training images, 150 testing images, and their corresponding camera poses and intrinsic parameters. Leveraging this novel dataset, we establish the first realistic benchmark for evaluating existing NVS approaches under front-only and multi-camera settings. The experimental findings underscore the significant gap that exists in current approaches, revealing their inadequate ability to fulfill the demanding prerequisites of cross-lane or closed-loop simulation. Our dataset is released publicly at the project page: https://3d-aigc.github.io/XLD/. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# 1段階逆プロセスによる生体画像の安定拡散分割
Stable Diffusion Segmentation for Biomedical Images with Single-step Reverse Process ( http://arxiv.org/abs/2406.18361v1 ) ライセンス: Link先を確認 | Tianyu Lin, Zhiguang Chen, Zhonghao Yan, Fudan Zheng, Weijiang Yu, | (参考訳) 拡散モデルは、様々な生成タスクにまたがってその効果を実証してきた。
しかしながら、医療画像のセグメンテーションに適用した場合、これらのモデルは、重要なリソースや時間要件を含むいくつかの課題に直面する。
彼らはまた、信頼できる予測を生成するために、多段階の逆プロセスと複数のサンプルを必要とする。
これらの課題に対処するために、我々はSDSegと呼ばれる、安定拡散(SD)に基づく最初の潜伏拡散分割モデルを導入する。
SDSegは、単一ステップの逆過程を容易にするために単純な潜伏推定戦略を取り入れ、複数のサンプルの必要性を取り除くために潜伏融合結合を利用する。
大規模な実験により、SDSegは、多様な画像モダリティを特徴とする5つのベンチマークデータセットにおいて、既存の最先端手法を超越していることが示されている。
注目すべきは、SDSegは、単独の逆ステップとサンプルで安定した予測を生成することができ、その名前によってモデルの安定性を表わすことができることである。
コードはhttps://github.com/lin-tianyu/Stable-Diffusion-Segで公開されている。
Diffusion models have demonstrated their effectiveness across various generative tasks. However, when applied to medical image segmentation, these models encounter several challenges, including significant resource and time requirements. They also necessitate a multi-step reverse process and multiple samples to produce reliable predictions. To address these challenges, we introduce the first latent diffusion segmentation model, named SDSeg, built upon stable diffusion (SD). SDSeg incorporates a straightforward latent estimation strategy to facilitate a single-step reverse process and utilizes latent fusion concatenation to remove the necessity for multiple samples. Extensive experiments indicate that SDSeg surpasses existing state-of-the-art methods on five benchmark datasets featuring diverse imaging modalities. Remarkably, SDSeg is capable of generating stable predictions with a solitary reverse step and sample, epitomizing the model's stability as implied by its name. The code is available at https://github.com/lin-tianyu/Stable-Diffusion-Seg | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# 非マルコフ量子例外点
Non-Markovian Quantum Exceptional Points ( http://arxiv.org/abs/2406.18362v1 ) ライセンス: Link先を確認 | Jhen-Dong Lin, Po-Chen Kuo, Neill Lambert, Adam Miranowicz, Franco Nori, Yueh-Nan Chen, | (参考訳) 例外点 (EPs) は非エルミート作用素のスペクトルの特異点であり、固有値と固有ベクトルが結合する。
近年、オープン量子系は自然の非エルミート性のためにEPテストベッドとして研究されている。
しかし、既存の研究は主にマルコフの極限に焦点をあて、非マルコフの体制におけるEPの理解のギャップを残している。
本研究では,非マルコフ力学の2つの数値的正確な記述に基づく理論的枠組み,擬モード写像と階層的な運動方程式を提案することにより,このギャップに対処する。
提案フレームワークは従来のEP識別のためのスペクトル分析を可能にし,非指数崩壊や外部摂動に対する感度の向上など,オープンシステムにおけるEPと動的表現の直接的なリンクを確立する。
マルコフ極限では観測できない純粋非マルコフ EP を公表する。
興味深いことに、EPはマルコフ-非マルコフ遷移と整合し、EP条件は環境スペクトル特性を変化させることで調整可能である。
さらに, 構造化環境はEPオーダーを増大させ, システムの感度を高めることができることを示す。
これらの発見は、非マルコフ貯水池工学と非エルミート物理学の理論的基礎と新しい道を開いた。
Exceptional points (EPs) are singularities in the spectra of non-Hermitian operators, where eigenvalues and eigenvectors coalesce. Recently, open quantum systems have been increasingly explored as EP testbeds due to their natural non-Hermitian nature. However, existing works mostly focus on the Markovian limit, leaving a gap in understanding EPs in the non-Markovian regime. In this work, we address this gap by proposing a theoretical framework based on two numerically exact descriptions of non-Markovian dynamics: the pseudomode mapping and the hierarchical equations of motion. The proposed framework enables conventional spectral analysis for EP identification, establishing direct links between EPs and dynamic manifestations in open systems, such as non-exponential decays and enhanced sensitivity to external perturbations. We unveil pure non-Markovian EPs that are unobservable in the Markovian limit. Remarkably, the EP aligns with the Markovian-to-non-Markovian transition, and the EP condition is adjustable by modifying environmental spectral properties. Moreover, we show that structured environments can elevate EP order, thereby enhancing the system's sensitivity. These findings lay a theoretical foundation and open new avenues for non-Markovian reservoir engineering and non-Hermitian physics. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# 量子ソフトのビューベース開発に向けて
Towards View-based Development of Quantum Software ( http://arxiv.org/abs/2406.18363v1 ) ライセンス: Link先を確認 | Joshua Ammermann, Wolfgang Mauerer, Ina Schaefer, | (参考訳) 量子コンピューティングは、多くの異なる利害関係者の専門知識に依存する学際分野である。
量子コンピューティングの主題に関する様々な利害関係者の見解は、コミュニケーションを複雑にする可能性がある。
そこで本稿では,SUM(Single Underlying Model)とIDE(Single Quant Integrated Development Environment)に基づくビューベース量子開発手法を提案する。
今後の研究における新たな課題を強調します。
Quantum computing is an interdisciplinary field that relies on the expertise of many different stakeholders. The views of various stakeholders on the subject of quantum computing may differ, thereby complicating communication. To address this, we propose a view-based quantum development approach based on a Single Underlying Model (SUM) and a supporting quantum Integrated Development Environment (IDE). We highlight emerging challenges for future research. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# 改良BERTSum-LSTMモデルに基づくLCSTSデータセットの情報抽出に関する研究
Research on Information Extraction of LCSTS Dataset Based on an Improved BERTSum-LSTM Model ( http://arxiv.org/abs/2406.18364v1 ) ライセンス: Link先を確認 | Yiming Chen, Haobin Chen, Simin Liu, Yunyun Liu, Fanhao Zhou, Bing Wei, | (参考訳) 人工知能の継続的な進歩により、自然言語処理技術は様々な分野で広く利用されるようになった。
同時に、中国のニュース要約を作成する上で、多くの課題がある。
まず、中国のニュースの意味論は複雑であり、情報の量は膨大である。
中国のニュースから重要な情報を抽出することは大きな課題だ。
第二に、ニュースの要約は簡潔で明確で、メインのコンテンツに集中し、冗長性を避けなければならない。
また、多節語や単語分割などの中国語の特殊性は、中国語のニュース要約を生成するのを困難にしている。
本稿では,改良されたBERTSum-LSTMモデルに基づくLCSTSデータセットの情報抽出手法について検討する。
BERTSum-LSTMモデルの改良により,中国語ニュース要約生成の性能が向上する。
実験の結果,提案手法はニュース要約の作成に有効であり,ニュース要約の構築に非常に重要であることがわかった。
With the continuous advancement of artificial intelligence, natural language processing technology has become widely utilized in various fields. At the same time, there are many challenges in creating Chinese news summaries. First of all, the semantics of Chinese news is complex, and the amount of information is enormous. Extracting critical information from Chinese news presents a significant challenge. Second, the news summary should be concise and clear, focusing on the main content and avoiding redundancy. In addition, the particularity of the Chinese language, such as polysemy, word segmentation, etc., makes it challenging to generate Chinese news summaries. Based on the above, this paper studies the information extraction method of the LCSTS dataset based on an improved BERTSum-LSTM model. We improve the BERTSum-LSTM model to make it perform better in generating Chinese news summaries. The experimental results show that the proposed method has a good effect on creating news summaries, which is of great importance to the construction of news summaries. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# Themis: フレキシブルで解釈可能なNLG評価を目指して
Themis: Towards Flexible and Interpretable NLG Evaluation ( http://arxiv.org/abs/2406.18365v1 ) ライセンス: Link先を確認 | Xinyu Hu, Li Lin, Mingqi Gao, Xunjian Yin, Xiaojun Wan, | (参考訳) 自然言語生成タスク(NLG)の評価は、重要かつ長年にわたる研究課題である。
近年の強力な大規模言語モデル (LLM) の出現に伴い、一部の研究はLLMに基づく自動評価手法に転換し、従来の文字列ベースおよびモデルベースメトリクスに続く新たな評価パラダイムとなる可能性を示している。
しかし、既存のメソッドのパフォーマンスが向上したにもかかわらず、参照への依存や限られた評価の柔軟性など、いくつかの欠陥がある。
そこで本稿では,人間とGPT-4アノテーションを併用した大規模NLG評価コーパス NLG-Eval を慎重に構築し,この分野における関連データの欠如を軽減した。
さらに,NLG 評価専用の LLM である Themis を提案する。
テミスは参照なしで柔軟かつ解釈可能な評価を行うことができ、様々なNLGタスクにおいて優れた評価性能を示し、同時に見えないタスクに最適化され、GPT-4を含む他の評価モデルを上回る。
The evaluation of natural language generation (NLG) tasks is a significant and longstanding research issue. With the recent emergence of powerful large language models (LLMs), some studies have turned to LLM-based automatic evaluation methods, which demonstrate great potential to become a new evaluation paradigm following traditional string-based and model-based metrics. However, despite the improved performance of existing methods, they still possess some deficiencies, such as dependency on references and limited evaluation flexibility. Therefore, in this paper, we meticulously construct a large-scale NLG evaluation corpus NLG-Eval with human and GPT-4 annotations to alleviate the lack of relevant data in this field. Furthermore, we propose Themis, an LLM dedicated to NLG evaluation, which has been trained with our designed multi-perspective consistency and rating-oriented preference alignment methods. Themis can conduct flexible and interpretable evaluations without references, and it exhibits superior evaluation performance on various NLG tasks, simultaneously generalizing well to unseen tasks and surpassing other evaluation models, including GPT-4. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# 後悔せずに純粋な量子状態を学ぶ(ほとんど)
Learning pure quantum states (almost) without regret ( http://arxiv.org/abs/2406.18370v1 ) ライセンス: Link先を確認 | Josep Lumbreras, Mikhail Terekhov, Marco Tomamichel, | (参考訳) 最小限の後悔を伴って量子状態トモグラフィーの研究を開始する。
学習者は未知の純粋な量子状態にシーケンシャルなオラクルアクセスを持ち、各ラウンドで純粋なプローブ状態を選択する。
未知の状態がこのプローブに直交して測定された場合、レグレトは発生し、学習者の目標は、T$ラウンドよりも期待される累積的後悔を最小化することである。
課題は、最も情報性の高い測定と、最小限の後悔を招く測定のバランスを見つけることである。
我々は,最小二乗推定器の中央値に基づく新しいトモグラフィーアルゴリズムを用いて,累積的後悔のスケールを$\Theta(\operatorname{polylog} T)$として示す。
このアルゴリズムは未知の状態に偏った測定を用い、観測されたサンプル数で最適(対数項まで)のオンライン推定を生成する。
We initiate the study of quantum state tomography with minimal regret. A learner has sequential oracle access to an unknown pure quantum state, and in each round selects a pure probe state. Regret is incurred if the unknown state is measured orthogonal to this probe, and the learner's goal is to minimise the expected cumulative regret over $T$ rounds. The challenge is to find a balance between the most informative measurements and measurements incurring minimal regret. We show that the cumulative regret scales as $\Theta(\operatorname{polylog} T)$ using a new tomography algorithm based on a median of means least squares estimator. This algorithm employs measurements biased towards the unknown state and produces online estimates that are optimal (up to logarithmic terms) in the number of observed samples. | 翻訳日:2024-06-27 13:19:36 公開日:2024-06-26 |
# 音声認識のための動的データプルーニング
Dynamic Data Pruning for Automatic Speech Recognition ( http://arxiv.org/abs/2406.18373v1 ) ライセンス: Link先を確認 | Qiao Xiao, Pingchuan Ma, Adriana Fernandez-Lopez, Boqian Wu, Lu Yin, Stavros Petridis, Mykola Pechenizkiy, Maja Pantic, Decebal Constantin Mocanu, Shiwei Liu, | (参考訳) 最近のASR(Automatic Speech Recognition)の成功は、トレーニングデータの増大によるところが大きい。
しかし、この傾向はモデルトレーニングを違法に高価にし、計算要求を課している。
データプルーニングは、関連するデータの小さなサブセットを特定することでこの問題を軽減するために提案されているが、ASRでのその応用はほとんど検討されておらず、既存の研究は意味のある結果を達成するためにかなりのオーバーヘッドを伴っていることが多い。
このギャップを埋めるために,本論文では,データ70%を動的に選択して全データに到達できることを示す。
さらに,ASR (Dynamic Data Pruning for ASR, DDP-ASR) を導入した。
実験の結果,DDP-ASRは最大1.6倍のトレーニング時間を節約できることがわかった。
The recent success of Automatic Speech Recognition (ASR) is largely attributed to the ever-growing amount of training data. However, this trend has made model training prohibitively costly and imposed computational demands. While data pruning has been proposed to mitigate this issue by identifying a small subset of relevant data, its application in ASR has been barely explored, and existing works often entail significant overhead to achieve meaningful results. To fill this gap, this paper presents the first investigation of dynamic data pruning for ASR, finding that we can reach the full-data performance by dynamically selecting 70% of data. Furthermore, we introduce Dynamic Data Pruning for ASR (DDP-ASR), which offers several fine-grained pruning granularities specifically tailored for speech-related datasets, going beyond the conventional pruning of entire time sequences. Our intensive experiments show that DDP-ASR can save up to 1.6x training time with negligible performance loss. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# 多数派から少数派へ:皮膚病変解析における低表現群への拡散に基づく拡張
From Majority to Minority: A Diffusion-based Augmentation for Underrepresented Groups in Skin Lesion Analysis ( http://arxiv.org/abs/2406.18375v1 ) ライセンス: Link先を確認 | Janet Wang, Yunsung Chung, Zhengming Ding, Jihun Hamm, | (参考訳) AIに基づく診断は皮膚がんの分類における皮膚科レベルのパフォーマンスを示す。
しかし、これらのシステムは、トレーニングセットに十分な表現が欠けている少数派のグループからのデータでテストすると、性能が低くなる傾向にある。
データ収集とアノテーションはマイノリティグループを促進する最良の手段であるが、これらのプロセスはコストと時間を要する。
先行研究は、少数派の診断ツールの訓練を補完する貴重な情報源として、多数派のデータが役立っていることを示唆している。
本研究では,マイノリティグループに利益をもたらすために,多数派からの豊富な情報の利用を最大化する効果的な拡散に基づく拡張フレームワークを提案する。
本研究は, 皮膚型が異なる群を事例として, 対象群からの参照データがほとんどあるいは全くない場合でも, 少数群の診断結果を改善する合成画像を生成することができることを示した。
本研究の実際的価値は, 医用画像解析において明らかであり, 診断下診断は, 表現が不十分なため, 特定のグループに対する問題として持続する。
AI-based diagnoses have demonstrated dermatologist-level performance in classifying skin cancer. However, such systems are prone to under-performing when tested on data from minority groups that lack sufficient representation in the training sets. Although data collection and annotation offer the best means for promoting minority groups, these processes are costly and time-consuming. Prior works have suggested that data from majority groups may serve as a valuable information source to supplement the training of diagnosis tools for minority groups. In this work, we propose an effective diffusion-based augmentation framework that maximizes the use of rich information from majority groups to benefit minority groups. Using groups with different skin types as a case study, our results show that the proposed framework can generate synthetic images that improve diagnostic results for the minority groups, even when there is little or no reference data from these target groups. The practical value of our work is evident in medical imaging analysis, where under-diagnosis persists as a problem for certain groups due to insufficient representation. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# MALSIGHT: 繰り返しバイナリマルウェア要約のための悪意のあるソースコードと良質な擬似コード探索
MALSIGHT: Exploring Malicious Source Code and Benign Pseudocode for Iterative Binary Malware Summarization ( http://arxiv.org/abs/2406.18379v1 ) ライセンス: Link先を確認 | Haolang Lu, Hongrui Peng, Guoshun Nan, Jiaoyang Cui, Cheng Wang, Weifei Jin, | (参考訳) バイナリマルウェアの要約は、実行可能ファイルから人間可読なマルウェアの振る舞いの記述を自動的に生成することを目的としており、マルウェアのひび割れや検出などのタスクを容易にする。
LLM(Large Language Models)に基づいた従来の手法は、大きな可能性を秘めている。
しかし、ユーザビリティの低下、不正確な説明、不完全な要約といった重大な問題に直面している。
さらに、バイナリマルウェア内のリッチな相互作用を含む関数間の関係の呼び出しは、ほとんど探索されていないままである。
そこで本稿では,悪意のあるソースコードを探索し,バイナリマルウェアの記述を反復的に生成する新しいコード要約フレームワークMALSIGHTを提案する。
具体的には、LSMを用いて、最初のマルウェア要約であるMalSとMalPを構築し、このデータセットを人間の努力で手作業で洗練する。
トレーニング段階では、MalSデータセットと良質な擬似コードデータセットに基づいて、新しいLLMベースのコードモデルであるMalT5をチューニングします。
次に、テスト段階で擬似関数をMalT5に繰り返しフィードし、要約を得る。
このような手順は、疑似コード構造を理解し、関数間の複雑な相互作用を捉えることで、要約の使いやすさ、正確性、完全性に寄与する。
また,要約の質を評価するため,新たな評価ベンチマークBLEURT-sumを提案する。
3つのデータセットの実験は、提案したMALSIGHTの有効性を示している。
特に、提案したMalT5は、わずか0.77Bのパラメータで、はるかに大きなChatGPT3.5に匹敵するパフォーマンスを提供する。
Binary malware summarization aims to automatically generate human-readable descriptions of malware behaviors from executable files, facilitating tasks like malware cracking and detection. Previous methods based on Large Language Models (LLMs) have shown great promise. However, they still face significant issues, including poor usability, inaccurate explanations, and incomplete summaries, primarily due to the obscure pseudocode structure and the lack of malware training summaries. Further, calling relationships between functions, which involve the rich interactions within a binary malware, remain largely underexplored. To this end, we propose MALSIGHT, a novel code summarization framework that can iteratively generate descriptions of binary malware by exploring malicious source code and benign pseudocode. Specifically, we construct the first malware summaries, MalS and MalP, using an LLM and manually refine this dataset with human effort. At the training stage, we tune our proposed MalT5, a novel LLM-based code model, on the MalS dataset and a benign pseudocode dataset. Then, at the test stage, we iteratively feed the pseudocode functions into MalT5 to obtain the summary. Such a procedure facilitates the understanding of pseudocode structure and captures the intricate interactions between functions, thereby benefiting the usability, accuracy, and completeness of summaries. Additionally, we propose a novel evaluation benchmark, BLEURT-sum, to measure the quality of summaries. Experiments on three datasets show the effectiveness of the proposed MALSIGHT. Notably, our proposed MalT5, with only 0.77B parameters, delivers comparable performance to much larger ChatGPT3.5. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# KAGNNs: Kolmogorov-Arnold Networksがグラフ学習に対応
KAGNNs: Kolmogorov-Arnold Networks meet Graph Learning ( http://arxiv.org/abs/2406.18380v1 ) ライセンス: Link先を確認 | Roman Bresson, Giannis Nikolentzos, George Panagopoulos, Michail Chatzianastasis, Jun Pang, Michalis Vazirgiannis, | (参考訳) 近年,グラフニューラルネットワーク(GNN)は,ノードやグラフ表現を学習するためのデファクトツールとなっている。
ほとんどのGNNは、概して近隣のアグリゲーション層(すなわちメッセージパッシング層)で構成されている。
これらの各層の中で、各ノードの表現は、前層の隣り合う表現の集約と変換から更新される。
メッセージパッシングGNNの表現力の上限は、その普遍的な近似能力のため、MLPを変換として使用することで達成された。
しかし、MLPはよく知られた制限に悩まされ、最近KAN(Kolmogorov-Arnold Networks)を導入した。
カンはコルモゴロフ=アルノルドの表現定理に依存しており、MLPの代替として有望である。
本研究では,グラフ学習タスクにおけるKansの性能とMLPの性能を比較した。
ノード分類、グラフ分類、グラフ回帰データセットについて広範な実験を行う。
予備的な結果から,kan は分類タスクにおいて MLP と同等であるが,グラフ回帰タスクにおいて明らかな優位性を持っていることが示唆された。
In recent years, Graph Neural Networks (GNNs) have become the de facto tool for learning node and graph representations. Most GNNs typically consist of a sequence of neighborhood aggregation (a.k.a., message passing) layers. Within each of these layers, the representation of each node is updated from an aggregation and transformation of its neighbours representations at the previous layer. The upper bound for the expressive power of message passing GNNs was reached through the use of MLPs as a transformation, due to their universal approximation capabilities. However, MLPs suffer from well-known limitations, which recently motivated the introduction of Kolmogorov-Arnold Networks (KANs). KANs rely on the Kolmogorov-Arnold representation theorem, rendering them a promising alternative to MLPs. In this work, we compare the performance of KANs against that of MLPs in graph learning tasks. We perform extensive experiments on node classification, graph classification and graph regression datasets. Our preliminary results indicate that while KANs are on-par with MLPs in classification tasks, they seem to have a clear advantage in the graph regression tasks. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# 大規模言語モデルに対する逆探索エンジン最適化
Adversarial Search Engine Optimization for Large Language Models ( http://arxiv.org/abs/2406.18382v1 ) ライセンス: Link先を確認 | Fredrik Nestaas, Edoardo Debenedetti, Florian Tramèr, | (参考訳) 大規模言語モデル(LLM)は、LLMベースの検索エンジンやチャットボットプラグインなど、競合するサードパーティのコンテンツからモデルを選択するアプリケーションで、ますます使われている。
本稿では、LLMの選択を操作して攻撃者を支持する新しいタイプの攻撃であるPreference Manipulation Attacksを紹介する。
注意深いWebサイトコンテンツやプラグインのドキュメンテーションは、LLMを騙して攻撃的製品を宣伝し、競合を軽視し、ユーザトラフィックと収益化を増大させることができることを実証する。
これは囚人のジレンマにつながり、全ての当事者が攻撃を開始する動機付けを受けるが、集団的効果はLLMの出力を低下させる。
実運用LLM検索エンジン(BingとPerplexity)とプラグインAPI(GPT-4とClaude)に対する攻撃を実演する。
LLMは、サードパーティのコンテンツのランク付けにますます使われているので、Preference Manipulation Attacksが重大な脅威になることを期待している。
Large Language Models (LLMs) are increasingly used in applications where the model selects from competing third-party content, such as in LLM-powered search engines or chatbot plugins. In this paper, we introduce Preference Manipulation Attacks, a new class of attacks that manipulate an LLM's selections to favor the attacker. We demonstrate that carefully crafted website content or plugin documentations can trick an LLM to promote the attacker products and discredit competitors, thereby increasing user traffic and monetization. We show this leads to a prisoner's dilemma, where all parties are incentivized to launch attacks, but the collective effect degrades the LLM's outputs for everyone. We demonstrate our attacks on production LLM search engines (Bing and Perplexity) and plugin APIs (for GPT-4 and Claude). As LLMs are increasingly used to rank third-party content, we expect Preference Manipulation Attacks to emerge as a significant threat. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# DoubleTake: 幾何学ガイドによる深さ推定
DoubleTake: Geometry Guided Depth Estimation ( http://arxiv.org/abs/2406.18387v1 ) ライセンス: Link先を確認 | Mohamed Sayed, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Guillermo Garcia-Hernando, Gabriel Brostow, Sara Vicente, Michael Firman, | (参考訳) 提案されたRGBイメージのシーケンスから深さを推定することは、拡張現実や経路計画などの応用を含む、基本的なコンピュータビジョンタスクである。
以前の作業は通常、局所的な近所のテクスチャに合わせて、マルチビューステレオフレームワークで以前のフレームを使用する。
対照的に、我々のモデルは、最新の3次元幾何学データを我々のネットワークに付加的な入力として与えることで、過去の予測を活用する。
この自己生成幾何学的ヒントは、キーフレームがカバーしていないシーンのエリアから情報を符号化することができ、以前のフレームの予測深度マップと比較してより規則化されたものである。
我々は,Hint MLPを導入し,既存のカメラ位置からの奥行きマップとしてレンダリングされた,コスト容積特徴と先行幾何学のヒントを組み合わせ,先行幾何学の信頼性を測る。
対話的な速度で動作可能な本手法は,オフラインおよびインクリメンタルな評価シナリオにおいて,最先端の深度推定と3次元シーン再構成を実現する。
Estimating depth from a sequence of posed RGB images is a fundamental computer vision task, with applications in augmented reality, path planning etc. Prior work typically makes use of previous frames in a multi view stereo framework, relying on matching textures in a local neighborhood. In contrast, our model leverages historical predictions by giving the latest 3D geometry data as an extra input to our network. This self-generated geometric hint can encode information from areas of the scene not covered by the keyframes and it is more regularized when compared to individual predicted depth maps for previous frames. We introduce a Hint MLP which combines cost volume features with a hint of the prior geometry, rendered as a depth map from the current camera location, together with a measure of the confidence in the prior geometry. We demonstrate that our method, which can run at interactive speeds, achieves state-of-the-art estimates of depth and 3D scene reconstruction in both offline and incremental evaluation scenarios. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# SAM:拡張型連続マニピュレータのセミアクティブ機構とリアルタイムヒステリシス補償制御アルゴリズム
SAM: Semi-Active Mechanism for Extensible Continuum Manipulator and Real-time Hysteresis Compensation Control Algorithm ( http://arxiv.org/abs/2406.18388v1 ) ライセンス: Link先を確認 | Junhyun Park, Seonghyeok Jang, Myeongbo Park, Hyojae Park, Jeonghyeon Yoon, Minho Hwang, | (参考訳) Cable-Driven Continuum Manipulator (CDCMs) は、天然のオリフィスによる傷跡のない処置を可能にし、湾曲した経路による標的病変のアクセシビリティを向上させる。
しかし、CDCMは作業空間の制限や、ヒステリシスを引き起こす非線形ケーブル効果による制御精度に直面する。
本稿では,機械的要素やアクティベーションを伴わない翻訳動作により作業空間を拡張するための,セミアクティブ機構(SAM)を備えた拡張可能なCDCMを提案する。
我々は8つのフィデューシャルマーカーとRGBDセンシングを用いてヒステリシスデータセットを収集した。
このデータセットに基づいて,トレーニングされた時間変化ネットワーク(TCN)を用いたリアルタイムヒステリシス補償制御アルゴリズムを開発し,マニピュレータのヒステリシス挙動を効果的に推定する。
ランダムな軌道追跡テストとボックスポインティングタスクによる性能検証により、提案したコントローラは、関節空間で69.5%、ボックスポインティングタスクで約26%のヒステリシスを著しく低減する。
Cable-Driven Continuum Manipulators (CDCMs) enable scar-free procedures via natural orifices and improve target lesion accessibility through curved paths. However, CDCMs face limitations in workspace and control accuracy due to non-linear cable effects causing hysteresis. This paper introduces an extensible CDCM with a Semi-active Mechanism (SAM) to expand the workspace via translational motion without additional mechanical elements or actuation. We collect a hysteresis dataset using 8 fiducial markers and RGBD sensing. Based on this dataset, we develop a real-time hysteresis compensation control algorithm using the trained Temporal Convolutional Network (TCN) with a 1ms time latency, effectively estimating the manipulator's hysteresis behavior. Performance validation through random trajectory tracking tests and box pointing tasks shows the proposed controller significantly reduces hysteresis by up to 69.5% in joint space and approximately 26% in the box pointing task. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# IoTにおけるブロックチェーンベースのゼロ知識証明
Blockchain Based Zero-Knowledge Proof of Location in IoT ( http://arxiv.org/abs/2406.18389v1 ) ライセンス: Link先を確認 | Wei Wu, Erwu Liu, Xinglin Gong, Rui Wang, | (参考訳) 正確な位置決め技術の発達に伴い、多くの位置情報サービス(LBS)が人々の生活を促進する。
ほとんどのLBSは、ユーザがサービス要件を満たすことを証明するために、ユーザのプライバシを公開するために、位置証明(PoL)を必要とする。
本稿では,ユーザのプライバシーをより保護するために,ゼロ知識による位置証明(zk-PoL)プロトコルを提案する。
zk-PoLプロトコルを使用すると、ユーザはサーバに公開するために必要な情報を選択することができ、階層的なプライバシ保護を実現することができる。
評価の結果、zk-PoLは主攻撃に対して優れたセキュリティを有し、計算効率は入力パラメータとは独立であり、zk-PoLは遅延耐性LBSに適していることがわかった。
With the development of precise positioning technology, a growing number of location-based services (LBSs) facilitate people's life. Most LBSs require proof of location (PoL) to prove that the user satisfies the service requirement, which exposes the user's privacy. In this paper, we propose a zero-knowledge proof of location (zk-PoL) protocol to better protect the user's privacy. With the zk-PoL protocol, the user can choose necessary information to expose to the server, so that hierarchical privacy protection can be achieved. The evaluation shows that the zk-PoL has excellent security to resist main attacks, moreover the computational efficiency is independent of input parameters and the zk-PoL is appropriate to delay-tolerant LBSs. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# AlphaForge: フォーミュラ的なアルファファクタのマイニングと動的結合のためのフレームワーク
AlphaForge: A Framework to Mine and Dynamically Combine Formulaic Alpha Factors ( http://arxiv.org/abs/2406.18394v1 ) ライセンス: Link先を確認 | Hao Shi, Cuicui Luo, Weili Song, Xinting Zhang, Xiang Ao, | (参考訳) 金融データの変動性と低信号-雑音比は、解釈可能性の必要性と相まって、アルファファクターマイニングワークフローを量的投資の重要な要素にしている。
この領域の最も先進的なアプローチは、初期の手動抽出から遺伝的プログラミングへ移行し、現在、一連の組み合わせ因子と固定重みをマイニングするために強化学習を採用している。
しかし、結果として得られるアルファ因子のパフォーマンスは不整合を示し、固定因子重みの柔軟性は金融市場のダイナミックな性質に適応するには不十分である。
そこで本研究では,α因子マイニングと因子結合のための2段階式アルファ生成フレームワークAlphaForgeを提案する。
このフレームワークは、生成予測ニューラルネットワークを使用して要因を生成し、多様性を同時に保存しながら、ディープラーニングに固有の堅牢な空間探索能力を活用する。
フレームワーク内の組み合わせモデルは、選択のための要因の時間的性能を取り入れ、各成分のアルファ因子に割り当てられた重みを動的に調整する。
実世界のデータセットを用いて行った実験により,我々の提案したモデルは,定式的アルファファクターマイニングにおいて,同時代のベンチマークより優れていることが示された。
さらに,本モデルでは,量的投資の範囲内でポートフォリオリターンの顕著な向上を示す。
The variability and low signal-to-noise ratio in financial data, combined with the necessity for interpretability, make the alpha factor mining workflow a crucial component of quantitative investment. Transitioning from early manual extraction to genetic programming, the most advanced approach in this domain currently employs reinforcement learning to mine a set of combination factors with fixed weights. However, the performance of resultant alpha factors exhibits inconsistency, and the inflexibility of fixed factor weights proves insufficient in adapting to the dynamic nature of financial markets. To address this issue, this paper proposes a two-stage formulaic alpha generating framework AlphaForge, for alpha factor mining and factor combination. This framework employs a generative-predictive neural network to generate factors, leveraging the robust spatial exploration capabilities inherent in deep learning while concurrently preserving diversity. The combination model within the framework incorporates the temporal performance of factors for selection and dynamically adjusts the weights assigned to each component alpha factor. Experiments conducted on real-world datasets demonstrate that our proposed model outperforms contemporary benchmarks in formulaic alpha factor mining. Furthermore, our model exhibits a notable enhancement in portfolio returns within the realm of quantitative investment. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# ガウスランダム場の第2次最大値とエクササイズ試験
Second Maximum of a Gaussian Random Field and Exact (t-)Spacing test ( http://arxiv.org/abs/2406.18397v1 ) ライセンス: Link先を確認 | Azaïs Jean-Marc, Dalmao Federico, De Castro Yohann, | (参考訳) 本稿では、リーマン部分多様体上のガウス乱体の第2次極大の概念を紹介する。
この第2の最大値は、最大値の分布を特徴づける強力なツールとして機能する。
副次的なカツライス式を用いて, リーマン・ヘッセンの最大値と回帰成分を条件に, 最大値分布の明示的な形式を導出した。
このアプローチは,これらの最大値間の間隔の評価に基づいて,正確なテストを行う。
本研究では, ガウス対称テンソル, 連続スパースデコンボリューション, およびスムーズ整流器を有する2層ニューラルネットワークにおけるスパースオルタナティブの検出における本試験の適用性を検討した。
提案実験のキャリブレーションとパワーを示す数値実験により理論的結果が得られた。
より一般に、このテストはリーマン多様体上の任意のガウス確率場に適用でき、連続スパース核回帰におけるスペーシングテストの適用のための一般的なフレームワークを提供する。
さらに, ガウス確率場の分散共分散関数をスケーリング係数まで知っていれば, 正確な学生版を導出し, $t$-spacing test を作成した。
このテストは、ヌル仮説の下で完全に校正され、スパースオルタナティブを検出する力が高い。
In this article, we introduce the novel concept of the second maximum of a Gaussian random field on a Riemannian submanifold. This second maximum serves as a powerful tool for characterizing the distribution of the maximum. By utilizing an ad-hoc Kac Rice formula, we derive the explicit form of the maximum's distribution, conditioned on the second maximum and some regressed component of the Riemannian Hessian. This approach results in an exact test, based on the evaluation of spacing between these maxima, which we refer to as the spacing test. We investigate the applicability of this test in detecting sparse alternatives within Gaussian symmetric tensors, continuous sparse deconvolution, and two-layered neural networks with smooth rectifiers. Our theoretical results are supported by numerical experiments, which illustrate the calibration and power of the proposed tests. More generally, this test can be applied to any Gaussian random field on a Riemannian manifold, and we provide a general framework for the application of the spacing test in continuous sparse kernel regression. Furthermore, when the variance-covariance function of the Gaussian random field is known up to a scaling factor, we derive an exact Studentized version of our test, coined the $t$-spacing test. This test is perfectly calibrated under the null hypothesis and has high power for detecting sparse alternatives. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# LLMはゾウの夢(そうは言っていない)を夢見るか? : トランスフォーマーにおける潜在概念関連と連想記憶
Do LLMs dream of elephants (when told not to)? Latent concept association and associative memory in transformers ( http://arxiv.org/abs/2406.18400v1 ) ライセンス: Link先を確認 | Yibo Jiang, Goutham Rajendran, Pradeep Ravikumar, Bryon Aragam, | (参考訳) LLM(Large Language Models)は、事実を保存およびリコールする能力を持つ。
オープンソースモデルによる実験により,事実を検索する能力は,事実の意味を変えることなく,文脈を変えることで容易に操作できることが観察された。
これらの知見は、LLMは、コンテキスト内の特定のトークンが事実を検索するための手がかりとなる連想記憶モデルのように振る舞う可能性があることを浮き彫りにしている。
我々は,LLMの構成要素であるトランスフォーマーが,そのようなメモリタスクをいかに完了させるかを研究することによって,この特性を数学的に探索する。
単層変圧器を用いた単純な潜伏概念関連問題について検討し、この変圧器が自己アテンションを用いて情報を収集し、その値行列を連想記憶に用いることを理論的かつ実証的に示す。
Large Language Models (LLMs) have the capacity to store and recall facts. Through experimentation with open-source models, we observe that this ability to retrieve facts can be easily manipulated by changing contexts, even without altering their factual meanings. These findings highlight that LLMs might behave like an associative memory model where certain tokens in the contexts serve as clues to retrieving facts. We mathematically explore this property by studying how transformers, the building blocks of LLMs, can complete such memory tasks. We study a simple latent concept association problem with a one-layer transformer and we show theoretically and empirically that the transformer gathers information using self-attention and uses the value matrix for associative memory. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# 人間の判断に代えてLLM : 20NLP評価課題における大規模実証的研究
LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks ( http://arxiv.org/abs/2406.18403v1 ) ライセンス: Link先を確認 | Anna Bavaresco, Raffaella Bernardi, Leonardo Bertolazzi, Desmond Elliott, Raquel Fernández, Albert Gatt, Esam Ghaleb, Mario Giulianelli, Michael Hanna, Alexander Koller, André F. T. Martins, Philipp Mondorf, Vera Neplenbroek, Sandro Pezzelle, Barbara Plank, David Schlangen, Alessandro Suglia, Aditya K Surikuchi, Ece Takmaz, Alberto Testoni, | (参考訳) 人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。
人間のデータとの比較がない場合には、これらの評価の有効性に対する懸念が高まり、プロプライエタリなモデルで実施される場合、再現性に対する懸念も高まる。
JUDGE-BENCHは、人間のアノテーションを持つ20のNLPデータセットの集合であり、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを、アノテーションを複製する機能として包括的に評価する。
評価の結果,LLMは人的判断との相関関係において,データセット間で大きなばらつきを示すことがわかった。
LLMはNLPにおける人間の判断を体系的に置き換える準備が整っていないと結論付けている。
There is an increasing trend towards evaluating NLP models with LLM-generated judgments instead of human judgments. In the absence of a comparison against human data, this raises concerns about the validity of these evaluations; in case they are conducted with proprietary models, this also raises concerns over reproducibility. We provide JUDGE-BENCH, a collection of 20 NLP datasets with human annotations, and comprehensively evaluate 11 current LLMs, covering both open-weight and proprietary models, for their ability to replicate the annotations. Our evaluations show that each LLM exhibits a large variance across datasets in its correlation to human judgments. We conclude that LLMs are not yet ready to systematically replace human judges in NLP. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# IRCAN:文脈認識ニューロンの同定と重み付けによるLLM生成における知識衝突の軽減
IRCAN: Mitigating Knowledge Conflicts in LLM Generation via Identifying and Reweighting Context-Aware Neurons ( http://arxiv.org/abs/2406.18406v1 ) ライセンス: Link先を確認 | Dan Shi, Renren Jin, Tianhao Shen, Weilong Dong, Xinwei Wu, Deyi Xiong, | (参考訳) 大規模言語モデル(LLM)は、大量データで訓練された後、膨大な量の知識を符号化していると広く認識されている。
近年の研究では、LLM生成における知識の矛盾が明らかにされており、古いまたは誤ったパラメトリック知識(すなわち、符号化された知識)は、文脈で提供される新しい知識と矛盾している。
このような知識紛争を緩和するために,コンテキスト認識ニューロンを識別・再重み付けするIRCAN(Identifying and Reweighting Context-Aware Neurons)を提案する。
特に、IRCANは、統合勾配から導かれる文脈認識属性スコアを利用して、コンテキスト処理に大きく寄与するニューロンを最初に同定する。
その後、認識された文脈認識ニューロンは再重み付けにより強化される。
そこで我々は,LLMを用いて,文脈に付与された新たな知識に対して,文脈に敏感なアウトプットを生成する。
さまざまなモデルやタスクにまたがる大規模な実験により、IRCANは知識の衝突処理における顕著な改善を達成するだけでなく、既存のモデルとシームレスに統合可能なスケーラブルなプラグイン・アンド・プレイソリューションも提供することが示された。
It is widely acknowledged that large language models (LLMs) encode a vast reservoir of knowledge after being trained on mass data. Recent studies disclose knowledge conflicts in LLM generation, wherein outdated or incorrect parametric knowledge (i.e., encoded knowledge) contradicts new knowledge provided in the context. To mitigate such knowledge conflicts, we propose a novel framework, IRCAN (Identifying and Reweighting Context-Aware Neurons) to capitalize on neurons that are crucial in processing contextual cues. Specifically, IRCAN first identifies neurons that significantly contribute to context processing, utilizing a context-aware attribution score derived from integrated gradients. Subsequently, the identified context-aware neurons are strengthened via reweighting. In doing so, we steer LLMs to generate context-sensitive outputs with respect to the new knowledge provided in the context. Extensive experiments conducted across a variety of models and tasks demonstrate that IRCAN not only achieves remarkable improvements in handling knowledge conflicts but also offers a scalable, plug-andplay solution that can be integrated seamlessly with existing models. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# ゲート仮想化による量子計算のスケーリング
Scaling Quantum Computations via Gate Virtualization ( http://arxiv.org/abs/2406.18410v1 ) ライセンス: Link先を確認 | Nathaniel Tornow, Emmanouil Giortamis, Martin Ruefenacht, Pramod Bhatotia, | (参考訳) ゲート仮想化を活用することで、ノイズや小型量子プロセッサ(QPU)に高い忠実度を持つ大規模量子回路をスケーラブルに実行するための、エンドツーエンドの汎用システムであるQuantum Virtual Machine(QVM)を提案する。
QVMは仮想回路中間表現(IR)を公開し、量子回路の概念を拡張してゲート仮想化を組み込む。
我々のIRとして仮想回路をベースとして、一連のモジュール最適化パスを通じて仮想回路をトランスパイルする拡張可能なコンパイラ基盤であるQVMコンパイラを提案し、最適化された回路フラグメントの集合を生成する。
最後に、これらのトランスパイルされた回路フラグメントは、分散QPUのセット上で回路フラグメントを仮想化および実行するためのスケーラブルで分散インフラストラクチャであるQVMランタイムを使用して、QPU上で実行される。
我々はIBMの7ビットと27ビットのQPU上でQVMを評価する。
評価の結果,QPUの回路サイズをQPUの2倍に拡張できると同時に,QPUの回路深さを4.7$\times$に向上できることがわかった。
We present the Quantum Virtual Machine (QVM), an end-to-end generic system for scalable execution of large quantum circuits with high fidelity on noisy and small quantum processors (QPUs) by leveraging gate virtualization. QVM exposes a virtual circuit intermediate representation (IR) that extends the notion of quantum circuits to incorporate gate virtualization. Based on the virtual circuit as our IR, we propose the QVM compiler - an extensible compiler infrastructure to transpile a virtual circuit through a series of modular optimization passes to produce a set of optimized circuit fragments. Lastly, these transpiled circuit fragments are executed on QPUs using our QVM runtime - a scalable and distributed infrastructure to virtualize and execute circuit fragments on a set of distributed QPUs. We evaluate QVM on IBM's 7- and 27-qubit QPUs. Our evaluation shows that using our system, we can scale the circuit sizes executable on QPUs up to double the size of the QPU while improving fidelity by 4.7$\times$ on average compared to larger QPUs and that we can effectively reduce circuit depths to only 40\% of the original circuit depths. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# BiTrack:カメラ-LiDARデータによる双方向のオフライン3次元物体追跡
BiTrack: Bidirectional Offline 3D Multi-Object Tracking Using Camera-LiDAR Data ( http://arxiv.org/abs/2406.18414v1 ) ライセンス: Link先を確認 | Kemiao Huang, Meiying Zhang, Qi Hao, | (参考訳) リアルタイムマルチオブジェクト追跡(MOT)と比較して、オフラインマルチオブジェクト追跡(OMOT)は、2D-3D検出融合、誤リンク補正、全トラック最適化を行う利点があるが、バウンディングボックスのミスアライメントやトラック評価、編集、改善といった課題に対処しなければならない。
本稿では,2次元3次元検出融合,初期軌道生成,双方向軌道再最適化のモジュールを含む3次元OMOTフレームワークであるBiTrackを提案する。
本論文の新規性は,(1)密度に基づく類似度測定を用いて2次元3次元検出結果の正確な融合を実現する点レベルオブジェクト登録手法の開発,(2)頂点に基づく類似度測定値を利用する一連のデータアソシエーション・トラック管理技術の開発,(2)信頼度の高い双方向物体軌道を生成する偽アラーム検出・トラック回復機構の開発,(3)異なる要素のトラック断片を再編成する軌跡再最適化スキームの開発,そして,それぞれの軌跡を完成・平滑化技術で洗練することである。
KITTIデータセットを用いた実験結果から,BiTrackは3次元OMOTタスクの最先端性能を精度と効率で達成できることが示された。
Compared with real-time multi-object tracking (MOT), offline multi-object tracking (OMOT) has the advantages to perform 2D-3D detection fusion, erroneous link correction, and full track optimization but has to deal with the challenges from bounding box misalignment and track evaluation, editing, and refinement. This paper proposes "BiTrack", a 3D OMOT framework that includes modules of 2D-3D detection fusion, initial trajectory generation, and bidirectional trajectory re-optimization to achieve optimal tracking results from camera-LiDAR data. The novelty of this paper includes threefold: (1) development of a point-level object registration technique that employs a density-based similarity metric to achieve accurate fusion of 2D-3D detection results; (2) development of a set of data association and track management skills that utilizes a vertex-based similarity metric as well as false alarm rejection and track recovery mechanisms to generate reliable bidirectional object trajectories; (3) development of a trajectory re-optimization scheme that re-organizes track fragments of different fidelities in a greedy fashion, as well as refines each trajectory with completion and smoothing techniques. The experiment results on the KITTI dataset demonstrate that BiTrack achieves the state-of-the-art performance for 3D OMOT tasks in terms of accuracy and efficiency. | 翻訳日:2024-06-27 13:09:50 公開日:2024-06-26 |
# 大規模海氷モデリングのための拡散モデルに向けて
Towards diffusion models for large-scale sea-ice modelling ( http://arxiv.org/abs/2406.18417v1 ) ライセンス: Link先を確認 | Tobias Sebastian Finn, Charlotte Durand, Alban Farchi, Marc Bocquet, Julien Brajard, | (参考訳) 我々は,多変量および北極域の海氷状態の無条件生成のための拡散モデルへの第一歩を提示する。
潜在空間での拡散による計算コストの削減を目標とする一方で、潜在拡散モデルは、生成プロセスに物理知識を統合する可能性も提供する。
データ空間におけるガウス分布を検閲して、潜伏拡散モデルを海氷物理学に調整し、モデル化された変数の物理的境界に従うデータを生成する。
我々の潜伏拡散モデルは、データ空間で訓練された拡散モデルと同様のスコアに達するが、潜伏写像によって生成されたフィールドは滑らかである。
物理的境界を強制することは平滑化を減少させることはできないが、限界氷帯の表現を改善する。
したがって、大規模な地球系モデリングでは、スムース化の重要な障壁を解消できるならば、データ空間の拡散に比べて遅延拡散モデルには多くの利点がある。
We make the first steps towards diffusion models for unconditional generation of multivariate and Arctic-wide sea-ice states. While targeting to reduce the computational costs by diffusion in latent space, latent diffusion models also offer the possibility to integrate physical knowledge into the generation process. We tailor latent diffusion models to sea-ice physics with a censored Gaussian distribution in data space to generate data that follows the physical bounds of the modelled variables. Our latent diffusion models reach similar scores as the diffusion model trained in data space, but they smooth the generated fields as caused by the latent mapping. While enforcing physical bounds cannot reduce the smoothing, it improves the representation of the marginal ice zone. Therefore, for large-scale Earth system modelling, latent diffusion models can have many advantages compared to diffusion in data space if the significant barrier of smoothing can be resolved. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# コミュニケーション効率の良い分散学習のための差分誤差フィードバック
Differential error feedback for communication-efficient decentralized learning ( http://arxiv.org/abs/2406.18418v1 ) ライセンス: Link先を確認 | Roula Nassif, Stefan Vlaski, Marco Carpentiero, Vincenzo Matta, Ali H. Sayed, | (参考訳) 分散学習と最適化のための通信制約付きアルゴリズムは、圧縮信号の交換に伴う局所的な更新に依存している。
この文脈では、微分量子化は連続する繰り返しの相関を利用して圧縮の負の影響を緩和する有効な手法である。
さらに、圧縮エラーをその後のステップに組み込んだエラーフィードバックを用いることは、圧縮によるバイアスを補償する強力なメカニズムである。
誤りフィードバックの下では、文献における性能保証は、有限ビットで実装できないフュージョンセンタや特別な種類の収縮圧縮機を用いるアルゴリズムに焦点が当てられている。
本研究では,差分量子化と誤りフィードバックをブレンドする分散通信効率学習手法を提案する。
この手法は、エージェントが低次元のサブスペースに配置するためにネットワーク上の最小限の制約を最小化するために、個別のリスク関数を持つ分散学習問題に特化している。
この制約付き定式化は、特別な場合としてコンセンサスやシングルタスク最適化を含み、マルチタスクの滑らかさや結合最適化のようなより一般的なタスク関連性モデルを可能にする。
圧縮雑音の一般的な条件下では、十分小さなステップサイズ$\mu$の場合、平均二乗誤差と平均ビットレートの両方で得られる通信効率の戦略が安定であることが示される:$\mu$を減らせば、ビットレートが$\mu\rightarrow 0$と不確定に増加することなく、推定誤差を小さく保つことができる($\mu$の順序で)。
その結果、小さなステップサイズで有限ビットの場合には、圧縮がない場合に達成可能な性能が得られることが判明した。
Communication-constrained algorithms for decentralized learning and optimization rely on local updates coupled with the exchange of compressed signals. In this context, differential quantization is an effective technique to mitigate the negative impact of compression by leveraging correlations between successive iterates. In addition, the use of error feedback, which consists of incorporating the compression error into subsequent steps, is a powerful mechanism to compensate for the bias caused by the compression. Under error feedback, performance guarantees in the literature have so far focused on algorithms employing a fusion center or a special class of contractive compressors that cannot be implemented with a finite number of bits. In this work, we propose a new decentralized communication-efficient learning approach that blends differential quantization with error feedback. The approach is specifically tailored for decentralized learning problems where agents have individual risk functions to minimize subject to subspace constraints that require the minimizers across the network to lie in low-dimensional subspaces. This constrained formulation includes consensus or single-task optimization as special cases, and allows for more general task relatedness models such as multitask smoothness and coupled optimization. We show that, under some general conditions on the compression noise, and for sufficiently small step-sizes $\mu$, the resulting communication-efficient strategy is stable both in terms of mean-square error and average bit rate: by reducing $\mu$, it is possible to keep the estimation errors small (on the order of $\mu$) without increasing indefinitely the bit rate as $\mu\rightarrow 0$. The results establish that, in the small step-size regime and with a finite number of bits, it is possible to attain the performance achievable in the absence of compression. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# RL設定の混合におけるエキスパートの混合
Mixture of Experts in a Mixture of RL settings ( http://arxiv.org/abs/2406.18420v1 ) ライセンス: Link先を確認 | Timon Willi, Johan Obando-Ceron, Jakob Foerster, Karolina Dziugaite, Pablo Samuel Castro, | (参考訳) ミキチャー・オブ・エキスパート(MoE)は、推論効率の向上、分散トレーニングへの適応性、モジュール性により、(自己)教師付き学習において注目されている。
従来の研究は、ネットワークのパラメータ数を拡大し、休眠ニューロンを減らし、モデルの学習能力と非定常性を扱う能力を高めることで、MoEsがDeep Reinforcement Learning (DRL)のパフォーマンスを著しく向上させることができることを示した。
本研究では,非定常性に対処するMoEsの能力について,マルチタスクトレーニングを通じて,DRL設定におけるMoEsの「増幅された」非定常性について検討し,MoEsが学習能力を向上させることのさらなる証拠を提供する。
従来の研究とは対照的に、我々のマルチタスクの結果は、DRLトレーニングにおけるMoEの有益な影響、様々なMoEコンポーネントの影響、そしてアクター批判に基づくDRLネットワークにそれらを組み込むのに最適な方法に関する洞察の根底にある原因をより深く理解することができる。
最後に、過去の研究結果も確認する。
Mixtures of Experts (MoEs) have gained prominence in (self-)supervised learning due to their enhanced inference efficiency, adaptability to distributed training, and modularity. Previous research has illustrated that MoEs can significantly boost Deep Reinforcement Learning (DRL) performance by expanding the network's parameter count while reducing dormant neurons, thereby enhancing the model's learning capacity and ability to deal with non-stationarity. In this work, we shed more light on MoEs' ability to deal with non-stationarity and investigate MoEs in DRL settings with "amplified" non-stationarity via multi-task training, providing further evidence that MoEs improve learning capacity. In contrast to previous work, our multi-task results allow us to better understand the underlying causes for the beneficial effect of MoE in DRL training, the impact of the various MoE components, and insights into how best to incorporate them in actor-critic-based DRL networks. Finally, we also confirm results from previous work. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# 反復と連結:3次元から3次元生成モデルによる2次元から3次元への画像変換
Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling ( http://arxiv.org/abs/2406.18422v1 ) ライセンス: Link先を確認 | Abril Corona-Figueroa, Hubert P. H. Shum, Chris G. Willcocks, | (参考訳) 本稿では, 直接的手法を用いて2次元から3次元への画像変換手法について検討し, 3次元CTに類似した2次元X線と3次元CTライクな再構成を可能にした。
潜在空間における複数の2次元ビューにまたがる情報を統合する既存の手法は、潜時符号化において貴重な信号情報を失う。
代わりに、2Dビューを高チャンネルの3Dボリュームに分割し、単純な3Dから3D生成モデル問題として3D再構成課題にアプローチし、いくつかの複雑なモデリング問題をサイドステッピングする。
この方法では、再構成された3Dボリュームが、Swin UNETRバックボーン内のチャネル状態間で渡される2D入力から貴重な情報を保持することができる。
本手法では, 高速かつ安定なニューラル最適輸送を応用し, 正確なアライメントを必要とせずに複数のビューに信号情報を効果的に統合し, 限られた訓練をしても2次元ビューに忠実な非崩壊的再構成を生成する。
定性的かつ定量的に相関した結果を示し、我々のモデルを1つのデータセットで訓練し、アウト・オブ・ディストリビューション・サンプルを含む6つのデータセットにわたる一般化能力を評価した。
This paper investigates a 2D to 3D image translation method with a straightforward technique, enabling correlated 2D X-ray to 3D CT-like reconstruction. We observe that existing approaches, which integrate information across multiple 2D views in the latent space, lose valuable signal information during latent encoding. Instead, we simply repeat and concatenate the 2D views into higher-channel 3D volumes and approach the 3D reconstruction challenge as a straightforward 3D to 3D generative modeling problem, sidestepping several complex modeling issues. This method enables the reconstructed 3D volume to retain valuable information from the 2D inputs, which are passed between channel states in a Swin UNETR backbone. Our approach applies neural optimal transport, which is fast and stable to train, effectively integrating signal information across multiple views without the requirement for precise alignment; it produces non-collapsed reconstructions that are highly faithful to the 2D views, even after limited training. We demonstrate correlated results, both qualitatively and quantitatively, having trained our model on a single dataset and evaluated its generalization ability across six datasets, including out-of-distribution samples. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# 緑地および南極氷床における有限要素氷動力学シミュレーションのためのグラフニューラルネットワーク
Graph Neural Networks for Emulation of Finite-Element Ice Dynamics in Greenland and Antarctic Ice Sheets ( http://arxiv.org/abs/2406.18423v1 ) ライセンス: Link先を確認 | Younghyun Koo, Maryam Rahnemoonfar, | (参考訳) 数値モデルは物理法則に基づく氷床力学の正確な解を提供するが、偏微分方程式を解くための計算要求が強化されている。
近年、畳み込みニューラルネットワーク(CNN)は、これらの数値モデルのための統計エミュレータとして広く利用されている。
しかし、CNNは正規格子上で動作するため、有限要素数値モデルの洗練されたメッシュと計算効率を表現できない。
したがって、CNNの代わりに、氷床力学モデリングのエミュレータとして、同変グラフ畳み込みネットワーク(EGCN)を採用する。
EGCNはヘルハイム氷河、グリーンランド氷河、パインアイランド氷河の氷厚と速度の変化をそれぞれ260倍と44倍の速度で再現する。
従来のCNNやグラフ畳み込みネットワークと比較して、EGCNはグラフの翻訳と回転に等しく保存することで、高速な氷流付近の厚さ予測において顕著な精度を示す。
Although numerical models provide accurate solutions for ice sheet dynamics based on physics laws, they accompany intensified computational demands to solve partial differential equations. In recent years, convolutional neural networks (CNNs) have been widely used as statistical emulators for those numerical models. However, since CNNs operate on regular grids, they cannot represent the refined meshes and computational efficiency of finite-element numerical models. Therefore, instead of CNNs, this study adopts an equivariant graph convolutional network (EGCN) as an emulator for the ice sheet dynamics modeling. EGCN reproduces ice thickness and velocity changes in the Helheim Glacier, Greenland, and Pine Island Glacier, Antarctica, with 260 times and 44 times faster computation time, respectively. Compared to the traditional CNN and graph convolutional network, EGCN shows outstanding accuracy in thickness prediction near fast ice streams by preserving the equivariance to the translation and rotation of graphs. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# 顔画像の特徴分析とフレシェ距離と周辺地域の特化
Facial Image Feature Analysis and its Specialization for Fréchet Distance and Neighborhoods ( http://arxiv.org/abs/2406.18430v1 ) ライセンス: Link先を確認 | Doruk Cetin, Benedikt Schesch, Petar Stamenkovic, Niko Benjamin Huber, Fabio Zünd, Majed El Helou, | (参考訳) 画像と画像データセット間の距離を評価することは、視覚に基づく研究の基本的な課題である。
文学における挑戦的なオープン問題であり、その批判にもかかわらず、最もユビキタスな手法は Fr\'echet Inception Distance である。
Inceptionネットワークは特定のラベル付きデータセットであるImageNetでトレーニングされている。
ImageNet上で自己超越学習に移行することで改善が示され、トレーニングデータドメインがオープンな問題として残された。
我々はこの最後の飛躍を行い、広く研究されている顔画像領域におけるドメイン固有の特徴訓練とその特徴距離への影響を初めて分析する。
我々は,Fr'echet 距離と画像近傍の領域専門化に関する知見と知見を提供する。
Assessing distances between images and image datasets is a fundamental task in vision-based research. It is a challenging open problem in the literature and despite the criticism it receives, the most ubiquitous method remains the Fr\'echet Inception Distance. The Inception network is trained on a specific labeled dataset, ImageNet, which has caused the core of its criticism in the most recent research. Improvements were shown by moving to self-supervision learning over ImageNet, leaving the training data domain as an open question. We make that last leap and provide the first analysis on domain-specific feature training and its effects on feature distance, on the widely-researched facial image domain. We provide our findings and insights on this domain specialization for Fr\'echet distance and image neighborhoods, supported by extensive experiments and in-depth user studies. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# Isospectrally Patterned Asynchronousic Lattices
Isospectrally Patterned Aperiodic Lattices ( http://arxiv.org/abs/2406.18431v1 ) ライセンス: Link先を確認 | Peter Schmelcher, | (参考訳) 格子間で異なる結合したアイソスペクトルセルからなるパターン付き周期格子を設計・探索する。
それぞれのバンドは、局所化状態から非局在化状態への遷移を示す2つのモビリティエッジを持つ3つの異なるエネルギー領域から構成される。
特徴的な局在長は、関与する位相勾配の競合と、局在機構とその進化を理解することができる細胞間の結合によって生じる。
局所化と非局在化の固有状態の分画は格子の細胞間の勾配を変化させることで調整することができる。
我々は、この新しいアイソスペクトルパターンの非周期格子の研究の視点を概説する。
We design and explore patterned aperiodic lattices consisting of coupled isospectral cells that vary across the lattice. Each resulting band consists of three distinct energy domains with two mobility edges marking the transition from localized to delocalized states and vice versa. The characteristic localization length emerges due to a competition of the involved phase gradient and the coupling between the cells which allows us to understand the localization mechanism and its evolution. The fraction of localized versus delocalized eigenstates can be tuned by changing the gradient between the cells of the lattice. We outline the perspectives of investigation of this novel class of isospectrally patterned aperiodic lattices. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# 未知の解答:未知の棄却のための条件付き証拠分離
Unveiling the Unknown: Conditional Evidence Decoupling for Unknown Rejection ( http://arxiv.org/abs/2406.18443v1 ) ライセンス: Link先を確認 | Zhaowei Wu, Binyi Su, Hua Zhang, Zhong Zhou, | (参考訳) 本稿では,未知のカテゴリと未知のカテゴリを識別する,希少なトレーニングサンプルの条件下でのオープンセットオブジェクト検出器のトレーニングに焦点をあてる。
この挑戦的なシナリオでは、未知の判断境界は学習が困難であり、しばしば曖昧である。
この問題を緩和するために,未知の拒絶の条件付き証拠を分離する新しいオープンセットオブジェクト検出フレームワークを開発する。
具体的には、未知のクラスと未知のクラス間の属性勾配の差を利用して擬似未知のサンプルを選択し、トレーニングデータの不適切な分布範囲を緩和する。
次に、疑似未知のサンプル中の未知のプロパティを分離し、異なる知識を学習し、未知と未知との分離性を向上する、証拠深層学習(EDL)理論に基づく条件付きエビデンス疎結合損失(CEDL)を提案する。
さらに、出力確率分布を調整するための正規化用語として機能する異常度校正損失(ACL)を提案し、未知の拒絶に対する堅牢な決定境界を確立する。
提案手法は従来の最先端手法よりも優れた性能を達成し,VOC10-5データセット設定では全ショット中7.24%,VOC-COCOデータセット設定では1.38%,未知クラスのリコール率を平均7.24%向上させた。
コードはhttps://github.com/zjzwzw/CED-FOOD.comから入手できる。
In this paper, we focus on training an open-set object detector under the condition of scarce training samples, which should distinguish the known and unknown categories. Under this challenging scenario, the decision boundaries of unknowns are difficult to learn and often ambiguous. To mitigate this issue, we develop a novel open-set object detection framework, which delves into conditional evidence decoupling for the unknown rejection. Specifically, we select pseudo-unknown samples by leveraging the discrepancy in attribution gradients between known and unknown classes, alleviating the inadequate unknown distribution coverage of training data. Subsequently, we propose a Conditional Evidence Decoupling Loss (CEDL) based on Evidential Deep Learning (EDL) theory, which decouples known and unknown properties in pseudo-unknown samples to learn distinct knowledge, enhancing separability between knowns and unknowns. Additionally, we propose an Abnormality Calibration Loss (ACL), which serves as a regularization term to adjust the output probability distribution, establishing robust decision boundaries for the unknown rejection. Our method has achieved the superiority performance over previous state-of-the-art approaches, improving the mean recall of unknown class by 7.24% across all shots in VOC10-5-5 dataset settings and 1.38% in VOC-COCO dataset settings. The code is available via https://github.com/zjzwzw/CED-FOOD. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# スマートPixelデータセットとヘテロ接合トランジスタの混合カーネルSVM分類のための自動最適化フレームワーク
An Autotuning-based Optimization Framework for Mixed-kernel SVM Classifications in Smart Pixel Datasets and Heterojunction Transistors ( http://arxiv.org/abs/2406.18445v1 ) ライセンス: Link先を確認 | Xingfu Wu, Tupendra Oli, ustin H. Qian, Valerie Taylor, Mark C. Hersam, Vinod K. Sangwan, | (参考訳) Support Vector Machine (SVM) は、高い精度、高次元データを扱う能力、多様なデータソースをモデル化する柔軟性のために、科学や工学で広く使われている最先端の分類手法である。
本稿では、SVMにおけるハイパーパラメータの範囲を定量化して最適な選択を識別する自動チューニングベースの最適化フレームワークを提案し、高エネルギー物理(HEP)におけるスマートピクセルデータセットと混合カーネルヘテロ接合トランジスタ(MKH)に対するシグモドカーネルとガウスカーネルの混合カーネルを持つ2つのSVMに適用する。
実験結果から,SVMとカーネルにおけるハイパーパラメータの最適選択は,異なるアプリケーションやデータセットに対して大きく異なることが明らかとなった。
混合カーネルSVMにおけるハイパーパラメータCとcoef0の不正選択は極めて低い精度となり、提案フレームワークは、SVMにおけるハイパーパラメータの適切な範囲を効果的に定量化し、最適な選択を識別し、HEPアプリケーションで94.6\%、MKHアプリケーションではるかに少ないチューニング時間で最高平均精度97.2\%を達成する。
Support Vector Machine (SVM) is a state-of-the-art classification method widely used in science and engineering due to its high accuracy, its ability to deal with high dimensional data, and its flexibility in modeling diverse sources of data. In this paper, we propose an autotuning-based optimization framework to quantify the ranges of hyperparameters in SVMs to identify their optimal choices, and apply the framework to two SVMs with the mixed-kernel between Sigmoid and Gaussian kernels for smart pixel datasets in high energy physics (HEP) and mixed-kernel heterojunction transistors (MKH). Our experimental results show that the optimal selection of hyperparameters in the SVMs and the kernels greatly varies for different applications and datasets, and choosing their optimal choices is critical for a high classification accuracy of the mixed kernel SVMs. Uninformed choices of hyperparameters C and coef0 in the mixed-kernel SVMs result in severely low accuracy, and the proposed framework effectively quantifies the proper ranges for the hyperparameters in the SVMs to identify their optimal choices to achieve the highest accuracy 94.6\% for the HEP application and the highest average accuracy 97.2\% with far less tuning time for the MKH application. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# イベントグラフ生成のための大規模言語モデルのカスケード
Cascading Large Language Models for Salient Event Graph Generation ( http://arxiv.org/abs/2406.18449v1 ) ライセンス: Link先を確認 | Xingwei Tan, Yuxiang Zhou, Gabriele Pergola, Yulan He, | (参考訳) 長いドキュメントからイベントグラフを生成することは、イベントの検出、関係の特定、構造化グラフによる構造化されていない入力の調整など、複数のタスクが本質的に複雑になるため、難しい。
最近の研究では、物語を理解するのに欠かせない有能な出来事を区別することができない、ほぼ同じ重要性の全ての出来事を考察している。
本稿では,Salient Event Graph生成のためのCAscading Large Language ModelフレームワークであるCALLMSAEについて述べる。
我々はまず,LSMに要約を生成するよう促すことにより,正解事象を識別し,そこから正解事象を同定する。
次に、イベント関係グラフの生成、幻覚的関係の除去、欠落したエッジの回復のための反復的コード改善促進戦略を開発する。
LLM生成グラフ上の微調整グラフ生成モデルは、CAEVO生成データに基づいてトレーニングされたモデルよりも優れている。
人手による注釈付きテストセットの実験結果から,提案手法は有能で正確なグラフを生成し,競争基準よりも優れていた。
Generating event graphs from long documents is challenging due to the inherent complexity of multiple tasks involved such as detecting events, identifying their relationships, and reconciling unstructured input with structured graphs. Recent studies typically consider all events with equal importance, failing to distinguish salient events crucial for understanding narratives. This paper presents CALLMSAE, a CAscading Large Language Model framework for SAlient Event graph generation, which leverages the capabilities of LLMs and eliminates the need for costly human annotations. We first identify salient events by prompting LLMs to generate summaries, from which salient events are identified. Next, we develop an iterative code refinement prompting strategy to generate event relation graphs, removing hallucinated relations and recovering missing edges. Fine-tuning contextualised graph generation models on the LLM-generated graphs outperforms the models trained on CAEVO-generated data. Experimental results on a human-annotated test set show that the proposed method generates salient and more accurate graphs, outperforming competitive baselines. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# オフライン強化学習のための選好的励振
Preference Elicitation for Offline Reinforcement Learning ( http://arxiv.org/abs/2406.18450v1 ) ライセンス: Link先を確認 | Alizée Pace, Bernhard Schölkopf, Gunnar Rätsch, Giorgia Ramponi, | (参考訳) 実世界の問題に強化学習(RL)を適用することは、環境と対話できないこと、報酬関数を設計することが困難であることによって、しばしば挑戦される。
オフラインRLは、報酬関数によってラベル付けされた環境相互作用のオフラインデータセットへのアクセスを検討することで、最初の課題に対処する。
対照的に、PreferenceベースのRLは報酬関数へのアクセスを前提とせず、好みから学習するが、通常は環境とのオンラインインタラクションを必要とする。
完全にオフラインのセットアップで選好フィードバックを取得する効率的な方法を探ることで、これらのフレームワーク間のギャップを埋める。
このアルゴリズムは、学習環境モデルを利用して、シミュレーションされたロールアウトに対する嗜好フィードバックを抽出する。
オフラインRLと嗜好に基づくRL文献の両方からの洞察に基づいて,本アルゴリズムは配当外データに対する悲観的なアプローチと,最適方針に関する情報的嗜好を得るための楽観的なアプローチを用いる。
我々は、オフラインデータが最適ポリシーをどのようにカバーするかに依存する、我々のアプローチのサンプル複雑さに関する理論的保証を提供する。
最後に,異なる環境におけるSim-OPRLの実証性能を示す。
Applying reinforcement learning (RL) to real-world problems is often made challenging by the inability to interact with the environment and the difficulty of designing reward functions. Offline RL addresses the first challenge by considering access to an offline dataset of environment interactions labeled by the reward function. In contrast, Preference-based RL does not assume access to the reward function and learns it from preferences, but typically requires an online interaction with the environment. We bridge the gap between these frameworks by exploring efficient methods for acquiring preference feedback in a fully offline setup. We propose Sim-OPRL, an offline preference-based reinforcement learning algorithm, which leverages a learned environment model to elicit preference feedback on simulated rollouts. Drawing on insights from both the offline RL and the preference-based RL literature, our algorithm employs a pessimistic approach for out-of-distribution data, and an optimistic approach for acquiring informative preferences about the optimal policy. We provide theoretical guarantees regarding the sample complexity of our approach, dependent on how well the offline data covers the optimal policy. Finally, we demonstrate the empirical performance of Sim-OPRL in different environments. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# フリーの脆性判定:ディープロバスト分類器におけるマージン一貫性の活用
Detecting Brittle Decisions for Free: Leveraging Margin Consistency in Deep Robust Classifiers ( http://arxiv.org/abs/2406.18451v1 ) ライセンス: Link先を確認 | Jonas Ngnawé, Sabyasachi Sahoo, Yann Pequignot, Frédéric Precioso, Christian Gagné, | (参考訳) 堅牢性を改善するための敵のトレーニング戦略に関する広範な研究にもかかわらず、最も堅牢なディープラーニングモデルの決定でさえも、認識不能な摂動に対して非常に敏感であり、それらが現実世界のアプリケーションにデプロイされる際に深刻なリスクを生じさせる可能性がある。
このようなケースを検出することは重要かも知れませんが、敵攻撃を使用してインスタンス単位の脆弱性を評価することは、リアルタイムのデプロイメントシナリオでは計算集約的であり、不適当です。
入力スペースマージンは、非ロバストなサンプルを検出するための正確なスコアであり、ディープニューラルネットワークにとって魅力的なものである。
本稿では、弱いサンプルを効率的に検出するために、入力スペースマージンとロジットマージンを結合する特性であるマージン一貫性の概念を紹介する。
まず、モデルのロジットマージンを非ロバスト標本を特定するためのスコアとして使用するためには、マージンの整合性が必要で十分であることを示す。
次に, CIFAR10 および CIFAR100 データセット上での頑健に訓練された各種モデルの包括的実験により, 入力空間マージンとロジットマージンとの間に強い相関関係を持つ強いマージン一貫性を示すことを示す。
そこで我々は,ロジットマージンを有効利用して,そのようなモデルによる不安定な決定を確実に検出し,入力マージンを小さなサブセットでのみ推定することにより,任意に大きなテストセット上で頑健な精度を正確に推定できることを示した。
最後に,特徴表現から擬似マージンを学習することで,モデルに十分なマージンが存在しないケースに対処する。
我々の研究結果は、ディープ表現を活用して、デプロイメントシナリオにおける敵の脆弱性を効率的に評価する可能性を浮き彫りにした。
Despite extensive research on adversarial training strategies to improve robustness, the decisions of even the most robust deep learning models can still be quite sensitive to imperceptible perturbations, creating serious risks when deploying them for high-stakes real-world applications. While detecting such cases may be critical, evaluating a model's vulnerability at a per-instance level using adversarial attacks is computationally too intensive and unsuitable for real-time deployment scenarios. The input space margin is the exact score to detect non-robust samples and is intractable for deep neural networks. This paper introduces the concept of margin consistency -- a property that links the input space margins and the logit margins in robust models -- for efficient detection of vulnerable samples. First, we establish that margin consistency is a necessary and sufficient condition to use a model's logit margin as a score for identifying non-robust samples. Next, through comprehensive empirical analysis of various robustly trained models on CIFAR10 and CIFAR100 datasets, we show that they indicate strong margin consistency with a strong correlation between their input space margins and the logit margins. Then, we show that we can effectively use the logit margin to confidently detect brittle decisions with such models and accurately estimate robust accuracy on an arbitrarily large test set by estimating the input margins only on a small subset. Finally, we address cases where the model is not sufficiently margin-consistent by learning a pseudo-margin from the feature representation. Our findings highlight the potential of leveraging deep representations to efficiently assess adversarial vulnerability in deployment scenarios. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# 人間のレベル3次元相対ポース推定に向けて: 単一参照による一般化可能・学習不要
Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference ( http://arxiv.org/abs/2406.18453v1 ) ライセンス: Link先を確認 | Yuan Gao, Yajing Luo, Junhong Wang, Kui Jia, Gui-Song Xia, | (参考訳) 人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
これは必然的に組み込むことによって達成される
(i)1枚の画像からの3D/2.5D形状知覚
(ii)レンダリング・アンド・コンペアシミュレーション、及び
第三に、(粗い)参照-クエリ対応に対する豊かなセマンティックキュー認識。
既存のメソッドの実装
(i)3次元CADモデルまたはよく校正された複数画像による。
(II) 特定の対象に対してネットワークをトレーニングすることにより, 退屈な地味なラベル付けと退屈なトレーニングが必要となり, 一般化の課題に繋がる可能性が示唆された。
さらに
三) パラダイムの面での搾取が少なかったこと
(二) 粗雑な対応にもかかわらず
三 実質的な相違・排他的相違により、重複しない部分をろ過して比較工程を強化すること。
そこで我々は,新しい3次元一般化可能な相対ポーズ推定法を提案する。
(i)RGB-D参照の2.5D形状
(ii)市販の差別化可能なレンダラーで、
(iii) DINOv2のような事前訓練されたモデルからのセマンティックな手がかり。
具体的には、RGBとセマンティックマップ(DINOv2がRGB入力から取得)でテクスチャ化された2.5Dのロータテーブルメッシュを、新しいRGBとセマンティックマップ(裏面カリング付き)を、新しい回転ビューでレンダリングする。
洗練された損失は、レンダリングされたRGBとセマンティックマップをクエリマップと比較し、微分可能なレンダラーを通して勾配をバックプロパゲートして、3D相対的なポーズを洗練させることによって生じる。
その結果,1つのRGB-D参照しか持たず,ラベルやトレーニングを伴わない未確認オブジェクトに対して,本手法が容易に適用可能となった。
LineMOD, LM-O, YCB-Vの大規模実験により, トレーニングフリー手法は, 特に厳密なAcc@5/10/15{\deg}測定値と難解なクロスデータセット設定の下で, SOTAの教師付き手法を著しく上回っていることが明らかとなった。
Humans can easily deduce the relative pose of an unseen object, without label/training, given only a single query-reference image pair. This is arguably achieved by incorporating (i) 3D/2.5D shape perception from a single image, (ii) render-and-compare simulation, and (iii) rich semantic cue awareness to furnish (coarse) reference-query correspondence. Existing methods implement (i) by a 3D CAD model or well-calibrated multiple images and (ii) by training a network on specific objects, which necessitate laborious ground-truth labeling and tedious training, potentially leading to challenges in generalization. Moreover, (iii) was less exploited in the paradigm of (ii), despite that the coarse correspondence from (iii) enhances the compare process by filtering out non-overlapped parts under substantial pose differences/occlusions. Motivated by this, we propose a novel 3D generalizable relative pose estimation method by elaborating (i) with a 2.5D shape from an RGB-D reference, (ii) with an off-the-shelf differentiable renderer, and (iii) with semantic cues from a pretrained model like DINOv2. Specifically, our differentiable renderer takes the 2.5D rotatable mesh textured by the RGB and the semantic maps (obtained by DINOv2 from the RGB input), then renders new RGB and semantic maps (with back-surface culling) under a novel rotated view. The refinement loss comes from comparing the rendered RGB and semantic maps with the query ones, back-propagating the gradients through the differentiable renderer to refine the 3D relative pose. As a result, our method can be readily applied to unseen objects, given only a single RGB-D reference, without label/training. Extensive experiments on LineMOD, LM-O, and YCB-V show that our training-free method significantly outperforms the SOTA supervised methods, especially under the rigorous Acc@5/10/15{\deg} metrics and the challenging cross-dataset settings. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# 駅数から市町村推定:データ駆動型自転車容積外挿
From Counting Stations to City-Wide Estimates: Data-Driven Bicycle Volume Extrapolation ( http://arxiv.org/abs/2406.18454v1 ) ライセンス: Link先を確認 | Silke K. Kaiser, Nadja Klein, Lynn H. Kaack, | (参考訳) 都市部でのサイクリングへのシフトは温室効果ガスの排出を減らし、公衆衛生を改善する。
ストリートレベルの自転車量情報は、都市が自転車を奨励し、市民社会にサイクリストのニーズを主張する証拠を提供するためのインフラの改善を計画するのに役立つだろう。
しかし、現在市や市民が利用できるデータは、わずかに数える駅からしか得られないことが多い。
本論文は,ベルリン全都市における自転車の容積を推定するために,これらの数箇所を超える自転車の容積を推定する。
我々は、機械学習技術と様々な公共データソースを用いて、毎日、平均1日あたりの街路レベルの自転車量を予測する。
その中には、アプリベースのクラウドソースデータ、インフラストラクチャ、自転車共有、モーター化されたトラフィック、社会経済指標、天気、ホリデーデータなどが含まれる。
分析の結果,最も優れたモデルがXGBoostであり,クラウドソースのサイクリングとインフラデータが最も重要であることがわかった。
さらに,予測位置における短期的カウントの収集により,性能が向上することを示す。
予測された位置毎に10日間のサンプルカウントを提供することで、誤差を半減し、予測された位置間の性能のばらつきを大幅に低減することができる。
Shifting to cycling in urban areas reduces greenhouse gas emissions and improves public health. Street-level bicycle volume information would aid cities in planning targeted infrastructure improvements to encourage cycling and provide civil society with evidence to advocate for cyclists' needs. Yet, the data currently available to cities and citizens often only comes from sparsely located counting stations. This paper extrapolates bicycle volume beyond these few locations to estimate bicycle volume for the entire city of Berlin. We predict daily and average annual daily street-level bicycle volumes using machine-learning techniques and various public data sources. These include app-based crowdsourced data, infrastructure, bike-sharing, motorized traffic, socioeconomic indicators, weather, and holiday data. Our analysis reveals that the best-performing model is XGBoost, and crowdsourced cycling and infrastructure data are most important for the prediction. We further simulate how collecting short-term counts at predicted locations improves performance. By providing ten days of such sample counts for each predicted location to the model, we are able to halve the error and greatly reduce the variability in performance among predicted locations. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# 局所線形埋め込みによる境界検出アルゴリズム
Boundary Detection Algorithm Inspired by Locally Linear Embedding ( http://arxiv.org/abs/2406.18456v1 ) ライセンス: Link先を確認 | Pei-Cheng Kuo, Nan Wu, | (参考訳) 高次元データの研究において、データセットは下層の低次元構造を持っていると仮定されることが多い。
この構造の実用的なモデルは、境界を持つ埋め込みコンパクト多様体である。
基礎となる多様体構造は典型的には未知であるため、多様体上に分布するデータから境界点を特定することは様々な用途において重要である。
本研究では,広く使用されている局所線形埋め込みアルゴリズムに着想を得た境界点検出手法を提案する。
この手法は,2つの近傍探索スキーム($\epsilon$-radius ball scheme)と$K$-nearest neighbor scheme($K$-nearest neighbor scheme)を用いて実装する。
このアルゴリズムは、特に局所共分散行列との密接な関係を通して、データ構造の幾何学的情報を含む。
本稿では,鍵パラメータの選択について論じ,局所共分散行列のスペクトル特性の探索を通じてアルゴリズムを解析する。
さらに、シミュレーション例を用いてアルゴリズムの性能を実証する。
In the study of high-dimensional data, it is often assumed that the data set possesses an underlying lower-dimensional structure. A practical model for this structure is an embedded compact manifold with boundary. Since the underlying manifold structure is typically unknown, identifying boundary points from the data distributed on the manifold is crucial for various applications. In this work, we propose a method for detecting boundary points inspired by the widely used locally linear embedding algorithm. We implement this method using two nearest neighborhood search schemes: the $\epsilon$-radius ball scheme and the $K$-nearest neighbor scheme. This algorithm incorporates the geometric information of the data structure, particularly through its close relation with the local covariance matrix. We discuss the selection the key parameter and analyze the algorithm through our exploration of the spectral properties of the local covariance matrix in both neighborhood search schemes. Furthermore, we demonstrate the algorithm's performance with simulated examples. | 翻訳日:2024-06-27 13:00:05 公開日:2024-06-26 |
# 低時間エンタングルメントを有する多体量子環境のスケーラブルトモグラフィー
Scalable tomography of many-body quantum environments with low temporal entanglement ( http://arxiv.org/abs/2406.18458v1 ) ライセンス: Link先を確認 | Ilia A. Luchnikov, Michael Sonner, Dmitry A. Abanin, | (参考訳) 複雑な多体環境に結合した量子系の力学を記述することは、量子科学においてユビキタスな問題である。
一般的な非マルコフ環境は、システムと環境の間の繰り返し相互作用から生じるマルチタイムテンソルである影響行列~(IM)によって特徴づけられる。
最も一般的なIMの複雑さは進化の時間とともに指数関数的に増加するが、最近の研究は、多くの物理的多体環境の場合、IMは著しく複雑ではないと主張した。
これは、システムの過去と将来の状態の相関を定量化する時間的絡み合いの領域法則スケーリングによるものである。
しかし、IMの効率的な古典的アルゴリズムは、非相互作用環境や特定の相互作用する1D環境でしか利用できない。
本稿では,量子プロセッサ上でシミュレーションされた多体環境のIMを再構築するための学習アルゴリズムについて検討する。
このハイブリッドアルゴリズムは、多体環境に繰り返し結合する補助量子ビットの量子測定結果を実験的に収集し、続いてIMの行列積(MPS)表現を古典的な機械学習で構築する。
1次元スピンチェーン環境の例を用いて、古典的に生成されたトレーニングデータセットを用いて、このアルゴリズムが長い進化期間にわたってIMのスケーラブルな再構築を可能にすることを実証する。
再構成されたIMは、複数のリードと時間依存制御を持つケースを含む不純物を通して量子輸送を効率的にモデル化するために使用することができる。
これらの結果は,中程度の時間的絡み合いを前提として,限られた測定値を用いて複雑な環境の長時間動態を特徴付けることが可能であることを示す。
Describing dynamics of a quantum system coupled to a complex many-body environment is a ubiquitous problem in quantum science. General non-Markovian environments are characterized by their influence matrix~(IM) -- a multi-time tensor arising from repeated interactions between the system and environment. While complexity of the most generic IM grows exponentially with the evolution time, recent works argued that for many instances of physical many-body environments, the IM is significantly less complex. This is thanks to area-law scaling of temporal entanglement, which quantifies the correlations between the past and the future states of the system. However, efficient classical algorithms for computing IM are only available for non-interacting environments or certain interacting 1D environments. Here, we study a learning algorithm for reconstructing IMs of large many-body environments simulated on a quantum processor. This hybrid algorithm involves experimentally collecting quantum measurement results of auxiliary qubits which are repeatedly coupled to the many-body environment, followed by a classical machine-learning construction of a matrix-product (MPS) representation of the IM. Using the example of 1D spin-chain environments, with a classically generated training dataset, we demonstrate that the algorithm allows scalable reconstruction of IMs for long evolution times. The reconstructed IM can be used to efficiently model quantum transport through an impurity, including cases with multiple leads and time-dependent controls. These results indicate the feasibility of characterizing long-time dynamics of complex environments using a limited number of measurements, under the assumption of a moderate temporal entanglement. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# DiffuseHigh: 構造誘導による無訓練プログレッシブ高分解能画像合成
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance ( http://arxiv.org/abs/2406.18459v1 ) ライセンス: Link先を確認 | Younghyun Kim, Geunmin Hwang, Eunbyung Park, | (参考訳) 近年、大規模な生成モデルが急増し、コンピュータビジョンの広大な分野が発達した。
特に、高忠実度画像生成の可能性から、テキスト・画像拡散モデルが様々な領域で広く採用されている。
それにもかかわらず、既存の大規模拡散モデルは1K解像度の画像を生成するために限られており、これは現代の商用応用の要求を満たすには程遠い。
高解像度画像を直接サンプリングすると、オブジェクトの繰り返しや歪んだ形状といった成果物によってマージされることが多い。
上記の問題に対処するには、通常、高解像度データセットのトレーニングや微調整が必要になります。
しかし、大規模な高解像度コンテンツやかなりの計算資源の収集が困難であることから、この取り組みは大きな課題となる。
いくつかの先行作品では代替案が提案されているが、しばしば説得力のある結果が得られない。
そこで本研究では,高分解能画像を生成するために,生成した低分解能画像を完全に活用する新しいプログレッシブ・アプローチを提案する。
本手法は,計算コストを大幅に削減する追加トレーニングや微調整の必要性を回避している。
その結果,本手法の有効性と有効性について検討した。
Recent surge in large-scale generative models has spurred the development of vast fields in computer vision. In particular, text-to-image diffusion models have garnered widespread adoption across diverse domain due to their potential for high-fidelity image generation. Nonetheless, existing large-scale diffusion models are confined to generate images of up to 1K resolution, which is far from meeting the demands of contemporary commercial applications. Directly sampling higher-resolution images often yields results marred by artifacts such as object repetition and distorted shapes. Addressing the aforementioned issues typically necessitates training or fine-tuning models on higher resolution datasets. However, this undertaking poses a formidable challenge due to the difficulty in collecting large-scale high-resolution contents and substantial computational resources. While several preceding works have proposed alternatives, they often fail to produce convincing results. In this work, we probe the generative ability of diffusion models at higher resolution beyond its original capability and propose a novel progressive approach that fully utilizes generated low-resolution image to guide the generation of higher resolution image. Our method obviates the need for additional training or fine-tuning which significantly lowers the burden of computational costs. Extensive experiments and results validate the efficiency and efficacy of our method. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# オープンドメインヒューマンマシン会話のための大規模言語モデルを用いたロールプレイゼロショットプロンプト
Role-Play Zero-Shot Prompting with Large Language Models for Open-Domain Human-Machine Conversation ( http://arxiv.org/abs/2406.18460v1 ) ライセンス: Link先を確認 | Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, Fabrice Lefèvre, | (参考訳) 近年,Large Language Models (LLM) を用いたオープンドメイン対話エージェント作成手法が提案されている。
これらのモデルは、ユーザクエリに応答できるが、真の会話ではなく、一方的なQ&A形式である。
特定のデータセットの微調整は、会話能力を高めるためにスタイルを変更する一般的な方法だが、これは高価であり、通常はいくつかの言語でのみ利用可能である。
本研究では,複数言語対応LLM(Beeching et al , 2023)を用いて,オープンドメイン会話の効率的かつ費用対効果の高い手法としてロールプレイゼロショットプロンプトについて検討した。
Vicuna (Chiang et al , 2023) では、命令追従モデルと組み合わせることで、2つの異なるタスクにおいて、人間の評価における微調整モデルにマッチし、さらに上回る会話エージェントを生成するプロンプトシステムの設計を行っている。
Recently, various methods have been proposed to create open-domain conversational agents with Large Language Models (LLMs). These models are able to answer user queries, but in a one-way Q&A format rather than a true conversation. Fine-tuning on particular datasets is the usual way to modify their style to increase conversational ability, but this is expensive and usually only available in a few languages. In this study, we explore role-play zero-shot prompting as an efficient and cost-effective solution for open-domain conversation, using capable multilingual LLMs (Beeching et al., 2023) trained to obey instructions. We design a prompting system that, when combined with an instruction-following model - here Vicuna (Chiang et al., 2023) - produces conversational agents that match and even surpass fine-tuned models in human evaluation in French in two different tasks. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# GaussianDreamerPro:高画質な3Dガウス用テキスト
GaussianDreamerPro: Text to Manipulable 3D Gaussians with Highly Enhanced Quality ( http://arxiv.org/abs/2406.18462v1 ) ライセンス: Link先を確認 | Taoran Yi, Jiemin Fang, Zanwei Zhou, Junjie Wang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Xinggang Wang, Qi Tian, | (参考訳) 近年,3次元ガウシアンスプラッティング(3D-GS)は現実世界のシーンの再構成とレンダリングにおいて大きな成功を収めている。
高いレンダリング品質を生成タスクに転送するために、テキストから3Dガウス資産を生成するための一連の研究が進められている。
しかし, 生成した資産は再建作業と同等の質を達成できていない。
生成過程が不確定性を引き起こす可能性があるため、ガウス人は制御なしで成長する傾向にある。
世代品質の向上をめざして,GaussianDreamerProという新しいフレームワークを提案する。
主な考え方はガウスを合理的な幾何学に結合させることであり、これは生成過程全体を通して進化する。
フレームワークのさまざまな段階に沿って、幾何と外観の両方を徐々に豊かにすることができる。
最終的な出力アセットはメッシュにバインドされた3Dガウスアンで構築され、従来の手法に比べて細部と品質が大幅に向上した。
特に、生成されたアセットは、下流操作パイプライン、例えばアニメーション、合成、シミュレーションなどにシームレスに統合することができ、広範囲のアプリケーションにおいてその可能性を大幅に促進することができる。
デモはhttps://taoranyi.com/gaussiandreamerpro/.comで公開されている。
Recently, 3D Gaussian splatting (3D-GS) has achieved great success in reconstructing and rendering real-world scenes. To transfer the high rendering quality to generation tasks, a series of research works attempt to generate 3D-Gaussian assets from text. However, the generated assets have not achieved the same quality as those in reconstruction tasks. We observe that Gaussians tend to grow without control as the generation process may cause indeterminacy. Aiming at highly enhancing the generation quality, we propose a novel framework named GaussianDreamerPro. The main idea is to bind Gaussians to reasonable geometry, which evolves over the whole generation process. Along different stages of our framework, both the geometry and appearance can be enriched progressively. The final output asset is constructed with 3D Gaussians bound to mesh, which shows significantly enhanced details and quality compared with previous methods. Notably, the generated asset can also be seamlessly integrated into downstream manipulation pipelines, e.g. animation, composition, and simulation etc., greatly promoting its potential in wide applications. Demos are available at https://taoranyi.com/gaussiandreamerpro/. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# ベイジアン逆ナビエ・ストークス問題:関節流動場再構成とパラメータ学習
Bayesian inverse Navier-Stokes problems: joint flow field reconstruction and parameter learning ( http://arxiv.org/abs/2406.18464v1 ) ライセンス: Link先を確認 | Alexandros Kontogiannis, Scott V. Elgersma, Andrew J. Sederman, Matthew P. Juniper, | (参考訳) 我々は,3次元流れ場を共同で再構成し,境界位置を含む未知のN-Sパラメータを学習するために,ベロシメトリデータを同化するベイズ逆ナビエ・ストークス(N-S)問題を定式化し,解く。
一般化されたN-S問題を精査し、ガウス事前分布を用いて未知のパラメータを正規化することにより、崩壊した探索空間において最も可能性の高いパラメータを学習する。
最も可能性の高い流れ場再構成は、学習されたパラメータに対応するN-S解である。
本手法は変分条件で開発され,N-S問題の安定化されたニッシェ弱形式を用いて,すべてのN-Sパラメータの制御を可能にする。
推定された幾何を正規化するために、粘性符号距離場(vSDF)を補助変数とし、粘性アイコン境界値問題の解として与えられる。
本研究では, この逆問題を解決するアルゴリズムを考案し, 随伴安定切断セル有限要素法を用いて数値的に実装する。
次に,この手法を用いて,2種類のレイノルズ数と信号-雑音比(SNR)について,大動脈アーチの物理モデルによる3次元定常層流の磁気共鳴速度(フロー-MRI)データを再構成する。
私たちはその方法が正確であることに気付きました。
一 ノイズ・アーティファクトをフィルタリングして低SNRデータを再構成し、騒音に隠れた流れの特徴を回復し、
二 過度に適合することなく、高いSNRデータを再生すること。
複雑な地形における3次元定常層流に適用する枠組みは, 時間依存層流やレイノルズ平均乱流, 非ニュートン流体にも容易に適用できる。
We formulate and solve a Bayesian inverse Navier-Stokes (N-S) problem that assimilates velocimetry data in order to jointly reconstruct a 3D flow field and learn the unknown N-S parameters, including the boundary position. By hardwiring a generalised N-S problem, and regularising its unknown parameters using Gaussian prior distributions, we learn the most likely parameters in a collapsed search space. The most likely flow field reconstruction is then the N-S solution that corresponds to the learned parameters. We develop the method in the variational setting and use a stabilised Nitsche weak form of the N-S problem that permits the control of all N-S parameters. To regularise the inferred the geometry, we use a viscous signed distance field (vSDF) as an auxiliary variable, which is given as the solution of a viscous Eikonal boundary value problem. We devise an algorithm that solves this inverse problem, and numerically implement it using an adjoint-consistent stabilised cut-cell finite element method. We then use this method to reconstruct magnetic resonance velocimetry (flow-MRI) data of a 3D steady laminar flow through a physical model of an aortic arch for two different Reynolds numbers and signal-to-noise ratio (SNR) levels (low/high). We find that the method can accurately i) reconstruct the low SNR data by filtering out the noise/artefacts and recovering flow features that are obscured by noise, and ii) reproduce the high SNR data without overfitting. Although the framework that we develop applies to 3D steady laminar flows in complex geometries, it readily extends to time-dependent laminar and Reynolds-averaged turbulent flows, as well as non-Newtonian (e.g. viscoelastic) fluids. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# UniRec:シーケンスレコメンデーションにおける均一性と周波数の二重化
UniRec: A Dual Enhancement of Uniformity and Frequency in Sequential Recommendations ( http://arxiv.org/abs/2406.18470v1 ) ライセンス: Link先を確認 | Yang Liu, Yitong Wang, Chenyue Feng, | (参考訳) ユーザのインタラクションパターンを正確にモデル化し、レコメンデーション精度を向上させるためには、シーケンシャルなレコメンデーションでの表現学習が重要である。
しかし、既存のアプローチは主にアイテム間遷移を強調しており、しばしば行動パターンの変化と密接に関連する相互作用間の時間間隔を無視している。
さらに、アイテム周波数などのより広範な相互作用属性は、しばしば見過ごされる。
その結果,より均一な時間間隔を持つシーケンスと高い周波数を持つアイテムの両方で予測性能が向上することが判明した。
逆に、一様でないシーケンスはユーザーの関心のドリフトを悪化させ、スパースサンプリングにより頻繁でないアイテムをモデル化することは困難であり、現在の手法では不十分に対処する固有の課題が提示される。
本稿では,新しい双方向拡張シーケンシャルレコメンデーション手法であるUniRecを提案する。
UniRecは、シーケンスの均一性とアイテムの頻度を活用してパフォーマンスを高め、特に一様でないシーケンスやあまり頻度の低いアイテムの表現を改善している。
これら2つのブランチは相互に強化され、複雑なシーケンシャルなレコメンデーションシナリオにおける包括的なパフォーマンス最適化を推進します。
さらに,適応性をさらに向上する多次元時間モジュールを提案する。
我々の知る限り、UniRecは特徴増強のための均一性と周波数の特性を利用する最初の方法である。
4つのデータセットにまたがる11の高度なモデルと比較して、UniRecがSOTAモデルを大幅に上回っていることを示す。
コードはhttps://github.com/Linxi000/UniRec.comで入手できる。
Representation learning in sequential recommendation is critical for accurately modeling user interaction patterns and improving recommendation precision. However, existing approaches predominantly emphasize item-to-item transitions, often neglecting the time intervals between interactions, which are closely related to behavior pattern changes. Additionally, broader interaction attributes, such as item frequency, are frequently overlooked. We found that both sequences with more uniform time intervals and items with higher frequency yield better prediction performance. Conversely, non-uniform sequences exacerbate user interest drift and less-frequent items are difficult to model due to sparse sampling, presenting unique challenges inadequately addressed by current methods. In this paper, we propose UniRec, a novel bidirectional enhancement sequential recommendation method. UniRec leverages sequence uniformity and item frequency to enhance performance, particularly improving the representation of non-uniform sequences and less-frequent items. These two branches mutually reinforce each other, driving comprehensive performance optimization in complex sequential recommendation scenarios. Additionally, we present a multidimensional time module to further enhance adaptability. To the best of our knowledge, UniRec is the first method to utilize the characteristics of uniformity and frequency for feature augmentation. Comparing with eleven advanced models across four datasets, we demonstrate that UniRec outperforms SOTA models significantly. The code is available at https://github.com/Linxi000/UniRec. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# スピン-$\frac{1}{2}$ Square $J_{1}-J_{2}$Heisenberg模型の短期量子スピンシミュレーション
Near-Term Quantum Spin Simulation of the Spin-$\frac{1}{2}$ Square $J_{1}-J_{2}$ Heisenberg Model ( http://arxiv.org/abs/2406.18474v1 ) ライセンス: Link先を確認 | Dylan Sheils, Trevor David Rhone, | (参考訳) 複雑なスピン系のシミュレーション、特にフラストレーションと絡み合いの度合いが高いものは、大きな課題を呈する。
これらのシステムは、複雑なエネルギー景観と絡み合う性質のために、伝統的なシミュレーション技術に反することが多い。
正方格子上の豊かな位相挙動で知られるJ_{1}-J_{2}$Heisenbergモデルに焦点をあてる。
このモデルは、高温超伝導と結びつくかもしれない相を含む磁気状態の研究に役立つ。
我々は127量子ビットのIBM Rensselear Eagleプロセッサ上で16量子ビットの実験を行い、古典的なウォームスタートによって強化された変分量子固有解法(VQE)アルゴリズムを用いて基底状態シミュレーションを行う。
我々の結果は確立された理論予測と定性的に一致しており、ノイズのある中間スケール量子(NISQ)時代の基底状態推定のためのVQEの生存可能性を示している。
既存の誤り軽減戦略を利用し、新しい古典的強化VQE誤り軽減スキームを導入し、その性能を量子モーメントアルゴリズムと比較する。
さらに,変分ファストフォワード (VFF) を用いた4キュービットサイト上での量子ランチョス (QLanczos) アルゴリズムの実験的実装について検討する。
本研究は, J_1-J_2$Heisenbergモデルにおいて, 近距離量子デバイスによるトレンドの同定と相転移の予測能力を示す。
Simulating complex spin systems, particularly those with high degrees of frustration and entanglement, presents significant challenges. These systems often defy traditional simulation techniques due to their complex energy landscapes and entanglement properties. We focus on the $J_{1}-J_{2}$ Heisenberg model, known for its rich phase behavior on the square lattice. The model serves to study magnetic states, including phases that might be linked to high-temperature superconductivity. We carry out 16-qubit experiments on the 127-qubit IBM Rensselear Eagle processor to perform ground state simulation using the Variational Quantum Eigensolver (VQE) algorithm, enhanced through classical warm-starting. Our results are qualitatively consistent with established theoretical predictions, underscoring the viability of VQE for ground-state estimation in the noisy intermediate-scale quantum (NISQ) era. We utilize existing error mitigation strategies, introduce a novel Classically-Reinforced VQE error mitigation scheme, and compare its performance with the Quantum Moments algorithm. Additionally, we explore an experimental implementation of the Quantum Lanczos (QLanczos) algorithm using Variational-Fast Forwarding (VFF) on a 4 qubit site. Our study demonstrates the capability of near-term quantum devices to both identify trends and predict phase transitions within the $J_1-J_2$ Heisenberg model. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# アノテーションによるロバストな外科的位相認識
Robust Surgical Phase Recognition From Annotation Efficient Supervision ( http://arxiv.org/abs/2406.18481v1 ) ライセンス: Link先を確認 | Or Rubin, Shlomi Laufer, | (参考訳) 外科的位相認識はコンピュータ支援手術において重要な課題であり、外科的手術において異なる位相を自動的に識別し分類することを目的としている。
大幅な進歩にもかかわらず、現在のアプローチのほとんどは完全に教師付きトレーニングに依存しており、高価で時間を要するフレームレベルのアノテーションを必要とする。
タイムスタンプの監督は、競争力のあるパフォーマンスを維持しながら、アノテーションのコストを大幅に削減する、有望な代替手段として最近登場した。
しかし、タイムスタンプアノテーションでトレーニングされたモデルは、フェーズアノテーションの欠如によって負の影響を受け、現実のシナリオに潜在的な欠点をもたらす可能性がある。
本研究では,欠損した位相アノテーションを効果的に扱える外科的位相認識のための堅牢な手法を提案し,この問題に対処する。
さらに、SkipTag@Kアノテーションアプローチを手術領域に導入し、アノテーションの取り組みとモデルパフォーマンスの柔軟なバランスを可能にする。
提案手法は,2つの挑戦的データセットに対する競合的な結果を実現し,欠落したフェーズアノテーションの処理の有効性と,アノテーションのコスト削減の可能性を示す。
具体的には、ビデオあたり3つの注釈付きフレームのみを用いて、MultiBypass140データセットの85.1\%の精度を実現し、この手法の有効性とSkipTag@K設定の可能性を示す。
本手法のロバスト性を検証するための広範囲な実験を行い,外科的位相認識における今後の研究の指針となる貴重な知見を提供する。
本研究は,外科的ワークフロー認識の進歩に寄与し,より効率的かつ信頼性の高い外科的位相認識システムの実現に寄与する。
Surgical phase recognition is a key task in computer-assisted surgery, aiming to automatically identify and categorize the different phases within a surgical procedure. Despite substantial advancements, most current approaches rely on fully supervised training, requiring expensive and time-consuming frame-level annotations. Timestamp supervision has recently emerged as a promising alternative, significantly reducing annotation costs while maintaining competitive performance. However, models trained on timestamp annotations can be negatively impacted by missing phase annotations, leading to a potential drawback in real-world scenarios. In this work, we address this issue by proposing a robust method for surgical phase recognition that can handle missing phase annotations effectively. Furthermore, we introduce the SkipTag@K annotation approach to the surgical domain, enabling a flexible balance between annotation effort and model performance. Our method achieves competitive results on two challenging datasets, demonstrating its efficacy in handling missing phase annotations and its potential for reducing annotation costs. Specifically, we achieve an accuracy of 85.1\% on the MultiBypass140 dataset using only 3 annotated frames per video, showcasing the effectiveness of our method and the potential of the SkipTag@K setup. We perform extensive experiments to validate the robustness of our method and provide valuable insights to guide future research in surgical phase recognition. Our work contributes to the advancement of surgical workflow recognition and paves the way for more efficient and reliable surgical phase recognition systems. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# 不定因果構造と時間対称性をもつ因果不等式
Indefinite Causal Structure and Causal Inequalities with Time-Symmetry ( http://arxiv.org/abs/2406.18489v1 ) ライセンス: Link先を確認 | Luke Mrini, Lucien Hardy, | (参考訳) 時間反転対称性は、オペレーショナル量子論や古典的な一般相対性理論を含む、顕微鏡物理学の一般的な特徴である。
従来の研究は、演算量子理論の言語を用いて不確定因果構造を研究してきたが、これらは操作とプロセス行列の両方を制限するために時間非対称な条件に依存している。
ここでは、時間対称的操作確率論を用いて、不定因果構造に対する時間対称プロセス行列の定式化を開発する。
このフレームワークは、これまで考えられていたよりも多くのプロセスと、より大きな因果不等式を可能にする。
我々は、このより大きな因果不等式が、新たな不等式に違反することで、因果不等式をデバイス非依存で認定する新たな機会を提供することを示した。
さらに、ここで発見された時間対称過程のより大きなクラスは、Chiribella と Liu が考慮した不定因数順序および時間方向(ICOTD)のプロセスと等価であると判断し、プロセス行列の観点からこれらのプロセスを記述する。
Time-reversal symmetry is a prevalent feature of microscopic physics, including operational quantum theory and classical general relativity. Previous works have studied indefinite causal structure using the language of operational quantum theory, however, these rely on time-asymmetric conditions to constrain both operations and the process matrix. Here, we use time-symmetric, operational probabilistic theory to develop a time-symmetric process matrix formalism for indefinite causal structure. This framework allows for more processes than previously considered and a larger set of causal inequalities. We demonstrate that this larger set of causal inequalities offers new opportunities for device-independent certification of causal non-separability by violating new inequalities. Additionally, we determined that the larger class of time-symmetric processes found here is equivalent to those with Indefinite Causal Order and Time Direction (ICOTD) considered by Chiribella and Liu, thereby providing a description of these processes in terms of process matrices. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# 適応的な微分プライバシーと優先順位に基づく集約によるフェデレーション学習の促進
Enhancing Federated Learning with Adaptive Differential Privacy and Priority-Based Aggregation ( http://arxiv.org/abs/2406.18491v1 ) ライセンス: Link先を確認 | Mahtab Talaei, Iman Izadi, | (参考訳) 分散機械学習(ML)の新しいブランチであるフェデレートラーニング(FL)は、ローカルデータセットに直接アクセスすることなく、プライベートプロシージャを通じてグローバルモデルを開発する。
しかし、クライアントとサーバ間で転送されるモデル更新(ディープニューラルネットワークの段階的な更新)にアクセスすることは可能であり、モデル反転攻撃を使用して敵に機密性の高いローカル情報を明らかにする可能性がある。
微分プライバシー(DP)は、パラメータにノイズを加えることでこの問題に対処するための有望なアプローチを提供する。
一方、デバイスのデータ構造、ストレージ、通信、計算能力の不均一性は、グローバルモデルの開発において収束問題や遅延を引き起こす可能性がある。
各装置のリソースに基づいた局所パラメータの個人化重み付け平均化により、各ラウンドにおいてより優れた集約モデルが得られる。
本稿では,クライアントの相対的影響要因に基づいてノイズを注入し,不均一性を考慮し,パラメータを集約するパーソナライズされたDPフレームワークを提案する。
DP要求を満たすために、まず、学習過程を通して影響要因がパーソナライズされ固定されたとき、FLアルゴリズムの収束境界を解析する。
さらに、時間変化(適応的な)影響因子を考慮した収束特性について検討する。
Federated learning (FL), a novel branch of distributed machine learning (ML), develops global models through a private procedure without direct access to local datasets. However, it is still possible to access the model updates (gradient updates of deep neural networks) transferred between clients and servers, potentially revealing sensitive local information to adversaries using model inversion attacks. Differential privacy (DP) offers a promising approach to addressing this issue by adding noise to the parameters. On the other hand, heterogeneities in data structure, storage, communication, and computational capabilities of devices can cause convergence problems and delays in developing the global model. A personalized weighted averaging of local parameters based on the resources of each device can yield a better aggregated model in each round. In this paper, to efficiently preserve privacy, we propose a personalized DP framework that injects noise based on clients' relative impact factors and aggregates parameters while considering heterogeneities and adjusting properties. To fulfill the DP requirements, we first analyze the convergence boundary of the FL algorithm when impact factors are personalized and fixed throughout the learning process. We then further study the convergence property considering time-varying (adaptive) impact factors. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# エクササイズおよび近似フラキソニウムアレイモード
Exact and approximate fluxonium array modes ( http://arxiv.org/abs/2406.18492v1 ) ライセンス: Link先を確認 | Stephen Sorokanich, Max Hays, Neill C. Warrington, | (参考訳) 本稿では, 超伝導量子ビットフラクソニウムの線形結合配列モードに対して, 配列障害のない正確な解を提案する。
この解は、任意の長さと接地容量の配列と、微分デバイスと接地デバイスの両方に当てはまる。
アレイモードエネルギーはチェビシェフ多項式の凸結合の根によって決定され、それらの空間分布は平面波である。
また、幅広い回路パラメータの配列モード特性を推定する簡単な近似解や、正確な解と近似解の両方を実装したMathematicaファイルも提供する。
We present an exact solution for the linearized junction array modes of the superconducting qubit fluxonium in the absence of array disorder. This solution holds for arrays of any length and ground capacitance, and for both differential and grounded devices. Array mode energies are determined by roots of convex combinations of Chebyshev polynomials, and their spatial profiles are plane waves. We also provide a simple, approximate solution, which estimates array mode properties over a wide range of circuit parameters, and an accompanying Mathematica file that implements both the exact and approximate solutions. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# Diósi-Penroseモデルにおける崩壊の有効性について
On the effectiveness of the collapse in the Diósi-Penrose model ( http://arxiv.org/abs/2406.18494v1 ) ライセンス: Link先を確認 | Laria Figurato, Marco Dirindin, José Luis Gaona-Reyes, Matteo Carlesso, Angelo Bassi, Sandro Donadi, | (参考訳) 重力が量子波関数の崩壊に寄与する可能性も文献で検討されており、これは量子論における測定問題に対する解を提供するだけでなく、量子および重力現象の統一理論の探索に新たな予想外のひねりを与え、おそらく現在の混乱を克服するからでもある。
Di\'osi-Penrose モデルは、このアイデアの最も一般的な発案である。
系の質量が増加すると量子重ね合わせの進行的な分解を予測し、そのため実験的な検証が可能である。
現在の実験では、いくつかのバージョンを除いて、モデルの自由パラメータに対して、下限の$R_0\gtrsim 4 \times 10^{-10}$ m が設定されている。
本研究では,崩壊がマクロスケールの古典性を保証するのに十分な有効であるという要求から得られた上限を求める。
この要求を緩和すると、妥当な(ある程度任意の)境界は次のようになる:$R_0\lesssim 10^{-4}$ m。
これは、モデルをさらにテストするために、将来の実験をより直接的に行うのに役立つだろう。
The possibility that gravity plays a role in the collapse of the quantum wave function has been considered in the literature, and it is of relevance not only because it would provide a solution to the measurement problem in quantum theory, but also because it would give a new and unexpected twist to the search for a unified theory of quantum and gravitational phenomena, possibly overcoming the current impasse. The Di\'osi-Penrose model is the most popular incarnation of this idea. It predicts a progressive breakdown of quantum superpositions when the mass of the system increases; as such, it is susceptible to experimental verification. Current experiments set a lower bound $R_0\gtrsim 4 \times 10^{-10}$ m for the free parameter of the model, excluding some versions of it. In this work we search for an upper bound, coming from the request that the collapse is effective enough to guarantee classicality at the macroscopic scale: we find out that not all macroscopic systems collapse effectively. If one relaxes this request, a reasonable (although to some degree arbitrary) bound is found to be: $R_0\lesssim 10^{-4}$ m. This will serve to better direct future experiments to further test the model. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# WildGuard: LLMの安全性リスク、脱獄、拒絶のためのオープンワンストップモデレーションツール
WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs ( http://arxiv.org/abs/2406.18495v1 ) ライセンス: Link先を確認 | Seungju Han, Kavel Rao, Allyson Ettinger, Liwei Jiang, Bill Yuchen Lin, Nathan Lambert, Yejin Choi, Nouha Dziri, | (参考訳) 本研究では,LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介し,(1)ユーザプロンプトにおける悪意の識別,(2)モデル応答の安全性リスクの検出,(3)モデル拒絶率の決定という3つの目標を達成する。
WildGuardは、LLMインタラクションの自動安全性調整と評価の必要性を高め、13のリスクカテゴリにまたがる精度と広範なカバレッジを向上したワンストップツールを提供する。
Llama-Guard2のような既存のオープンモデレーションツールは、単純なモデルインタラクションの分類において合理的に優れているが、特に敵のジェイルブレイクを特定し、モデル応答における安全行動を評価するための重要な指標であるモデルの拒絶を評価する際に、GPT-4よりもはるかに遅れている。
これらの課題に対処するため、我々は、Vanilla(直接)プロンプトと敵ジェイルブレイクをカバーする92Kラベルの例を使って、大規模かつ慎重にバランスの取れたマルチタスクセーフティモデレーションデータセットであるWildGuardMixを構築し、さまざまな拒否応答とコンプライアンス応答を組み合わせました。
WildGuardMixは、WildGuardのトレーニングデータであるWildGuardTrainと、幅広いリスクシナリオをカバーする5Kラベルのアイテムを備えた高品質な人間アノテーションによるモデレーションテストセットであるWildGuardTestを組み合わせたものだ。
WildGuardTestと既存の10の公開ベンチマークに関する広範な評価を通じて、WildGuardは、既存の10つの強力なオープンソースモデレーションモデル(例えば、最大26.4%の拒絶検出の改善)と比較して、オープンソースの安全モデレーションにおける最先端のパフォーマンスを3つのタスクすべてにわたって確立していることを示す。
重要な点として、WildGuard は GPT-4 のパフォーマンスを上回り、時には GPT-4 を上回ります。
ワイルドガードはLLMインタフェースの安全性の高いモデレーターとして機能し、ジェイルブレイク攻撃の成功率を79.8%から2.4%に下げている。
We introduce WildGuard -- an open, light-weight moderation tool for LLM safety that achieves three goals: (1) identifying malicious intent in user prompts, (2) detecting safety risks of model responses, and (3) determining model refusal rate. Together, WildGuard serves the increasing needs for automatic safety moderation and evaluation of LLM interactions, providing a one-stop tool with enhanced accuracy and broad coverage across 13 risk categories. While existing open moderation tools such as Llama-Guard2 score reasonably well in classifying straightforward model interactions, they lag far behind a prompted GPT-4, especially in identifying adversarial jailbreaks and in evaluating models' refusals, a key measure for evaluating safety behaviors in model responses. To address these challenges, we construct WildGuardMix, a large-scale and carefully balanced multi-task safety moderation dataset with 92K labeled examples that cover vanilla (direct) prompts and adversarial jailbreaks, paired with various refusal and compliance responses. WildGuardMix is a combination of WildGuardTrain, the training data of WildGuard, and WildGuardTest, a high-quality human-annotated moderation test set with 5K labeled items covering broad risk scenarios. Through extensive evaluations on WildGuardTest and ten existing public benchmarks, we show that WildGuard establishes state-of-the-art performance in open-source safety moderation across all the three tasks compared to ten strong existing open-source moderation models (e.g., up to 26.4% improvement on refusal detection). Importantly, WildGuard matches and sometimes exceeds GPT-4 performance (e.g., up to 3.9% improvement on prompt harmfulness identification). WildGuard serves as a highly effective safety moderator in an LLM interface, reducing the success rate of jailbreak attacks from 79.8% to 2.4%. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# 文脈内学習はグラディエント学習の類型か? : 構造プライミングにおける逆周波数効果からの証拠
Is In-Context Learning a Type of Gradient-Based Learning? Evidence from the Inverse Frequency Effect in Structural Priming ( http://arxiv.org/abs/2406.18501v1 ) ライセンス: Link先を確認 | Zhenghao Zhou, Robert Frank, R. Thomas McCoy, | (参考訳) 大規模言語モデル(LLM)は、文脈内学習(ICL)の創発的能力を示している。
ある研究の行では、ICLは機能的に勾配降下を行うと説明されている。
本稿では,ICLが勾配学習と機能的に等価であるかどうかを診断する新しい手法を提案する。
提案手法は, 誤り駆動学習者が頻繁な事例よりも頻度の低い例で学習した場合に, より大きな更新を期待できる現象である逆周波数効果(IFE)に基づく。
IFEは以前に精神言語学で研究されてきたが、これは人間が構造的プライミング(最近遭遇した文構造を作る傾向)の文脈でこの効果を示すためである。
実験では, ICL内の構造プライミングをシミュレーションした結果, LLMはIFEを呈し, より大きなモデルでは強い効果を示すことがわかった。
ICLは実際には勾配に基づく学習の一種であり、ICLの間、勾配成分が前方通過で暗黙的に計算されるという仮説を支持する。
以上の結果から,人間とLLMの両方が勾配に基づく誤り駆動処理機構を利用していることが示唆された。
Large language models (LLMs) have shown the emergent capability of in-context learning (ICL). One line of research has explained ICL as functionally performing gradient descent. In this paper, we introduce a new way of diagnosing whether ICL is functionally equivalent to gradient-based learning. Our approach is based on the inverse frequency effect (IFE) -- a phenomenon in which an error-driven learner is expected to show larger updates when trained on infrequent examples than frequent ones. The IFE has previously been studied in psycholinguistics because humans show this effect in the context of structural priming (the tendency for people to produce sentence structures they have encountered recently); the IFE has been used as evidence that human structural priming must involve error-driven learning mechanisms. In our experiments, we simulated structural priming within ICL and found that LLMs display the IFE, with the effect being stronger in larger models. We conclude that ICL is indeed a type of gradient-based learning, supporting the hypothesis that a gradient component is implicitly computed in the forward pass during ICL. Our results suggest that both humans and LLMs make use of gradient-based, error-driven processing mechanisms. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# 言語モデルを用いた強化学習エージェントのメンタルモデリング
Mental Modeling of Reinforcement Learning Agents by Language Models ( http://arxiv.org/abs/2406.18505v1 ) ライセンス: Link先を確認 | Wenhao Lu, Xufeng Zhao, Josua Spisak, Jae Hee Lee, Stefan Wermter, | (参考訳) 創発的言語モデルは意思決定エージェントの知性を忠実にモデル化できるか?
現代の言語モデルは、既に何らかの推論能力を示しており、理論的にはトークン上の確率的な分布を表現できるが、これらの事前学習されたモデルが記憶した世界の知識が、物理的世界におけるエージェントの振る舞いを理解するためにどのように利用されるかは未解明のままである。
この研究は、エージェントの振る舞いとエージェントの相互作用履歴の状態への影響を推論することにより、エージェントのメンタルモデル(エージェント・メンタル・モデリング)がいかにうまく構築できるかを実証的に検証する。
本研究は, eXplainable reinforcement learning (XRL) において重要な課題である, RL エージェントの挙動解明に LLM を活用する可能性を明らかにする。
そこで本研究では, エージェント精神モデル構築に関する知見を報告するとともに, 様々な複雑さのRLタスクデータセットに対して, 特定の評価指標を提案し, テストする。
以上の結果から, LLMは推論だけでは, さらなる革新がなければ, 完全に心的モデリングを行うことができないことが明らかとなった。
この作業は、現代のLLMの能力と限界に関する新たな洞察を提供する。
Can emergent language models faithfully model the intelligence of decision-making agents? Though modern language models exhibit already some reasoning ability, and theoretically can potentially express any probable distribution over tokens, it remains underexplored how the world knowledge these pretrained models have memorized can be utilized to comprehend an agent's behaviour in the physical world. This study empirically examines, for the first time, how well large language models (LLMs) can build a mental model of agents, termed agent mental modelling, by reasoning about an agent's behaviour and its effect on states from agent interaction history. This research may unveil the potential of leveraging LLMs for elucidating RL agent behaviour, addressing a key challenge in eXplainable reinforcement learning (XRL). To this end, we propose specific evaluation metrics and test them on selected RL task datasets of varying complexity, reporting findings on agent mental model establishment. Our results disclose that LLMs are not yet capable of fully mental modelling agents through inference alone without further innovations. This work thus provides new insights into the capabilities and limitations of modern LLMs. | 翻訳日:2024-06-27 12:50:18 公開日:2024-06-26 |
# WildTeaming at Scale: 脱獄から(逆)言語モデルまで
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models ( http://arxiv.org/abs/2406.18510v1 ) ライセンス: Link先を確認 | Liwei Jiang, Kavel Rao, Seungju Han, Allyson Ettinger, Faeze Brahman, Sachin Kumar, Niloofar Mireshghallah, Ximing Lu, Maarten Sap, Yejin Choi, Nouha Dziri, | (参考訳) このフレームワークは、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見し、新しいジェイルブレイクを体系的に探索するための複数の戦術を構成する。
リクルートされた人間労働者によるレッドチーム作業や、勾配に基づく最適化、LLMによる反復的なリビジョンなどと比較して、我々の研究は、システムを壊すように指示されていないチャットボットユーザーのジェイルブレイクを調査した。
WildTeamingは未確認のフロンティアLSMの脆弱性を明らかにし、最先端のジェイルブレイク手法と比較して最大4.6倍の多様性があり、敵の攻撃に成功した。
ジェイルブレイク評価のためのデータセットは数多く存在するが、モデルウェイトがオープンになっても安全トレーニングデータがクローズされているため、ジェイルブレイクトレーニングのためのオープンソースデータセットはほとんど存在しない。
WildTeamingでは、262Kバニラ(ダイレクトリクエスト)と逆(複雑なジェイルブレーク)のプロンプト-レスポンスペアを備えた、大規模なオープンソース合成安全データセットであるWildJailbreakを作成しています。
過大な安全行動を軽減するために、WildJailbreakは2つの対照的なクエリを提供する。
1)有害なクエリ(バニラ・アンド・逆境)及び
2) 有害なクエリに類似しているが害を含まない良質なクエリ。
WildJailbreakは既存の安全リソースの品質とスケールを大幅に改善するので、安全トレーニング中のデータのスケーリング効果とデータプロパティとモデル機能の相互運用について一意的に調べることができます。
広範にわたる実験を通じて,安全行動の理想的なバランスを可能にする訓練特性を同定する: 過度な拒絶を伴わない適切な安全確保,バニラおよび敵クエリの効果的な処理,そしてもしあるならば,一般の能力を最小限に抑える。
WildJailbeakのすべてのコンポーネントは、モデルのバランスのとれた安全行動を達成するのに役立っている。
We introduce WildTeaming, an automatic LLM safety red-teaming framework that mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of novel jailbreak tactics, and then composes multiple tactics for systematic exploration of novel jailbreaks. Compared to prior work that performed red-teaming via recruited human workers, gradient-based optimization, or iterative revision with LLMs, our work investigates jailbreaks from chatbot users who were not specifically instructed to break the system. WildTeaming reveals previously unidentified vulnerabilities of frontier LLMs, resulting in up to 4.6x more diverse and successful adversarial attacks compared to state-of-the-art jailbreak methods. While many datasets exist for jailbreak evaluation, very few open-source datasets exist for jailbreak training, as safety training data has been closed even when model weights are open. With WildTeaming we create WildJailbreak, a large-scale open-source synthetic safety dataset with 262K vanilla (direct request) and adversarial (complex jailbreak) prompt-response pairs. To mitigate exaggerated safety behaviors, WildJailbreak provides two contrastive types of queries: 1) harmful queries (vanilla & adversarial) and 2) benign queries that resemble harmful queries in form but contain no harm. As WildJailbreak considerably upgrades the quality and scale of existing safety resources, it uniquely enables us to examine the scaling effects of data and the interplay of data properties and model capabilities during safety training. Through extensive experiments, we identify the training properties that enable an ideal balance of safety behaviors: appropriate safeguarding without over-refusal, effective handling of vanilla and adversarial queries, and minimal, if any, decrease in general capabilities. All components of WildJailbeak contribute to achieving balanced safety behaviors of models. | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# 「チャットGPTは私の教授より優れているのか?」 : 会話におけるLLMの説明能力の評価
"Is ChatGPT a Better Explainer than My Professor?": Evaluating the Explanation Capabilities of LLMs in Conversation Compared to a Human Baseline ( http://arxiv.org/abs/2406.18512v1 ) ライセンス: Link先を確認 | Grace Li, Milad Alshomary, Smaranda Muresan, | (参考訳) 説明は知識共有の基礎を形成し、コミュニケーションの原則、社会的ダイナミクス、学習理論に基づいて構築される。
文脈が高度に適応的かつ対話的であるため,説明のための会話的アプローチに着目する。
本研究は、説明者や説明者が会話で採用するさまざまな戦略を理解するための枠組みである説明行動に関する過去の研究を活用し、相手を説明・理解・関与する。
We use the 5-Levels dataset was constructed from the WIRED YouTube series by Wachsmuth et al, then annotated by Booshehri et al with explanatory acts。
これらのアノテーションは、反応を作成する際に、説明者と説明者がどのように反応を構造化するかを理解するためのフレームワークを提供する。
この1年で生成AIが台頭したことにより、LLM(Large Language Models)の能力と、専門家による会話環境における説明能力の強化について、より深く理解したいと思っています。
この目的を達成するため、5-Levelsデータセット(Booshehri et al's 2023 アノテーション付きデータセットを説明行動で使用)は、説明対話に関わる LLM の能力を監査することができる。
説明文生成におけるLCMの有効性を評価するため,人間のアノテータに対して,説明文応答,GPT4標準応答,説明文移動によるGPT4応答の3つの戦略を評価させた。
Explanations form the foundation of knowledge sharing and build upon communication principles, social dynamics, and learning theories. We focus specifically on conversational approaches for explanations because the context is highly adaptive and interactive. Our research leverages previous work on explanatory acts, a framework for understanding the different strategies that explainers and explainees employ in a conversation to both explain, understand, and engage with the other party. We use the 5-Levels dataset was constructed from the WIRED YouTube series by Wachsmuth et al., and later annotated by Booshehri et al. with explanatory acts. These annotations provide a framework for understanding how explainers and explainees structure their response when crafting a response. With the rise of generative AI in the past year, we hope to better understand the capabilities of Large Language Models (LLMs) and how they can augment expert explainer's capabilities in conversational settings. To achieve this goal, the 5-Levels dataset (We use Booshehri et al.'s 2023 annotated dataset with explanatory acts.) allows us to audit the ability of LLMs in engaging in explanation dialogues. To evaluate the effectiveness of LLMs in generating explainer responses, we compared 3 different strategies, we asked human annotators to evaluate 3 different strategies: human explainer response, GPT4 standard response, GPT4 response with Explanation Moves. | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# 適応としてのDenoising:画像復元のためのノイズ空間領域適応
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration ( http://arxiv.org/abs/2406.18516v1 ) ライセンス: Link先を確認 | Kang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy, | (参考訳) 深層学習に基づく画像復元法は大きな進歩を遂げているが, 合成データの訓練によって生じる領域ギャップにより, 現実のシナリオへの限定的な一般化に苦慮している。
既存の手法では、データ合成パイプラインを改善し、劣化カーネルを推定し、深い内部学習を採用し、ドメイン適応と正規化を実行することでこの問題に対処している。
従来の領域適応手法は、特徴空間または画素空間における領域不変知識を学習することで、領域ギャップを埋めることを模索してきた。
しかしながら、これらの技術は安定かつコンパクトなフレームワーク内の低レベルの視覚タスクにまで拡張するのに苦労することが多い。
本稿では,拡散モデルを用いて雑音空間を介して領域適応を行うことが可能であることを示す。
特に,多段階の復調過程が補助的な条件入力によってどのように影響されるかというユニークな特性を活用することで,ノイズ予測から有意義な勾配を求め,合成データと実世界のデータの復元結果を共通のクリーンな分布に徐々に整合させる。
我々はこの手法を適応と表現している。
トレーニング中のショートカットを防止するため,チャンネルシャッフルや残余スワッピングのコントラスト学習などの有用な手法を提案する。
提案手法の有効性を実証するために,3つの古典的画像復元作業,すなわちデノイング,デブロアリング,デライニング実験を行った。
コードは、https://github.com/KangLiao929/Noise-DA/でリリースされる。
Although deep learning-based image restoration methods have made significant progress, they still struggle with limited generalization to real-world scenarios due to the substantial domain gap caused by training on synthetic data. Existing methods address this issue by improving data synthesis pipelines, estimating degradation kernels, employing deep internal learning, and performing domain adaptation and regularization. Previous domain adaptation methods have sought to bridge the domain gap by learning domain-invariant knowledge in either feature or pixel space. However, these techniques often struggle to extend to low-level vision tasks within a stable and compact framework. In this paper, we show that it is possible to perform domain adaptation via the noise-space using diffusion models. In particular, by leveraging the unique property of how the multi-step denoising process is influenced by auxiliary conditional inputs, we obtain meaningful gradients from noise prediction to gradually align the restored results of both synthetic and real-world data to a common clean distribution. We refer to this method as denoising as adaptation. To prevent shortcuts during training, we present useful techniques such as channel shuffling and residual-swapping contrastive learning. Experimental results on three classical image restoration tasks, namely denoising, deblurring, and deraining, demonstrate the effectiveness of the proposed method. Code will be released at: https://github.com/KangLiao929/Noise-DA/. | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# 並列化置換試験による一般化可積分エンタングルメント
Generalized Concentratable Entanglement via Parallelized Permutation Tests ( http://arxiv.org/abs/2406.18517v1 ) ライセンス: Link先を確認 | Xiaoyu Liu, Johannes Knörzer, Zherui Jerry Wang, Jordi Tura, | (参考訳) マルチパーティの絡み合いは量子情報理論と技術にとって必須の資源であるが、量子化は永続的な課題である。
近年,コンセントラタブル・エンタングルメント (CE) が, 2つの状態コピーで効率的に推定できるマルチパーティント・エンタングルメント尺度の候補として紹介されている。
本研究では、一般化された収束エンタングルメント(GCE)測度を導入し、量子的ツァリスエントロピーへの自然な対応を強調し、独立性のある新しいエントロピー不等式を予想する。
量子コンピュータにおけるGCEの効率的な測定法を,素数の状態コピーに対して並列化置換テストを用いて示す。
3つの状態コピーを持つW状態への確率的絡み合い濃度に対するそのような計算の実用性を実証する。
さらに, 状態コピー数の増加は, 不完全性の存在下でのマルチパーティの絡み合いを解消し, 誤差を改善できることを示した。
最後に, GCE は局所的操作や古典的通信(LOCC)において, 平均値が増加しないため, 依然として十分に定義された絡み合い単調であることを示す。
Multipartite entanglement is an essential resource for quantum information theory and technologies, but its quantification has been a persistent challenge. Recently, Concentratable Entanglement (CE) has been introduced as a promising candidate for a multipartite entanglement measure, which can be efficiently estimated across two state copies. In this work, we introduce Generalized Concentratable Entanglement (GCE) measures, highlight a natural correspondence to quantum Tsallis entropies, and conjecture a new entropic inequality that may be of independent interest. We show how to efficiently measure the GCE in a quantum computer, using parallelized permutation tests across a prime number of state copies. We exemplify the practicality of such computation for probabilistic entanglement concentration into W states with three state copies. Moreover, we show that an increased number of state copies provides an improved error bound on this family of multipartite entanglement measures in the presence of imperfections. Finally, we prove that GCE is still a well-defined entanglement monotone as its value, on average, does not increase under local operations and classical communication (LOCC). | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# APIGen: 検証可能なさまざまな関数計算データセットを生成するための自動パイプライン
APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets ( http://arxiv.org/abs/2406.18518v1 ) ライセンス: Link先を確認 | Zuxin Liu, Thai Hoang, Jianguo Zhang, Ming Zhu, Tian Lan, Shirley Kokane, Juntao Tan, Weiran Yao, Zhiwei Liu, Yihao Feng, Rithesh Murthy, Liangwei Yang, Silvio Savarese, Juan Carlos Niebles, Huan Wang, Shelby Heinecke, Caiming Xiong, | (参考訳) 関数呼び出しエージェントモデルの進歩には、多種多様で信頼性があり、高品質なデータセットが必要である。
本稿では,関数呼び出しアプリケーションのための検証可能な高品質なデータセットを合成するために設計された,自動データ生成パイプラインであるAPIGenを提案する。
APIGenを活用して、21のカテゴリにわたる3,673の実行可能なAPIを収集し、スケーラブルで構造化された方法でさまざまな関数呼び出しデータセットを生成します。
データセットの各データは、フォーマットチェック、実際の関数実行、セマンティック検証という3つの階層的なステージを通じて検証され、信頼性と正確性を保証する。
我々は、キュレートされたデータセットでトレーニングされたモデルが、7Bパラメータだけで、Berkeley Function-Calling Benchmarkにおける最先端のパフォーマンスを達成でき、複数のGPT-4モデルを上回ることを実証した。
さらに,本モデルでは,GPT-3.5-TurboやClaude-3 Haikuよりも優れた性能を実現している。
機能呼び出しエージェントドメインの分野を推し進めるため、6万の高品質なエントリを含むデータセットをリリースする。
データセットはHuggingfaceで利用可能である。 https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k およびプロジェクトのホームページ: https://apigen-pipeline.github.io/
The advancement of function-calling agent models requires diverse, reliable, and high-quality datasets. This paper presents APIGen, an automated data generation pipeline designed to synthesize verifiable high-quality datasets for function-calling applications. We leverage APIGen and collect 3,673 executable APIs across 21 different categories to generate diverse function-calling datasets in a scalable and structured manner. Each data in our dataset is verified through three hierarchical stages: format checking, actual function executions, and semantic verification, ensuring its reliability and correctness. We demonstrate that models trained with our curated datasets, even with only 7B parameters, can achieve state-of-the-art performance on the Berkeley Function-Calling Benchmark, outperforming multiple GPT-4 models. Moreover, our 1B model achieves exceptional performance, surpassing GPT-3.5-Turbo and Claude-3 Haiku. We release a dataset containing 60,000 high-quality entries, aiming to advance the field of function-calling agent domains. The dataset is available on Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k and the project homepage: https://apigen-pipeline.github.io/ | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# 地域ネットワークから見た社会感染の消長メカニズム
Distinguishing mechanisms of social contagion from local network view ( http://arxiv.org/abs/2406.18519v1 ) ライセンス: Link先を確認 | Elsa Andres, Gergely Ódor, Iacopo Iacopini, Márton Karsai, | (参考訳) 個人の行動パターンの採用は、主に、社会的相互作用や外部ソースを介して仲間からやってくる刺激によって決定される。
これらの影響に基づき、個人は一般的に単純または複雑な養子縁組規則に従うと仮定され、社会的伝染プロセスが引き起こされる。
実際には、複数の採用ルールは、同じ社会的伝染プロセス内で共存し、拡散現象にさらなる複雑さをもたらす可能性がある。
我々のゴールは、既存の採用メカニズムが、基盤となるネットワークや展開プロセスのグローバルな情報を必要とすることなく、エゴセントリックネットワークレベルで、顕微鏡的な視点から区別できるかどうかを理解することである。
本稿では、この問題を分類問題として定式化し、ベイズ確率法および様々な合成およびデータ駆動実験におけるランダムな森林分類器を用いて研究する。
本研究は、自我中心レベルでの伝播過程の観察と、局所的な視点からランドマーク感染機構のより深い理解について、新しい視点を提供する。
The adoption of individual behavioural patterns is largely determined by stimuli arriving from peers via social interactions or from external sources. Based on these influences, individuals are commonly assumed to follow simple or complex adoption rules, inducing social contagion processes. In reality, multiple adoption rules may coexist even within the same social contagion process, introducing additional complexity into the spreading phenomena. Our goal is to understand whether coexisting adoption mechanisms can be distinguished from a microscopic view, at the egocentric network level, without requiring global information about the underlying network, or the unfolding spreading process. We formulate this question as a classification problem, and study it through a Bayesian likelihood approach and with random forest classifiers in various synthetic and data-driven experiments. This study offers a novel perspective on the observations of propagation processes at the egocentric level and a better understanding of landmark contagion mechanisms from a local view. | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# CharXiv:マルチモーダルLLMにおけるリアルチャート理解におけるチャートギャップ
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs ( http://arxiv.org/abs/2406.18521v1 ) ライセンス: Link先を確認 | Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen, | (参考訳) チャート理解は、科学論文の分析や財務報告などの現実的なタスクにMLLM(Multimodal Large Language Models)を適用する際に重要な役割を果たす。
しかし、既存のデータセットはテンプレートベースの質問で単純化され、均質なチャートにフォーカスすることが多く、過度に最適化された進捗測定に繋がる。
オープンソースモデルはこれらのベンチマークで強力なプロプライエタリモデルより優れているように見えるが、わずかに異なるチャートや疑問を持つ単純なストレステストは、パフォーマンスを最大34.5%低下させる可能性があることを実証した。
本稿では,自然,挑戦,多彩なArXiv論文のチャートを含む総合的な評価スイートCharXivを提案する。
CharXivには2つの質問がある。
1)基本チャート要素の検査と説明的質問
2) 図中の複雑な視覚要素にまたがって情報を合成する必要がある理由付け質問。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、47.1%の精度を持つ最強プロプライエタリモデルの推論技術(GPT-4o)と、29.2%の精度を持つ最強のオープンソースモデル(InternVL Chat V1.5)との間には、実質的かつ過小評価されたギャップがあることが判明した。
すべてのモデルは、既存のMLLMのチャート理解能力の弱点を浮き彫りにして、80.5%の人間のパフォーマンスよりもはるかに遅れている。
CharXivは、より現実的で忠実な進捗測定を提供することで、MLLMチャート理解の今後の研究を促進することを願っている。
プロジェクトページとリーダーボード:https://charxiv.github.io/
Chart understanding plays a pivotal role when applying Multimodal Large Language Models (MLLMs) to real-world tasks such as analyzing scientific papers or financial reports. However, existing datasets often focus on oversimplified and homogeneous charts with template-based questions, leading to an over-optimistic measure of progress. We demonstrate that although open-source models can appear to outperform strong proprietary models on these benchmarks, a simple stress test with slightly different charts or questions can deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a comprehensive evaluation suite involving 2,323 natural, challenging, and diverse charts from arXiv papers. CharXiv includes two types of questions: 1) descriptive questions about examining basic chart elements and 2) reasoning questions that require synthesizing information across complex visual elements in the chart. To ensure quality, all charts and questions are handpicked, curated, and verified by human experts. Our results reveal a substantial, previously underestimated gap between the reasoning skills of the strongest proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%. All models lag far behind human performance of 80.5%, underscoring weaknesses in the chart understanding capabilities of existing MLLMs. We hope CharXiv facilitates future research on MLLM chart understanding by providing a more realistic and faithful measure of progress. Project page and leaderboard: https://charxiv.github.io/ | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# ChronoMagic-Bench:テキストからタイムラプスビデオ生成のメタモルフィック評価のためのベンチマーク
ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation ( http://arxiv.org/abs/2406.18522v1 ) ライセンス: Link先を確認 | Shenghai Yuan, Jinfa Huang, Yongqi Xu, Yaoyang Liu, Shaofeng Zhang, Yujun Shi, Ruijie Zhu, Xinhua Cheng, Jiebo Luo, Li Yuan, | (参考訳) 本稿では,T2Vモデル(例えば Sora や Lumiere など)の時間的・メタモルフィック性を評価するために,新しいテキスト・トゥ・ビデオ(T2V)生成ベンチマークであるChronoMagic-Benchを提案する。
生成されたビデオの視覚的品質とテキスト的関連性に焦点を当てた既存のベンチマークとは対照的に、ChronoMagic-Benchは、重要なメタモルフィック振幅と時間的コヒーレンスを持つタイムラプスビデオを生成するモデルの能力に焦点を当てている。
このベンチマークは、自由形式のテキストクエリで、物理、生物学、化学能力のT2Vモデルを探索する。
これらの目的のために、ChronoMagic-Benchは1,649のプロンプトと実世界のビデオを紹介し、生物学的、人造、気象学、物理現象の4つの主要なタイプのタイムラプスビデオに分類し、さらに75のサブカテゴリに分けられる。
この分類は、多種多様な複雑な変換を扱うためのモデルの能力を包括的に評価する。
MTScoreとCHScoreという2つの新しい自動メトリクスを導入し、ビデオのメタモルフィック特性と時間的コヒーレンスを評価する。
MTScoreは時間とともに変化の度合いを反映して変成振幅を測定し、CHScoreは時間的コヒーレンスを評価し、生成されたビデオが論理的な進行と連続性を維持する。
ChronoMagic-Benchに基づいて、10種類の代表的T2Vモデルの総合的手動評価を行い、異なるカテゴリのプロンプトの強さと弱点を明らかにし、ビデオ生成研究における現在のギャップに対処する徹底的な評価フレームワークを提供する。
さらに,大規模なChronoMagic-Proデータセットを作成し,高品質な720pタイムラプスビデオと詳細なキャプションを460万組備えた。
We propose a novel text-to-video (T2V) generation benchmark, ChronoMagic-Bench, to evaluate the temporal and metamorphic capabilities of the T2V models (e.g. Sora and Lumiere) in time-lapse video generation. In contrast to existing benchmarks that focus on the visual quality and textual relevance of generated videos, ChronoMagic-Bench focuses on the model's ability to generate time-lapse videos with significant metamorphic amplitude and temporal coherence. The benchmark probes T2V models for their physics, biology, and chemistry capabilities, in a free-form text query. For these purposes, ChronoMagic-Bench introduces 1,649 prompts and real-world videos as references, categorized into four major types of time-lapse videos: biological, human-created, meteorological, and physical phenomena, which are further divided into 75 subcategories. This categorization comprehensively evaluates the model's capacity to handle diverse and complex transformations. To accurately align human preference with the benchmark, we introduce two new automatic metrics, MTScore and CHScore, to evaluate the videos' metamorphic attributes and temporal coherence. MTScore measures the metamorphic amplitude, reflecting the degree of change over time, while CHScore assesses the temporal coherence, ensuring the generated videos maintain logical progression and continuity. Based on the ChronoMagic-Bench, we conduct comprehensive manual evaluations of ten representative T2V models, revealing their strengths and weaknesses across different categories of prompts, and providing a thorough evaluation framework that addresses current gaps in video generation research. Moreover, we create a large-scale ChronoMagic-Pro dataset, containing 460k high-quality pairs of 720p time-lapse videos and detailed captions ensuring high physical pertinence and large metamorphic amplitude. | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# MultiDiff: 単一画像からの一貫性のある新しいビュー合成
MultiDiff: Consistent Novel View Synthesis from a Single Image ( http://arxiv.org/abs/2406.18524v1 ) ライセンス: Link先を確認 | Norman Müller, Katja Schwarz, Barbara Roessle, Lorenzo Porzi, Samuel Rota Bulò, Matthias Nießner, Peter Kontschieder, | (参考訳) 一つのRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチであるMultiDiffを紹介する。
単一の参照画像から新規なビューを合成する作業は、観測されていない領域について、複数のもっともらしい説明が存在するため、自然によって非常に不適切である。
この問題に対処するために、単眼深度予測器とビデオ拡散モデルという形で、強い先行を組み込んだ。
単分子深度により、ターゲットビューの歪んだ参照画像にモデルを条件付けることができ、幾何学的安定性が向上する。
ビデオ拡散前は、3Dシーンの強力なプロキシを提供しており、モデルが生成した画像間の連続的および画素精度の対応を学習することができる。
ドリフトやエラーの蓄積が難しい自動回帰画像生成に依存するアプローチとは対照的に、MultiDiffは高品質で複数ビューの一貫性のある結果をもたらす一連のフレームを共同で合成する。
さらなる一貫性と画質向上のために、我々は新しい構造付きノイズ分布を導入する。
実験の結果,MultiDiffはリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることがわかった。
最後に、我々のモデルは、さらなるチューニングを必要とせずに、自然にマルチビュー一貫した編集をサポートする。
We introduce MultiDiff, a novel approach for consistent novel view synthesis of scenes from a single RGB image. The task of synthesizing novel views from a single reference image is highly ill-posed by nature, as there exist multiple, plausible explanations for unobserved areas. To address this issue, we incorporate strong priors in form of monocular depth predictors and video-diffusion models. Monocular depth enables us to condition our model on warped reference images for the target views, increasing geometric stability. The video-diffusion prior provides a strong proxy for 3D scenes, allowing the model to learn continuous and pixel-accurate correspondences across generated images. In contrast to approaches relying on autoregressive image generation that are prone to drifts and error accumulation, MultiDiff jointly synthesizes a sequence of frames yielding high-quality and multi-view consistent results -- even for long-term scene generation with large camera movements, while reducing inference time by an order of magnitude. For additional consistency and image quality improvements, we introduce a novel, structured noise distribution. Our experimental results demonstrate that MultiDiff outperforms state-of-the-art methods on the challenging, real-world datasets RealEstate10K and ScanNet. Finally, our model naturally supports multi-view consistent editing without the need for further tuning. | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# PrExMe! 機械翻訳と要約評価のためのオープンソースのLLMの大規模プロンプト探索
PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation ( http://arxiv.org/abs/2406.18528v1 ) ライセンス: Link先を確認 | Christoph Leiter, Steffen Eger, | (参考訳) 大規模言語モデル(LLM)はNLPの分野に革命をもたらした。
特に、彼らのコンテキスト内学習機能は、自然言語生成の評価指標としての使用を可能にし、低リソースのシナリオや時間制限のアプリケーションで特に有利である。
本研究では,機械翻訳(MT)および要約データセット上での720以上のプロンプトテンプレートの評価を行い,合計660万以上の評価を行った。
この広範な比較(1)は、最近のオープンソースLCMのパフォーマンスを指標として評価し、(2)異なるプロンプト戦略の安定性と変動性について検討する。
一方で、プロンプトが安定しているシナリオがあることが分かっています。
例えば、一部のLLMは慣用的な好みを示し、テキストラベルを持つグレード生成テキストを好む一方で、数値スコアを返すことを好んでいる。
一方、プロンプトとモデルランキングの安定性は、一見無害な変化の影響を受けやすい。
例えば、要求された出力フォーマットを"0 to 100"から"-1 to +1"に変更することは、評価のランク付けに大きく影響します。
本研究は,LLMに基づくMTの指標と要約評価に対する異なるプロンプト手法の影響を理解することに貢献し,最も安定したプロンプトパターンと潜在的な制限を強調した。
Large language models (LLMs) have revolutionized the field of NLP. Notably, their in-context learning capabilities also enable their use as evaluation metrics for natural language generation, making them particularly advantageous in low-resource scenarios and time-restricted applications. In this work, we introduce PrExMe, a large-scale prompt exploration for metrics, where we evaluate more than 720 prompt templates for open-source LLM-based metrics on machine translation (MT) and summarization datasets, totalling over 6.6M evaluations. This extensive comparison (1) serves as a benchmark of the performance of recent open-source LLMs as metrics and (2) explores the stability and variability of different prompting strategies. We discover that, on the one hand, there are scenarios for which prompts are stable. For instance, some LLMs show idiosyncratic preferences and favor to grade generated texts with textual labels while others prefer to return numeric scores. On the other hand, the stability of prompts and model rankings can be susceptible to seemingly innocuous changes. For example, changing the requested output format from "0 to 100" to "-1 to +1" can strongly affect the rankings in our evaluation. Our study contributes to understanding the impact of different prompting approaches on LLM-based metrics for MT and summarization evaluation, highlighting the most stable prompting patterns and potential limitations. | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# q_π$-realizable Constrained MDPにおける地域計画の信頼性と自然政策
Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs ( http://arxiv.org/abs/2406.18529v1 ) ライセンス: Link先を確認 | Tian Tian, Lin F. Yang, Csaba Szepesvári, | (参考訳) 制約付きマルコフ決定プロセス(CMDP)フレームワークは、累積報酬を最大化しつつ、安全性や他の重要な目標を課すための重要な強化学習アプローチとして出現する。
しかし、CMDP環境での効率的な学習方法に関する現在の理解は、特に関数近似が値関数に適用された場合、研究が続けられている。
本稿では, 線形関数を$q_{\pi}$-realizabilityで近似した学習問題に対処し, 全てのポリシーの値関数が既知の特徴写像で線形表現可能であることを示す。
局所アクセスモデルを用いて,$\tilde{O}(\text{poly}(d) \epsilon^{-3})$クエリの後に,厳密な制約を満たすポリシを高確率で出力し,報酬関数に関する値をほぼ最適化する,新しい原始双対アルゴリズムを提案する。
ここで$d$は特徴次元であり、$\epsilon > 0$は与えられたエラーである。
このアルゴリズムは、政策を歴史的データを用いて評価するために、慎重に作られた非政治評価手順に依存しており、政策の勾配を通じてポリシーの更新を通知し、サンプルを保存している。
我々の知る限り、これは$q_{\pi}$-realizable設定でCMDPの多項式サンプル複雑性を達成する最初の結果である。
The constrained Markov decision process (CMDP) framework emerges as an important reinforcement learning approach for imposing safety or other critical objectives while maximizing cumulative reward. However, the current understanding of how to learn efficiently in a CMDP environment with a potentially infinite number of states remains under investigation, particularly when function approximation is applied to the value functions. In this paper, we address the learning problem given linear function approximation with $q_{\pi}$-realizability, where the value functions of all policies are linearly representable with a known feature map, a setting known to be more general and challenging than other linear settings. Utilizing a local-access model, we propose a novel primal-dual algorithm that, after $\tilde{O}(\text{poly}(d) \epsilon^{-3})$ queries, outputs with high probability a policy that strictly satisfies the constraints while nearly optimizing the value with respect to a reward function. Here, $d$ is the feature dimension and $\epsilon > 0$ is a given error. The algorithm relies on a carefully crafted off-policy evaluation procedure to evaluate the policy using historical data, which informs policy updates through policy gradients and conserves samples. To our knowledge, this is the first result achieving polynomial sample complexity for CMDP in the $q_{\pi}$-realizable setting. | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# MatchTime: 自動サッカーゲーム解説生成を目指す
MatchTime: Towards Automatic Soccer Game Commentary Generation ( http://arxiv.org/abs/2406.18530v1 ) ライセンス: Link先を確認 | Jiayuan Rao, Haoning Wu, Chang Liu, Yanfeng Wang, Weidi Xie, | (参考訳) 本論文では,観客の視聴体験を改善するために,サッカーゲームの自動解説モデルの構築を検討する。
まず、既存のデータセットで広く使われているビデオテキストのミスアライメントを観察し、49試合のタイムスタンプを手動でアノテートし、SN-Caption-test-alignと呼ばれるサッカーゲームのコメント生成のためのより堅牢なベンチマークを確立します。
大規模な実験とアブレーション研究により、アライメントパイプラインの有効性が実証され、キュレートされたデータセットのトレーニングモデルは、注釈生成のための最先端のパフォーマンスを実現し、より優れたアライメントが下流タスクの大幅なパフォーマンス向上につながることを示した。
Soccer is a globally popular sport with a vast audience, in this paper, we consider constructing an automatic soccer game commentary model to improve the audiences' viewing experience. In general, we make the following contributions: First, observing the prevalent video-text misalignment in existing datasets, we manually annotate timestamps for 49 matches, establishing a more robust benchmark for soccer game commentary generation, termed as SN-Caption-test-align; Second, we propose a multi-modal temporal alignment pipeline to automatically correct and filter the existing dataset at scale, creating a higher-quality soccer game commentary dataset for training, denoted as MatchTime; Third, based on our curated dataset, we train an automatic commentary generation model, named MatchVoice. Extensive experiments and ablation studies have demonstrated the effectiveness of our alignment pipeline, and training model on the curated datasets achieves state-of-the-art performance for commentary generation, showcasing that better alignment can lead to significant performance improvements in downstream tasks. | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# 自己進化型エージェントを実現するシンボリックラーニング
Symbolic Learning Enables Self-Evolving Agents ( http://arxiv.org/abs/2406.18532v1 ) ライセンス: Link先を確認 | Wangchunshu Zhou, Yixin Ou, Shengwei Ding, Long Li, Jialong Wu, Tiannan Wang, Jiamin Chen, Shuai Wang, Xiaohua Xu, Ningyu Zhang, Huajun Chen, Yuchen Eleanor Jiang, | (参考訳) AIコミュニティは、複雑な大規模言語モデル(LLM)パイプラインである"言語エージェント"を開発することによって、人工知能(AGI)への道を模索してきた。
言語エージェントは多くの実世界のタスクに対して印象的な能力を示してきたが、現在の言語エージェントの研究の基本的な制限は、それらがモデル中心、またはエンジニアリング中心であることである。
つまり、言語エージェントのプロンプト、ツール、パイプラインの進歩には、データから自動的に学習するのではなく、人間の専門家によるかなりの手作業が必要です。
私たちは、モデル中心、またはエンジニアリング中心からデータ中心への移行、すなわち、言語エージェントが自律的に環境の中で学習し、進化する能力への移行が、彼らがAGIを達成するための鍵であると信じています。
本研究では,言語エージェントがシンボリック・オプティマイザを用いて,データ中心の方法で自分自身を最適化することのできる,体系的なフレームワークであるエージェントシンボリック・ラーニングを紹介する。
具体的には、学習可能な重みがプロンプト、ツール、そしてそれらが積み重ねられる方法によって定義されるシンボリックネットワークとしてエージェントを考察する。
エージェント記号学習は、バックプロパゲーションと勾配降下という2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
数値重みを扱う代わりに、エージェント記号学習は、重み、損失、勾配の自然言語シミュラクルで動作する。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行い、エージェントシンボル学習によって言語エージェントが野生で作成、デプロイされた後に自分自身を更新できることを示す。
The AI community has been exploring a pathway to artificial general intelligence (AGI) by developing "language agents", which are complex large language models (LLMs) pipelines involving both prompting techniques and tool usage methods. While language agents have demonstrated impressive capabilities for many real-world tasks, a fundamental limitation of current language agents research is that they are model-centric, or engineering-centric. That's to say, the progress on prompts, tools, and pipelines of language agents requires substantial manual engineering efforts from human experts rather than automatically learning from data. We believe the transition from model-centric, or engineering-centric, to data-centric, i.e., the ability of language agents to autonomously learn and evolve in environments, is the key for them to possibly achieve AGI. In this work, we introduce agent symbolic learning, a systematic framework that enables language agents to optimize themselves on their own in a data-centric way using symbolic optimizers. Specifically, we consider agents as symbolic networks where learnable weights are defined by prompts, tools, and the way they are stacked together. Agent symbolic learning is designed to optimize the symbolic network within language agents by mimicking two fundamental algorithms in connectionist learning: back-propagation and gradient descent. Instead of dealing with numeric weights, agent symbolic learning works with natural language simulacrums of weights, loss, and gradients. We conduct proof-of-concept experiments on both standard benchmarks and complex real-world tasks and show that agent symbolic learning enables language agents to update themselves after being created and deployed in the wild, resulting in "self-evolving agents". | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# 3次元ガウス平滑化訓練のスケールアップについて
On Scaling Up 3D Gaussian Splatting Training ( http://arxiv.org/abs/2406.18533v1 ) ライセンス: Link先を確認 | Hexu Zhao, Haoyang Weng, Daohan Lu, Ang Li, Jinyang Li, Aurojit Panda, Saining Xie, | (参考訳) 3D Gaussian Splatting (3DGS)は、視覚的品質とレンダリング速度が優れているため、3D再構成に人気がある。
しかし、現在3DGSのトレーニングは単一のGPU上で行われ、メモリ制約のため、高解像度で大規模な3D再構成タスクを処理できる能力を制限する。
我々は,3DGSパラメータを分割し,複数のGPUを並列化する分散システムであるGrendelを紹介した。
それぞれのガウスがレンダリングされたピクセルの小さな動的サブセットに影響を与えるため、Grendelは必要なガウスをピクセルパーティションに転送し、動的ロードバランシングを行うために、疎全通信を使用する。
一度に1台のカメラビューイメージをトレーニングする既存の3DGSシステムとは異なり、Grendelは複数のビューでバッチトレーニングをサポートする。
様々な最適化ハイパーパラメータスケーリング戦略を探索し、単純なsqrt(バッチサイズ)スケーリングルールが極めて有効であることを示す。
大規模で高解像度なシーンによる評価は、Grendelが複数のGPUで3DGSパラメータをスケールアップすることで、レンダリング品質を向上させることを示している。
Rubbleデータセットでは、16GPUに4040万ガウスアンを分散させることで27.28のPSNRをテストし、単一のGPU上で112万ガウスアンを使用した26.28のPSNRと比較した。
Grendelはオープンソースプロジェクトである。 https://github.com/nyu-systems/Grendel-GS
3D Gaussian Splatting (3DGS) is increasingly popular for 3D reconstruction due to its superior visual quality and rendering speed. However, 3DGS training currently occurs on a single GPU, limiting its ability to handle high-resolution and large-scale 3D reconstruction tasks due to memory constraints. We introduce Grendel, a distributed system designed to partition 3DGS parameters and parallelize computation across multiple GPUs. As each Gaussian affects a small, dynamic subset of rendered pixels, Grendel employs sparse all-to-all communication to transfer the necessary Gaussians to pixel partitions and performs dynamic load balancing. Unlike existing 3DGS systems that train using one camera view image at a time, Grendel supports batched training with multiple views. We explore various optimization hyperparameter scaling strategies and find that a simple sqrt(batch size) scaling rule is highly effective. Evaluations using large-scale, high-resolution scenes show that Grendel enhances rendering quality by scaling up 3DGS parameters across multiple GPUs. On the Rubble dataset, we achieve a test PSNR of 27.28 by distributing 40.4 million Gaussians across 16 GPUs, compared to a PSNR of 26.28 using 11.2 million Gaussians on a single GPU. Grendel is an open-source project available at: https://github.com/nyu-systems/Grendel-GS | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# 概念学習における構成性に向けて
Towards Compositionality in Concept Learning ( http://arxiv.org/abs/2406.18534v1 ) ライセンス: Link先を確認 | Adam Stein, Aaditya Naik, Yinjun Wu, Mayur Naik, Eric Wong, | (参考訳) 概念に基づく解釈可能性法は、それらの埋め込みを高レベルな概念に分解することで基礎モデルの内部にレンズを提供する。
これらの概念表現は、構成的であるときに最も有用であり、つまり、個々の概念は完全なサンプルを説明するために構成される。
既存の教師なし概念抽出手法では、構成的でない概念が見つかる。
合成概念表現を自動的に発見するために,そのような表現の2つの顕著な性質を同定し,それらの性質に従う概念を見つけるための合成概念抽出(CCE)を提案する。
画像データとテキストデータに対して,CCEを5つの異なるデータセットで評価する。
評価の結果、CCEはベースラインよりも構成的な概念表現を多く見つけ、下流の4つの分類タスクにおいて精度が向上していることがわかった。
コードとデータはhttps://github.com/adaminsky/compositional_conceptsで公開されている。
Concept-based interpretability methods offer a lens into the internals of foundation models by decomposing their embeddings into high-level concepts. These concept representations are most useful when they are compositional, meaning that the individual concepts compose to explain the full sample. We show that existing unsupervised concept extraction methods find concepts which are not compositional. To automatically discover compositional concept representations, we identify two salient properties of such representations, and propose Compositional Concept Extraction (CCE) for finding concepts which obey these properties. We evaluate CCE on five different datasets over image and text data. Our evaluation shows that CCE finds more compositional concept representations than baselines and yields better accuracy on four downstream classification tasks. Code and data are available at https://github.com/adaminsky/compositional_concepts . | 翻訳日:2024-06-27 12:40:34 公開日:2024-06-26 |
# 従来見つからなかったツールを用いた大規模言語モデルによる電力系統シミュレーション
Enabling Large Language Models to Perform Power System Simulations with Previously Unseen Tools: A Case of Daline ( http://arxiv.org/abs/2406.17215v2 ) ライセンス: Link先を確認 | Mengshuo Jia, Zeyu Cui, Gabriela Hug, | (参考訳) 大規模な言語モデル(LLM)と実験技術の統合は科学研究を変革し、専門的な問題解決を超えてAI能力を提供し、人間の科学者のための研究アシスタントになる。
電力システムでは、シミュレーションは研究に不可欠である。
しかし、LLMは、既存の知識の制限と電力グリッドの複雑さのために、電力系統シミュレーションにおいて重大な課題に直面している。
この問題に対処するために、電力系統とLLMドメインの両方の専門知識を統合するモジュラーフレームワークを提案する。
このフレームワークは、以前は見つからなかったツール上で電力系統シミュレーションを行うLLMの能力を向上する。
提案したフレームワークは、(最適)電力フローシミュレーションと線形化ツールボックスであるDalineで34のシミュレーションタスクを使用して検証され、GPT-4oのシミュレーションコーディング精度を0%から96.07%に改善し、ChatGPT-4oのWebインターフェースの33.8%の精度(全知識ベースがアップロードされた)を上回った。
これらの結果は、電力システムにおける研究アシスタントとしてのLLMの可能性を強調している。
The integration of experiment technologies with large language models (LLMs) is transforming scientific research, offering AI capabilities beyond specialized problem-solving to becoming research assistants for human scientists. In power systems, simulations are essential for research. However, LLMs face significant challenges in power system simulations due to limited pre-existing knowledge and the complexity of power grids. To address this issue, this work proposes a modular framework that integrates expertise from both the power system and LLM domains. This framework enhances LLMs' ability to perform power system simulations on previously unseen tools. Validated using 34 simulation tasks in Daline, a (optimal) power flow simulation and linearization toolbox not yet exposed to LLMs, the proposed framework improved GPT-4o's simulation coding accuracy from 0% to 96.07%, also outperforming the ChatGPT-4o web interface's 33.8% accuracy (with the entire knowledge base uploaded). These results highlight the potential of LLMs as research assistants in power systems. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# ラベルフリーセグメンテーションとトレーニングフリー画像翻訳を用いたスカルプ診断システム
Scalp Diagnostic System With Label-Free Segmentation and Training-Free Image Translation ( http://arxiv.org/abs/2406.17254v2 ) ライセンス: Link先を確認 | Youngmin Kim, Saejin Kim, Hoyeon Moon, Youngjae Yu, Junhyug Noh, | (参考訳) スカルプ病とアロペシアは世界中の何百万人もの人々に影響を与えており、早期診断と治療の緊急の必要性を浮き彫りにしている。
しかし、これらの条件を包含する包括的AIベースの診断システムの開発は、データの不均衡とラベル付けのコスト性に関わる課題のため、まだ未解決の領域である。
これらの課題に対処するために,頭皮疾患とアロペシアの総合診断のためのAI駆動型システムであるScalpVisionを提案する。
ScalpVisionでは、従来のヘアマスクラベルがない場合に、擬似画像ラベルペアと革新的なプロンプト法を用いて、効果的なヘアセグメンテーションを実現する。
このアプローチは、毛髪の厚みや数などの重要な特徴を抽出し、アロペシアの重症度を評価するのに重要である。
さらに、ScalpVisionは、ヘア情報を維持しながらデータセット拡張に適応する生成モデルであるDiffuseIT-Mを導入し、頭皮疾患の重症度の予測を改善する。
以上の結果から,ScalpVisionは各種の頭皮疾患やアロペシアの診断に有効であり,皮膚科的治療に有用である可能性が示唆された。
Scalp diseases and alopecia affect millions of people around the world, underscoring the urgent need for early diagnosis and management of the disease. However, the development of a comprehensive AI-based diagnosis system encompassing these conditions remains an underexplored domain due to the challenges associated with data imbalance and the costly nature of labeling. To address these issues, we propose ScalpVision, an AI-driven system for the holistic diagnosis of scalp diseases and alopecia. In ScalpVision, effective hair segmentation is achieved using pseudo image-label pairs and an innovative prompting method in the absence of traditional hair masking labels. This approach is crucial for extracting key features such as hair thickness and count, which are then used to assess alopecia severity. Additionally, ScalpVision introduces DiffuseIT-M, a generative model adept at dataset augmentation while maintaining hair information, facilitating improved predictions of scalp disease severity. Our experimental results affirm ScalpVision's efficiency in diagnosing a variety of scalp conditions and alopecia, showcasing its potential as a valuable tool in dermatological care. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# SetBERT: Boolean LogicとSet Operation Queriesの検索パフォーマンス向上
SetBERT: Enhancing Retrieval Performance for Boolean Logic and Set Operation Queries ( http://arxiv.org/abs/2406.17282v2 ) ライセンス: Link先を確認 | Quan Mai, Susan Gauch, Douglas Adams, | (参考訳) 本稿では,集合演算に対するクエリ埋め込みと,インターセクション(AND),差分(NOT),ユニオン(OR)などのブール論理クエリを強化するために設計された,細調整のBERTベースモデルであるSetBERTを紹介する。
SetBERTは論理構造クエリの検索性能を大幅に改善する。
本稿では,逆コントラスト損失の革新的な利用法を提案し,否定文の同定と,プロンプトGPTによって生成されたデータセットを用いた細調整BERTを提案する。
さらに、他のBERTモデルとは異なり、3重項損失を伴う微調整は、この特定のタスクの性能を低下させることを示した。
実験の結果, SetBERT-base は BERT-base を大幅に上回るだけでなく (リコールの63%の改善) , より大型の BERT-large モデルに匹敵する性能を実現していることがわかった。
We introduce SetBERT, a fine-tuned BERT-based model designed to enhance query embeddings for set operations and Boolean logic queries, such as Intersection (AND), Difference (NOT), and Union (OR). SetBERT significantly improves retrieval performance for logic-structured queries, an area where both traditional and neural retrieval methods typically underperform. We propose an innovative use of inversed-contrastive loss, focusing on identifying the negative sentence, and fine-tuning BERT with a dataset generated via prompt GPT. Furthermore, we demonstrate that, unlike other BERT-based models, fine-tuning with triplet loss actually degrades performance for this specific task. Our experiments reveal that SetBERT-base not only significantly outperforms BERT-base (up to a 63% improvement in Recall) but also achieves performance comparable to the much larger BERT-large model, despite being only one-third the size. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# Math-LLaVA:マルチモーダル大言語モデルのためのブートストラップ数学的推論
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models ( http://arxiv.org/abs/2406.17294v2 ) ライセンス: Link先を確認 | Wenhao Shi, Zhiqiang Hu, Yi Bin, Junhua Liu, Yang Yang, See-Kiong Ng, Lidong Bing, Roy Ka-Wei Lee, | (参考訳) 大規模言語モデル(LLM)は、特にテキスト数学的問題解決において顕著な推論能力を示している。
しかし、既存のオープンソースイメージインストラクション微調整データセットは、画像毎の質問対を限定的に含むが、視覚情報をフル活用して、マルチモーダルLLM(MLLM)のマルチモーダル数学的推論能力を高めることはできない。
このギャップを埋めるために、24の既存データセットから40Kの高品質な画像を集め、320Kの新しいペアを合成し、マルチモーダルな数学的疑問の幅と深さを高めるMathV360Kデータセットを作成することで、高品質で多様なマルチモーダルな数学的データセットの欠如に対処する。
我々は、LLaVA-1.5ベースモデルであるMath-LLaVAを紹介し、MathV360Kで微調整する。
この手法はLLaVA-1.5のマルチモーダルな数学的推論能力を大幅に向上させ、MathVistaのミニテスト分割におけるGPT-4Vに匹敵する性能を19ポイント向上させた。
さらに、Math-LLaVAは一般化性の向上を示し、MMMUベンチマークを大幅に改善した。
本研究は,MLLMの数学的推論能力向上におけるデータセットの多様性と合成の重要性を強調した。
コードとデータは以下の通りである。 \url{https://github.com/HZQ950419/Math-LLaVA}。
Large language models (LLMs) have demonstrated impressive reasoning capabilities, particularly in textual mathematical problem-solving. However, existing open-source image instruction fine-tuning datasets, containing limited question-answer pairs per image, do not fully exploit visual information to enhance the multimodal mathematical reasoning capabilities of Multimodal LLMs (MLLMs). To bridge this gap, we address the lack of high-quality, diverse multimodal mathematical datasets by collecting 40K high-quality images with question-answer pairs from 24 existing datasets and synthesizing 320K new pairs, creating the MathV360K dataset, which enhances both the breadth and depth of multimodal mathematical questions. We introduce Math-LLaVA, a LLaVA-1.5-based model fine-tuned with MathV360K. This novel approach significantly improves the multimodal mathematical reasoning capabilities of LLaVA-1.5, achieving a 19-point increase and comparable performance to GPT-4V on MathVista's minitest split. Furthermore, Math-LLaVA demonstrates enhanced generalizability, showing substantial improvements on the MMMU benchmark. Our research highlights the importance of dataset diversity and synthesis in advancing MLLMs' mathematical reasoning abilities. The code and data are available at: \url{https://github.com/HZQ950419/Math-LLaVA}. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# レイヤワイズ量子化:整数ビットレベルを超えたLLMの実用的で効果的な量子化法
Layer-Wise Quantization: A Pragmatic and Effective Method for Quantizing LLMs Beyond Integer Bit-Levels ( http://arxiv.org/abs/2406.17415v2 ) ライセンス: Link先を確認 | Razvan-Gabriel Dumitru, Vikas Yadav, Rishabh Maheshwary, Paul-Ioan Clotan, Sathwik Tejaswi Madhusudhan, Mihai Surdeanu, | (参考訳) 本稿では,大規模言語モデル(LLM)の異なる層を異なるビットレベルで定量化する,シンプルな変数量子化手法を提案する。
具体的には、浮動小数点量子化レベルを達成するために、最も重要な層を高いビット精度に量子化し、より重要でない層を低いビットに量子化する。
LLM内の層の重要性を測定するための効果的な方法として,第1に,出力埋め込みと入力埋め込みとの違い(より高い)に基づいて,レイヤの重要性を測定する。
重要度に応じて異なる層を異なるビットで定量化すると、より圧縮されたモデルサイズで性能低下が最小となることを示す。
最後に、可変層ワイド量子化実験から得られたいくつかの実用的な重要な点について述べる。
(a) 可変量子化下のLLM性能は,提案した順序付けを用いて25~50%の層を低い量子化で移動させるまで原モデルに近いが,特定の順序付けを使わずに移動した場合は5~10%に留まる。
b)LLMを低ビットに量子化することは、極端量子化(2ビット)を使用しない限り、プルーニングよりも大幅に向上する。
(c)低ビットに対する層ワイド量子化は、より少ない層を持つ小さなLLMに比べて、より多くの層を持つ大きなLLMの場合より有効である。
実験に使用されたコードは、https://github.com/RazvanDu/LayerwiseQuant.comで公開されている。
We present a simple variable quantization approach that quantizes different layers of a large language model (LLM) at different bit levels. Specifically, we quantize the most important layers to higher bit precision and less important layers to lower bits to achieve floating point quantization levels. We propose two effective strategies to measure the importance of layers within LLMs: the first measures the importance of a layer based on how different its output embeddings are from the input embeddings (the higher the better); the second estimates the importance of a layer using the number of layer weights that are much larger than average (the smaller the better). We show that quantizing different layers at varying bits according to our importance scores results in minimal performance drop with a far more compressed model size. Finally, we present several practical key takeaways from our variable layer-wise quantization experiments: (a) LLM performance under variable quantization remains close to the original model until 25-50% of layers are moved in lower quantization using our proposed ordering but only until 5-10% if moved using no specific ordering; (b) Quantizing LLMs to lower bits performs substantially better than pruning unless extreme quantization (2-bit) is used; and (c) Layer-wise quantization to lower bits works better in the case of larger LLMs with more layers compared to smaller LLMs with fewer layers. The code used to run the experiments is available at: https://github.com/RazvanDu/LayerwiseQuant. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# Androidアプリの互換性問題の背後にあるセマンティック非互換APIに関する大規模調査
A Large-scale Investigation of Semantically Incompatible APIs behind Compatibility Issues in Android Apps ( http://arxiv.org/abs/2406.17431v2 ) ライセンス: Link先を確認 | Shidong Pan, Tianchen Guo, Lihong Zhang, Pei Liu, Zhenchang Xing, Xiaoyu Sun, | (参考訳) アプリケーションプログラミングインタフェース(API)の非互換性は、Androidアプリケーション開発における長年の問題である。
Android APIの急速な進化は、多数のAPIの追加、削除、隣のバージョン間の変更をもたらす。
残念なことに、この頻度の高い変更は互換性の問題を引き起こす可能性がある。
研究者はAPIシグネチャの変更による互換性の問題を検出するためにいくつかの研究を提案しているが、洗練されたセマンティックな変更に起因する互換性の問題を見落としていることが多い。
この課題に対して,静的解析とLLM(Large Language Models)を併用して,Android Open Source Project(AOSP)における非互換APIの大規模発見を行った。
問題を体系的に定式化し,非互換なAPI,特に意味的変化を検出する統一的なフレームワークを提案する。
Androidフレームワークでセマンティックに非互換なAPIを特定する上で、我々のアプローチが0.83 F1スコアを達成したことは注目に値する。
最終的に、我々のアプローチは、バージョン4からバージョン33にまたがる5,481の互換性のないAPIを検出します。
さらに、これまで見過ごされてきた幅広い互換性問題(+92.3%)を検出する上で、最先端の手法を補完する効果を実証する。
Application Programming Interface (API) incompatibility is a long-standing issue in Android application development. The rapid evolution of Android APIs results in a significant number of API additions, removals, and changes between adjacent versions. Unfortunately, this high frequency of alterations may lead to compatibility issues, often without adequate notification to developers regarding these changes. Although researchers have proposed some work on detecting compatibility issues caused by changes in API signatures, they often overlook compatibility issues stemming from sophisticated semantic changes. In response to this challenge, we conducted a large-scale discovery of incompatible APIs in the Android Open Source Project (AOSP) by leveraging static analysis and pre-trained Large Language Models (LLMs) across adjacent versions. We systematically formulate the problem and propose a unified framework to detect incompatible APIs, especially for semantic changes. It's worth highlighting that our approach achieves a 0.83 F1-score in identifying semantically incompatible APIs in the Android framework. Ultimately, our approach detects 5,481 incompatible APIs spanning from version 4 to version 33. We further demonstrate its effectiveness in supplementing the state-of-the-art methods in detecting a broader spectrum of compatibility issues (+92.3%) that have been previously overlooked. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# 知識学習経路の説明可能性を高める:因果的知識ネットワーク
Enhancing Explainability of Knowledge Learning Paths: Causal Knowledge Networks ( http://arxiv.org/abs/2406.17518v2 ) ライセンス: Link先を確認 | Yuang Wei, Yizhou Zhou, Yuan-Hao Jiang, Bo Jiang, | (参考訳) 信頼できる知識構造は、効果的な適応学習システムと知的学習システムを構築するための前提条件である。
そこで本研究では,因果的知識ネットワークを構築する方法を提案する。
このアプローチはベイジアンネットワークを基礎として利用し、因果関係解析を取り入れて因果関係ネットワークを導出する。
さらに,このフレームワーク上に構築された信頼性の高い知識学習パスレコメンデーション技術を導入し,意思決定プロセスにおける透明性を維持しつつ,教育と学習の質を向上させる。
A reliable knowledge structure is a prerequisite for building effective adaptive learning systems and intelligent tutoring systems. Pursuing an explainable and trustworthy knowledge structure, we propose a method for constructing causal knowledge networks. This approach leverages Bayesian networks as a foundation and incorporates causal relationship analysis to derive a causal network. Additionally, we introduce a dependable knowledge-learning path recommendation technique built upon this framework, improving teaching and learning quality while maintaining transparency in the decision-making process. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# MedMNIST-C: 画像の現実的破壊をシミュレートした総合的ベンチマークと分類器の堅牢性の改善
MedMNIST-C: Comprehensive benchmark and improved classifier robustness by simulating realistic image corruptions ( http://arxiv.org/abs/2406.17536v2 ) ライセンス: Link先を確認 | Francesco Di Salvo, Sebastian Doerrich, Christian Ledig, | (参考訳) 神経ネットワークに基づくシステムの臨床実践への統合は、ドメインの一般化と堅牢性に関連する課題によって制限される。
コンピュータビジョンコミュニティは、これらの課題に対する進捗を測定するための基本的な前提条件として、ImageNet-Cのようなベンチマークを確立した。
同様のデータセットは、画像のモダリティや応用にまたがる包括的なベンチマークが欠如している医療画像コミュニティでは、ほとんど欠落している。
このギャップに対処するため、私たちはMedMNIST+コレクションに基づくベンチマークデータセットであるMedMNIST-Cをオープンソースとして公開した。
実世界の成果物や分布変化に対する確立されたアルゴリズムの頑健さを包括的に評価するため,タスクやモダリティに特有な画像の破損をシミュレートする。
さらに、簡単な人工汚職により、高性能で軽量なデータ拡張がモデルロバスト性を高めることができるという定量的証拠も提供します。
従来の汎用的な拡張戦略とは異なり、我々のアプローチはドメイン知識を活用し、広く採用されている手法と比較して、はるかに高い堅牢性を示す。
MedMNIST-Cを導入し,対象とするデータ拡張を可能にするライブラリをオープンソース化することにより,医用画像の課題に適したロバストな手法の開発に寄与する。
コードはhttps://github.com/francescodisalvo05/medmnistc-api}{github.com/francescodisalvo05/medmnistc-api で公開されている。
The integration of neural-network-based systems into clinical practice is limited by challenges related to domain generalization and robustness. The computer vision community established benchmarks such as ImageNet-C as a fundamental prerequisite to measure progress towards those challenges. Similar datasets are largely absent in the medical imaging community which lacks a comprehensive benchmark that spans across imaging modalities and applications. To address this gap, we create and open-source MedMNIST-C, a benchmark dataset based on the MedMNIST+ collection covering 12 datasets and 9 imaging modalities. We simulate task and modality-specific image corruptions of varying severity to comprehensively evaluate the robustness of established algorithms against real-world artifacts and distribution shifts. We further provide quantitative evidence that our simple-to-use artificial corruptions allow for highly performant, lightweight data augmentation to enhance model robustness. Unlike traditional, generic augmentation strategies, our approach leverages domain knowledge, exhibiting significantly higher robustness when compared to widely adopted methods. By introducing MedMNIST-C and open-sourcing the corresponding library allowing for targeted data augmentations, we contribute to the development of increasingly robust methods tailored to the challenges of medical imaging. The code is available at https://github.com/francescodisalvo05/medmnistc-api}{github.com/francescodisalvo05/medmnistc-api . | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# CDQuant:Greedy Coordinate Descentを用いた大規模事前学習モデルの正確なトレーニング後重み量子化
CDQuant: Accurate Post-training Weight Quantization of Large Pre-trained Models using Greedy Coordinate Descent ( http://arxiv.org/abs/2406.17542v2 ) ライセンス: Link先を確認 | Pranav Ajit Nair, Arun Sai Suggala, | (参考訳) 大規模言語モデル(LLM)は、最近、様々な言語タスクで顕著なパフォーマンスを示した。
しかし、そのデプロイメントは、大きな計算とストレージの要求によって制約されることが多い。
量子化はこの課題に対処するための重要なテクニックとして現れており、パフォーマンスに最小限の影響を伴って大きなモデルの圧縮を可能にしている。
ポストトレーニング量子化(PTQ)法である最近のGPTQアルゴリズムは、LCMを圧縮するのに非常に有効であることが証明され、コアコンポーネントとしてGPTQを利用する研究の波が引き起こされた。
PTQランドスケープにおけるGPTQの役割を認識し,GPTQの簡易かつスケーラブルな代替品であるCDQuantを導入する。
CDQuantは座標降下を利用して、高品質な量子化重みを達成するために層単位での再構成損失を最小限に抑える。
我々のアルゴリズムは簡単に実装でき、数十億のパラメータを持つモデルに効率的にスケールできる。
PLM2モデルファミリーの広範な評価を通じて、CDQuantは様々なモデルサイズと量子化レベルでGPTQを一貫して上回っていることを示す。
特に PaLM2-Otter の INT2 量子化では、CDQuant は GPTQ に比べて 10% のパープレキシティ低下を達成する。
Large language models (LLMs) have recently demonstrated remarkable performance across diverse language tasks. But their deployment is often constrained by their substantial computational and storage requirements. Quantization has emerged as a key technique for addressing this challenge, enabling the compression of large models with minimal impact on performance. The recent GPTQ algorithm, a post-training quantization (PTQ) method, has proven highly effective for compressing LLMs, sparking a wave of research that leverages GPTQ as a core component. Recognizing the pivotal role of GPTQ in the PTQ landscape, we introduce CDQuant, a simple and scalable alternative to GPTQ with improved performance. CDQuant uses coordinate descent to minimize the layer-wise reconstruction loss to achieve high-quality quantized weights. Our algorithm is easy to implement and scales efficiently to models with hundreds of billions of parameters. Through extensive evaluation on the PaLM2 model family, we demonstrate that CDQuant consistently outperforms GPTQ across diverse model sizes and quantization levels. In particular, for INT2 quantization of PaLM2-Otter, CDQuant achieves a 10% reduction in perplexity compared to GPTQ. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# 反断熱駆動による超低温原子によるNOON状態の加速生成
Accelerated creation of NOON states with ultracold atoms via counterdiabatic driving ( http://arxiv.org/abs/2406.17545v2 ) ライセンス: Link先を確認 | Simon Dengis, Sandro Wimberger, Peter Schlagheck, | (参考訳) 量子制御プロトコルは、2つのモードにN個の超低温ボゾン原子を持つNOON状態を生成するために提案され、コヒーレント重ね合わせ $\vert N,0\rangle + \vert 0,N\rangle$ に対応する。
この状態は、最初に全てのボソンが配置され、他の2つのモードと対称に結合された第3モードを用いて作成することができる。
この第3モードのエネルギーを他のモードのエネルギーレベルに調整することで、NOON状態の断熱的な生成が可能になる。
通常、このプロセスは実用性には時間がかかりすぎるが、関連するスペクトルギャップの小さいため、効率的なギャップ工学を可能にする反断熱駆動によって劇的に加速することができる。
このプロセスは、超低温量子ガスで実験的に実現可能な静的パラメータ適応の観点で実装可能であることを実証する。
要求されるプロトコル速度における利得因子は、関与する原子の数と指数関数的に増加し、したがって、この断熱遷移の根底にある指数関数的に遅い集団トンネル過程と相反する。
A quantum control protocol is proposed for the creation of NOON states with N ultracold bosonic atoms on two modes, corresponding to the coherent superposition $\vert N,0\rangle + \vert 0,N\rangle$. This state can be prepared by using a third mode where all bosons are initially placed and which is symmetrically coupled to the two other modes. Tuning the energy of this third mode across the energy level of the other modes allows the adiabatic creation of the NOON state. While this process normally takes too much time to be of practical usefulness, due to the smallness of the involved spectral gap, it can be drastically boosted through counterdiabatic driving which allows for efficient gap engineering. We demonstrate that this process can be implemented in terms of static parameter adaptations that are experimentally feasible with ultracold quantum gases. Gain factors in the required protocol speed are obtained that increase exponentially with the number of involved atoms and thus counterbalance the exponentially slow collective tunneling process underlying this adiabatic transition. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# 射影測定のみを用いた連続的三部構造非局所性共有
Sharing tripartite nonlocality sequentially using only projective measurements ( http://arxiv.org/abs/2406.17551v2 ) ライセンス: Link先を確認 | Yiyang Xu, Hao Sun, Fenzhuo Guo, Haifeng Dong, Qiaoyan Wen, | (参考訳) ベル非局所性は量子情報処理タスクにおいて貴重な資源である。
科学者は、単一の絡み合った状態が長い非局所的な相関関係を生成できるかどうかに興味を持っている。
従来の研究は、非シャープ測定によって連続的に三部構成の非局所性共有を達成してきた。
本稿では,射影測定のみを用いて三部構造非局所性の共有と古典的ランダム性の共有について検討する。
一般化されたGHZ状態に対しては、2つのチャーリーが非局所性(英語版)を1つのアリスと1つのボブと共有できる一方、チャーリーは1つのアリスと1つのボブと真の非局所性(英語版)を共有できることを示した。
しかし、偏りのある測定選択では、真の三分儀の非局所性を共有するチャーリーの数は2つに増やすことができる。
しかし, 偏りの測定値を用いることで, 標準三部点非局所性を共有するシーケンシャルオブザーバの数が増加しないことがわかった。
さらに、測定組み合わせ確率のパラメータに対して、状態に関する2つの違反の可能な範囲を提供する。
Bell nonlocality is a valuable resource in quantum information processing tasks. Scientists are interested in whether a single entangled state can generate a long sequence of nonlocal correlations. Previous work has accomplished sequential tripartite nonlocality sharing through unsharp measurements. In this paper, we investigate the sharing of tripartite nonlocality using only projective measurements and sharing classical randomness. For the generalized GHZ state, we have demonstrated that using unbiased measurement choices, two Charlies can share the standard tripartite nonlocality with a single Alice and a single Bob, while at most one Charlie can share the genuine tripartite nonlocality with a single Alice and a single Bob. However, with biased measurement choices, the number of Charlies sharing the genuine tripartite nonlocality can be increased to two. Nonetheless, we find that using biased measurements does not increase the number of sequential observers sharing the standard tripartite nonlocality. Moreover, we provide the feasible range of double violation for the parameters of the measurement combination probability with respect to the state. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# 最小インタラクションエッジチューニング: ビジュアル適応のための新しいパラダイム
Minimal Interaction Edge Tuning: A New Paradigm for Visual Adaptation ( http://arxiv.org/abs/2406.17559v2 ) ライセンス: Link先を確認 | Ningyuan Tang, Minghao Fu, Jianxin Wu, | (参考訳) 大規模ビジョン事前学習モデルの迅速なスケーリングにより、計算資源の少ないエッジデバイスでは、微調整タスクがますます困難になる。
我々は、エッジチューニングと呼ばれる新しいビジュアル適応パラダイムを探求し、大規模な事前訓練されたモデルを、強力なクラウドサーバ上で動作するスタンドアロンの機能抽出器として扱う。
この微調整は、少ない計算資源を必要とする小さなネットワークを持つエッジデバイス上で実行される。
本稿では,エッジチューニングパラダイムに適した既存手法について論じる。
しかし、エッジチューニングにおける3つの大きな欠点は、低い適応能力、大きなアダプタネットワーク、高い情報転送オーバーヘッドである。
これらの問題に対処するため,MIET (Minimal Interaction Edge Tuning) を提案する。
軽量な注目型アダプタネットワークにより、MIETは情報伝達効率、パラメータ効率、計算およびメモリ効率を達成し、同時に様々な視覚適応ベンチマークで競合結果を示す。
The rapid scaling of large vision pretrained models makes fine-tuning tasks more and more difficult on edge devices with low computational resources. We explore a new visual adaptation paradigm called edge tuning, which treats large pretrained models as standalone feature extractors that run on powerful cloud servers. The fine-tuning carries out on edge devices with small networks which require low computational resources. Existing methods that are potentially suitable for our edge tuning paradigm are discussed. But, three major drawbacks hinder their application in edge tuning: low adaptation capability, large adapter network, and high information transfer overhead. To address these issues, we propose Minimal Interaction Edge Tuning, or MIET, which reveals that the sum of intermediate features from pretrained models not only has minimal information transfer but also has high adaptation capability. With a lightweight attention-based adaptor network, MIET achieves information transfer efficiency, parameter efficiency, computational and memory efficiency, and at the same time demonstrates competitive results on various visual adaptation benchmarks. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# LongIns: LLMのための長文インストラクションベースのエクサム
LongIns: A Challenging Long-context Instruction-based Exam for LLMs ( http://arxiv.org/abs/2406.17588v2 ) ライセンス: Link先を確認 | Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang, | (参考訳) 大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
LLMの性能を異なるシナリオで評価するために、様々な評価ベンチマークが登場した。
しかしながら、これらのベンチマークのほとんどは、主にLLMの検索能力を必要とする質問に答えるための重要な情報を特定することに重点を置いているため、これらのベンチマークは、大量の情報からLLMの推論性能を部分的に表すことができる。
一方、LLMは32k、128k、200k、またはそれ以上のコンテキストウィンドウを持つと主張することが多いが、これらのベンチマークはこれらのLLMの実際のサポートされた長さを明らかにしていない。
これらの問題に対処するため,LongInsベンチマークデータセットを提案する。
具体的には,GIST(Global Instruction & Single Task),LIST(Local Instruction & Single Task),LIMT(Local Instruction & Multiple Tasks)の3つの評価設定を紹介した。
本研究はLongInsに基づいて,既存のLCMの総合的な評価を行い,以下の重要な知見を得た。
128kの文脈長を持つ最高性能のGPT-4は、LongInsにおける16kの評価コンテキストウィンドウでは不十分である。
(2)。
既存のLLMのマルチホップ推論能力については、短いコンテキストウィンドウ(4k未満)の下でも重要な努力が必要である。
The long-context capabilities of large language models (LLMs) have been a hot topic in recent years. To evaluate the performance of LLMs in different scenarios, various assessment benchmarks have emerged. However, as most of these benchmarks focus on identifying key information to answer questions, which mainly requires the retrieval ability of LLMs, these benchmarks can partially represent the reasoning performance of LLMs from large amounts of information. Meanwhile, although LLMs often claim to have context windows of 32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual supported length of these LLMs. To address these issues, we propose the LongIns benchmark dataset, a challenging long-context instruction-based exam for LLMs, which is built based on the existing instruction datasets. Specifically, in our LongIns, we introduce three evaluation settings: Global Instruction & Single Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction & Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations on existing LLMs and have the following important findings: (1). The top-performing GPT-4 with 128k context length performs poorly on the evaluation context window of 16k in our LongIns. (2). For the multi-hop reasoning ability of many existing LLMs, significant efforts are still needed under short context windows (less than 4k). | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# ギャップを緩和する:CLIPにおけるクロスモーダルアライメント改善のための調査アプローチ
Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP ( http://arxiv.org/abs/2406.17639v2 ) ライセンス: Link先を確認 | Sedigheh Eslami, Gerard de Melo, | (参考訳) コントラスト言語-画像事前学習(CLIP)は、ゼロショット分類とクロスモーダル視覚言語タスクにおいて顕著に改善されている。
しかし、幾何学的な観点から、CLIP埋め込み空間は明らかなモジュラリティギャップを持つことが判明した。
このギャップは埋め込み空間を過度にスパースし、非連結にし、異なるモジュラリティは超球面の異なる部分領域に密分布する。
本研究では,主に2つの疑問に答えることを目的としている。
1.マルチモーダルエンコーダ間のパラメータ空間の共有はモダリティギャップを減少させるか?
2. モダリティ内分離によるユニモーダル埋め込みの分離によりギャップを緩和できるか?
これらの疑問に答えるためにAlignCLIPを設計し、両方の質問に対する回答が肯定的であることを示す。
広範にわたる実験により,AlignCLIPは組込みのクロスモーダルアライメントにおける顕著な拡張を実現し,モダリティギャップを低減するとともに,ゼロショット画像分類,ゼロショットマルチモーダル検索,ゼロショットセマンティックテキスト類似性などの下流評価における性能を維持した。
Contrastive Language--Image Pre-training (CLIP) has manifested remarkable improvements in zero-shot classification and cross-modal vision-language tasks. Yet, from a geometrical point of view, the CLIP embedding space has been found to have a pronounced modality gap. This gap renders the embedding space overly sparse and disconnected, with different modalities being densely distributed in distinct subregions of the hypersphere. In this work, we aim at answering two main questions: 1. Does sharing the parameter space between the multi-modal encoders reduce the modality gap? 2. Can the gap be mitigated by pushing apart the uni-modal embeddings via intra-modality separation? We design AlignCLIP, in order to answer these questions and show that answers to both questions are positive. Through extensive experiments, we show that AlignCLIP achieves noticeable enhancements in the cross-modal alignment of the embeddings, and thereby, reduces the modality gap, while maintaining the performance across several downstream evaluations, such as zero-shot image classification, zero-shot multi-modal retrieval and zero-shot semantic text similarity. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |
# VarBench: 動的可変摂動によるロバスト言語モデルのベンチマーク
VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation ( http://arxiv.org/abs/2406.17681v2 ) ライセンス: Link先を確認 | Kun Qian, Shunji Wan, Claudia Tang, Youzhi Wang, Xuanming Zhang, Maximillian Chen, Zhou Yu, | (参考訳) 大規模な言語モデルが従来のベンチマークで印象的なスコアを得るにつれ、データ汚染問題として知られる事前トレーニング中にベンチマークデータの漏洩を懸念する研究者が増えている。
公平な評価を確保するため、最近のベンチマークでは、トレーニングセットと検証セットのみをリリースし、テストセットラベルをクローズドソースに保つ。
彼らは、彼の言語モデルを評価して、集中処理のためのモデルの予測を提出し、モデルの結果を彼らのリーダーボードにパブリッシュするために、誰でも要求する。
しかし、このプロセスは非効率であり、効果的なエラー解析を妨げている。
この問題に対処するために,ベンチマークを可変化し,動的に言語モデルを評価することを提案する。
具体的には、各テストケースから変数を抽出し、各変数の値範囲を定義する。
それぞれの評価のために、これらの値から新しい値をサンプリングし、ユニークなテストケースを作成します。
この変数摂動法を,GSM8K,ARC,CommonsenseQA,TruthfulQAの4つのデータセットに適用した。
実験の結果,本手法は言語モデルの真の性能をより正確に評価し,汚染問題を効果的に軽減することを示した。
As large language models achieve impressive scores on traditional benchmarks, an increasing number of researchers are becoming concerned about benchmark data leakage during pre-training, commonly known as the data contamination problem. To ensure fair evaluation, recent benchmarks release only the training and validation sets, keeping the test set labels closed-source. They require anyone wishing to evaluate his language model to submit the model's predictions for centralized processing and then publish the model's result on their leaderboard. However, this submission process is inefficient and prevents effective error analysis. To address this issue, we propose to variabilize benchmarks and evaluate language models dynamically. Specifically, we extract variables from each test case and define a value range for each variable. For each evaluation, we sample new values from these value ranges to create unique test cases, thus ensuring a fresh evaluation each time. We applied this variable perturbation method to four datasets: GSM8K, ARC, CommonsenseQA, and TruthfulQA, which cover mathematical generation and multiple-choice tasks. Our experimental results demonstrate that this approach provides a more accurate assessment of the true capabilities of language models, effectively mitigating the contamination problem. | 翻訳日:2024-06-27 12:30:50 公開日:2024-06-26 |