このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240826となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# AI思考: 人工知能を実践的に再考するためのフレームワーク
AI Thinking: A framework for rethinking artificial intelligence in practice ( http://arxiv.org/abs/2409.12922v1 ) ライセンス: Link先を確認 | Denis Newman-Griffis, | (参考訳) 人工知能は、規律や実践的な文脈にまたがる情報を扱う方法を変えつつある。
現在では、AIの実践的利用について研究、開発、評価にさまざまな分野が関わっているが、これらの分野はAIが何であるか、その使用に関わっているのかについての矛盾した理解をしばしば採用している。
新しい学際的なアプローチは、実際にAIの競合する概念化を橋渡しし、AI利用の未来を形作るのに役立つ。
このフレームワークは、学際的な視点でAIの使用に関する重要な決定と考察をモデル化する。
AIシンキングモデルは、AIを文脈に適用する5つの実践ベースの能力に対処する。情報プロセスにおけるAI使用の動機付け、AIメソッドの定式化、利用可能なツールや技術の評価、適切なデータの選択、AIが使用する社会技術的コンテキストにおけるAIのシチュエーション。
実際にAI思考の応用を説明するための仮説ケーススタディが提供される。
この記事では、AIリテラシーとAI駆動イノベーションに関する進行中の議論とのつながりを含む、AIのより広範な学際的な議論の中で、AIシンキングを位置付ける。
AI思考は、学術分野とAI使用のさまざまなコンテキストの分割を橋渡しし、実際にAIの未来を形作るのに役立つ。
Artificial intelligence is transforming the way we work with information across disciplines and practical contexts. A growing range of disciplines are now involved in studying, developing, and assessing the use of AI in practice, but these disciplines often employ conflicting understandings of what AI is and what is involved in its use. New, interdisciplinary approaches are needed to bridge competing conceptualisations of AI in practice and help shape the future of AI use. I propose a novel conceptual framework called AI Thinking, which models key decisions and considerations involved in AI use across disciplinary perspectives. The AI Thinking model addresses five practice-based competencies involved in applying AI in context: motivating AI use in information processes, formulating AI methods, assessing available tools and technologies, selecting appropriate data, and situating AI in the sociotechnical contexts it is used in. A hypothetical case study is provided to illustrate the application of AI Thinking in practice. This article situates AI Thinking in broader cross-disciplinary discourses of AI, including its connections to ongoing discussions around AI literacy and AI-driven innovation. AI Thinking can help to bridge divides between academic disciplines and diverse contexts of AI use, and to reshape the future of AI in practice. | 翻訳日:2024-11-07 12:48:01 公開日:2024-08-26 |
# LSR-IGRU:長期関係に基づく株価トレンド予測とGRUの改善
LSR-IGRU: Stock Trend Prediction Based on Long Short-Term Relationships and Improved GRU ( http://arxiv.org/abs/2409.08282v1 ) ライセンス: Link先を確認 | Peng Zhu, Yuante Li, Yifan Hu, Qinyuan Liu, Dawei Cheng, Yuqi Liang, | (参考訳) 株価予測は金融分野で難しい問題であり、広く注目を集めている。
近年、ディープラーニングやグラフニューラルネットワークといった技術が急速に発展し、ストック間の相互関係を探究する研究手法が増えている。
しかし,既存手法は主に在庫の短期的動的関係に着目し,時間的情報と関係情報を直接統合するものである。
彼らはしばしば、株式市場の株式間の複雑な非線形力学特性と高次の相互作用関係を見落としている。
そこで本稿では,長期の株式関係と改良されたGRU入力に基づく,LSR-IGRUという株価トレンド予測モデルを提案する。
まず, 株式の長期的関係をつかむために, 二次産業情報を初めて利用し, 短期関係を確立するために, 長期的価格情報を利用する, 株式間の長期的関係行列を構築した。
次に、各ステップにおけるGRUモデルの入力を改善し、時間的情報と長期的関係情報をより効率的に統合し、株価トレンド変化の予測精度を大幅に向上させる。
最後に、中国と米国の株式市場から得られた複数のデータセットに関する広範な実験を通じて、現在最先端のベースラインモデルよりも提案されたLSR-IGRUモデルの優位性を検証した。
また、提案手法を金融機関のアルゴリズム取引システムに適用し、他の基準手法と比較して累積ポートフォリオリターンを著しく向上させる。
ソースはhttps://github.com/ZP1481616577/Baselines\_LSR-IGRUで公開されています。
Stock price prediction is a challenging problem in the field of finance and receives widespread attention. In recent years, with the rapid development of technologies such as deep learning and graph neural networks, more research methods have begun to focus on exploring the interrelationships between stocks. However, existing methods mostly focus on the short-term dynamic relationships of stocks and directly integrating relationship information with temporal information. They often overlook the complex nonlinear dynamic characteristics and potential higher-order interaction relationships among stocks in the stock market. Therefore, we propose a stock price trend prediction model named LSR-IGRU in this paper, which is based on long short-term stock relationships and an improved GRU input. Firstly, we construct a long short-term relationship matrix between stocks, where secondary industry information is employed for the first time to capture long-term relationships of stocks, and overnight price information is utilized to establish short-term relationships. Next, we improve the inputs of the GRU model at each step, enabling the model to more effectively integrate temporal information and long short-term relationship information, thereby significantly improving the accuracy of predicting stock trend changes. Finally, through extensive experiments on multiple datasets from stock markets in China and the United States, we validate the superiority of the proposed LSR-IGRU model over the current state-of-the-art baseline models. We also apply the proposed model to the algorithmic trading system of a financial company, achieving significantly higher cumulative portfolio returns compared to other baseline methods. Our sources are released at https://github.com/ZP1481616577/Baselines\_LSR-IGRU. | 翻訳日:2024-09-22 21:50:24 公開日:2024-08-26 |
# 知識グラフとNotation3を用いたプロセストレースクエリ
Process Trace Querying using Knowledge Graphs and Notation3 ( http://arxiv.org/abs/2409.04452v1 ) ライセンス: Link先を確認 | William Van Woensel, | (参考訳) プロセスマイニングでは、ログ探索というステップによって、イベントトレースの理解が可能になります。
表現豊かなログ探索をサポートするために、イベントログを知識グラフ(KG)に変換して、汎用言語を使ってクエリすることができる。
本稿では,Resource Description Framework (RDF) をデータモデルとして用いたセマンティックKGの作成について,汎用的なNotation3 (N3) ルール言語と組み合わせて検討する。
最先端技術にインスパイアされた典型的なトレースクエリの制約がN3でどのように実装できるかを示す。
ケース中心のイベントログとオブジェクト中心のイベントログをトレースベースのセマンティックKGに変換します。
このソリューションは
(a) クエリが複数の方法で制約をインスタンス化し、属性や関係(アクター、リソースなど)を任意に制約できるため、表現性。
b) 柔軟性,OCEL2イベントログは,KGに基づいて任意の方法でトレースとしてシリアライズ可能であること,
(c)同じ実装パターンを活用することで、ライブラリを拡張することができるため、拡張性。
In process mining, a log exploration step allows making sense of the event traces; e.g., identifying event patterns and illogical traces, and gaining insight into their variability. To support expressive log exploration, the event log can be converted into a Knowledge Graph (KG), which can then be queried using general-purpose languages. We explore the creation of semantic KG using the Resource Description Framework (RDF) as a data model, combined with the general-purpose Notation3 (N3) rule language for querying. We show how typical trace querying constraints, inspired by the state of the art, can be implemented in N3. We convert case- and object-centric event logs into a trace-based semantic KG; OCEL2 logs are hereby "flattened" into traces based on object paths through the KG. This solution offers (a) expressivity, as queries can instantiate constraints in multiple ways and arbitrarily constrain attributes and relations (e.g., actors, resources); (b) flexibility, as OCEL2 event logs can be serialized as traces in arbitrary ways based on the KG; and (c) extensibility, as others can extend our library by leveraging the same implementation patterns. | 翻訳日:2024-09-15 05:31:27 公開日:2024-08-26 |
# 今後の展望:スケジュールに基づくエネルギー予測
Integrating the Expected Future: Schedule Based Energy Forecasting ( http://arxiv.org/abs/2409.05884v1 ) ライセンス: Link先を確認 | Raffael Theiler, Olga Fink, | (参考訳) 電力グリッドオペレーターは正確な信頼性の高いエネルギー予測に依存しており、これらの異常は特に運用中の管理が困難であるため、極端なエラーのケースを最小限に抑えることを目的としている。
ユーザの将来の行動やスケジュールされたイベントに関する既知のデータなどの計画情報を組み込むことは、予測の正確性や特異性を大幅に向上させる可能性がある。
このような将来の行動を統合する試みはあったが、これらの取り組みは情報を処理するために従来の回帰モデルに一貫して依存している。
これらのモデルは、動的で前方に見える文脈入力と履歴データの両方を効果的に組み込む柔軟性と能力に欠けることが多い。
この課題に対処するために、この予測と回帰を組み合わせた課題をシーケンス・ツー・シーケンス・モデリング問題として概念化し、3つの異なるモデルを用いて、我々の文脈的に拡張されたトランスフォーマーモデルがこの課題に優れていることを示す。
提案手法は,スイスの鉄道トラクションネットワークからのスケジュールに基づく文脈情報を活用することにより,全国の鉄道エネルギー消費の予測精度を有意に向上させる。
具体的には、コンテクスト情報を用いたトランスフォーマーモデルの強化により、平均絶対誤差を40.6\%削減する結果となったが、他の最先端の手法では大きな改善は示さなかった。
Power grid operators depend on accurate and reliable energy forecasts, aiming to minimize cases of extreme errors, as these outliers are particularly challenging to manage during operation. Incorporating planning information -- such as known data about users' future behavior or scheduled events -- has the potential to significantly enhance the accuracy and specificity of forecasts. Although there have been attempts to integrate such expected future behavior, these efforts consistently rely on conventional regression models to process this information. These models often lack the flexibility and capability to effectively incorporate both dynamic, forward-looking contextual inputs and historical data. To address this challenge, we conceptualize this combined forecasting and regression challenge as a sequence-to-sequence modeling problem and demonstrate, with three distinct models, that our contextually enhanced transformer models excel in this task. By leveraging schedule-based contextual information from the Swiss railway traction network, our proposed method significantly improved the average forecasting accuracy of nationwide railway energy consumption. Specifically, enhancing the transformer models with contextual information resulted in an average reduction of mean absolute error by 40.6\% , whereas other state-of-the-art methods did not demonstrate any significant improvement. | 翻訳日:2024-09-15 05:31:27 公開日:2024-08-26 |
# 時間領域における炎非線形熱音響応答構築のためのデュアルパスニューラルネットワークモデル
A Dual-Path neural network model to construct the flame nonlinear thermoacoustic response in the time domain ( http://arxiv.org/abs/2409.05885v1 ) ライセンス: Link先を確認 | Jiawei Wu, Teng Wang, Jiaqi Nan, Lijun Yang, Jingxuan Li, | (参考訳) 従来の数値シミュレーション手法では、様々な摂動周波数と振幅に対する火炎の完全な非線形熱音響応答を正確に決定するために、かなりの計算資源を必要とする。
本稿では,限られた数値シミュレーションデータから包括的火炎非線形応答を構築するディープラーニングアルゴリズムを開発した。
そこで本研究では,制約付きデータセットに学習可能な情報の豊富な配列を組み込んだ,周波数スウィーピングデータ型をトレーニングデータセットとして用いることを提案する。
トレーニングデータから炎の非線形応答パターンを学習する際の精度を高めるために、Dual-Pathニューラルネットワークを導入する。
このネットワークは、時間的特徴パスと時間的詳細特徴パスで構成されている。
Dual-Pathネットワークは、速度摂動列の時間的特性に集中的に焦点を合わせ、より正確な火炎応答パターンと一般化能力を高めるように設計されている。
提案手法は, 有意な非線形性条件下であっても, 正確に火炎非線形応答をモデル化でき, 各種試験シナリオにまたがる堅牢な一般化能力を示す。
Traditional numerical simulation methods require substantial computational resources to accurately determine the complete nonlinear thermoacoustic response of flames to various perturbation frequencies and amplitudes. In this paper, we have developed deep learning algorithms that can construct a comprehensive flame nonlinear response from limited numerical simulation data. To achieve this, we propose using a frequency-sweeping data type as the training dataset, which incorporates a rich array of learnable information within a constrained dataset. To enhance the precision in learning flame nonlinear response patterns from the training data, we introduce a Dual-Path neural network. This network consists of a Chronological Feature Path and a Temporal Detail Feature Path. The Dual-Path network is specifically designed to focus intensively on the temporal characteristics of velocity perturbation sequences, yielding more accurate flame response patterns and enhanced generalization capabilities. Validations confirm that our approach can accurately model flame nonlinear responses, even under conditions of significant nonlinearity, and exhibits robust generalization capabilities across various test scenarios. | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-26 |
# 周波数領域畳み込み拡張拡散モデルによるSinogramのスパースビュー表示
FCDM: Sparse-view Sinogram Inpainting with Frequency Domain Convolution Enhanced Diffusion Models ( http://arxiv.org/abs/2409.06714v1 ) ライセンス: Link先を確認 | Jiaze E, Srutarshi Banerjee, Tekin Bicer, Guannan Wang, Bin Ren, | (参考訳) CT (Computed tomography) における放射線線量削減は重要であるが, しばしばスパルス・ビューCT (sparse-view CT) が生じる。
このプロジェクションデータの削減により、高品質なCT画像の正確な再構成が困難になる。
この条件下では、これらの射影の集合であるシングラムは不完全となる。
限られた投影で正確な画像再構成を可能にするため、シングラムの塗布が不可欠となる。
従来のRGB画像でよく機能する既存のモデルは、シングラムの場合、ほとんど失敗する。
さらに、これらのモデルは、通常、シングラムの周波数特性や吸収特性をフル活用せず、大面積のマスクや複雑な実世界の投影をうまく扱えない。
これらの制約に対処するため,周波数畳み込み拡散モデル (FCDM) と呼ばれる新しいモデルを提案する。
周波数領域の畳み込みを用いて、様々な角度から周波数情報を抽出し、これらの角度間の複雑な関係を捉える。
また、物理特性の整合性を維持するために、シングラムのユニークな性質に基づく特定の損失関数を設計し、より大きなマスク領域においてもより効果的に学習できるようにする。
シミュレーションと実データの両方を用いてFCDMを9つの塗り絵モデルで比較し,その内2つはシノグラム用、7つはRGB用である。
その結果,SSIMが0.95以上,PSNRが30以上,SSIMが33%,PSNRが29%であった。
Reducing the radiation dose in computed tomography (CT) is crucial, but it often results in sparse-view CT, where the number of available projections is significantly reduced. This reduction in projection data makes it challenging to accurately reconstruct high-quality CT images. In this condition, a sinogram, which is a collection of these projections, becomes incomplete. Sinogram inpainting then becomes essential because it enables accurate image reconstruction with limited projections. Existing models performing well on conventional RGB images for inpainting mostly fail in the case of sinograms. Further, these models usually do not make full use of unique properties, e.g., frequency features and absorption characteristics in the sinogram, and cannot handle large-area masks and complex real-world projections well. To address these limitations, we propose a novel model called the Frequency Convolution Diffusion Model (FCDM). It employs frequency domain convolutions to extract frequency information from various angles and capture the intricate relationships between these angles, which is essential for high-quality CT reconstruction. We also design a specific loss function based on the unique properties of a sinogram to maintain the consistency in physical properties, which allows the model to learn more effectively even in larger mask areas. We compare FCDM using both simulations and real data with nine inpainting models examples, among which two are designed for sinogram and seven for RGB. The results indicate that our model significantly improves the quality of the inpainted sinograms in terms of both visually and quantitatively, with an SSIM of more than 0.95 and PSNR of more than 30, achieving up to a 33% improvement in SSIM and a 29% improvement in PSNR compared to the baseline. | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-26 |
# セルフリー大量MIMOのためのスケーラブル多変量フロントホール量子化
Scalable Multivariate Fronthaul Quantization for Cell-Free Massive MIMO ( http://arxiv.org/abs/2409.06715v1 ) ライセンス: Link先を確認 | Sangwoo Park, Ahmet Hasim Gokceoglu, Li Wang, Osvaldo Simeone, | (参考訳) セルフリー大規模MIMOシステムにおけるフロントホール設計への従来のアプローチは、CPパラダイムに従っている。
これにより、符号化ビットとプリコーディング係数は、フロントホールリンク上の分散ユニット(DU)で共有され、無線ユニット(RU)でプリコーディングが行われる。
従来の理論的研究により、CPはプリコード・アンド・コンプレックス(PC)法によって大きなマージンで改善できることが示され、この手法では全てのベースバンド処理がDUで実行され、フロントホールリンク上で伝送するためのプリコードされた信号が圧縮される。
PC手法の理論的性能向上は、DUがマルチ変数量子化(MQ)を実装した時に特に顕著である。
しかし、MQ の既存のソリューションの特徴は、DU からすべての RU への合計フロントホール容量とともに指数関数的に増大する計算複雑性である。
この研究は、PCベースのセルフリーMIMOシステムのためのスケーラブルなMQ戦略を設計することを目的としている。
低照準能力体制では,アルファパラレルMQ (アルファ-PMQ) が提案され,その複雑さは各RUに対してのみ指数関数的に増大し,かつ完全なMQに近い性能を示す。
α-PMQは、相互にあまり干渉しないRUの並列ローカル量子化ステップを可能にすることで、ネットワークのトポロジにMQを調整します。
ハイフロントホールキャパシティ・レシスタンスのために、我々は、MQの網羅的なサーチを、ニューラルネットワークベースのデコーダの勾配ベースの更新に置き換えるニューラルMQを導入し、サマリフロントホールキャパシティとともに線形に増大する複雑性を実現する。
数値的な結果から,提案したスケーラブルなMQ戦略は,DUにおける計算複雑性の増大を犠牲にして,低域と高域の両方でCPを上回っている(RUではそうではない)。
The conventional approach to the fronthaul design for cell-free massive MIMO system follows the compress-and-precode (CP) paradigm. Accordingly, encoded bits and precoding coefficients are shared by the distributed unit (DU) on the fronthaul links, and precoding takes place at the radio units (RUs). Previous theoretical work has shown that CP can be potentially improved by a significant margin by precode-and-compress (PC) methods, in which all baseband processing is carried out at the DU, which compresses the precoded signals for transmission on the fronthaul links. The theoretical performance gain of PC methods are particularly pronounced when the DU implements multivariate quantization (MQ), applying joint quantization across the signals for all the RUs. However, existing solutions for MQ are characterized by a computational complexity that grows exponentially with the sum-fronthaul capacity from the DU to all RUs. This work sets out to design scalable MQ strategies for PC-based cell-free massive MIMO systems. For the low-fronthaul capacity regime, we present alpha-parallel MQ (alpha-PMQ), whose complexity is exponential only in the fronthaul capacity towards an individual RU, while performing close to full MQ. alpha-PMQ tailors MQ to the topology of the network by allowing for parallel local quantization steps for RUs that do not interfere too much with each other. For the high-fronthaul capacity regime, we then introduce neural MQ, which replaces the exhaustive search in MQ with gradient-based updates for a neural-network-based decoder, attaining a complexity that grows linearly with the sum-fronthaul capacity. Numerical results demonstrate that the proposed scalable MQ strategies outperform CP for both the low and high-fronthaul capacity regimes at the cost of increased computational complexity at the DU (but not at the RUs). | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-26 |
# 高等教育用チャットボットの開発 - 洞察と経験から
Tailoring Chatbots for Higher Education: Some Insights and Experiences ( http://arxiv.org/abs/2409.06717v1 ) ライセンス: Link先を確認 | Gerd Kortemeyer, | (参考訳) 強力な大規模言語モデルの一般提供は高等教育に強力な影響を与えたが、一般的なモデルは関連する専門的なタスクに必ずしも役に立たない。
これらのモデルを使用すると、しばしば特定のドメイン知識の必要性がすぐに明らかになり、カスタマイズされたボットへの欲求が生まれます。
カスタマイズは、より正確で文脈的に関係のある応答を導き、教育経験を高めるという約束を守ります。
この短い技術経験報告の目的は、高等教育機関の実践的な用語で「緩やかな」大規模言語モデルが何を意味するかを説明することである。
本報告ではスイスの特定の技術大学であるチューリッヒ工科大学(ETH Zurich)の知見と経験について述べる。
The general availability of powerful Large Language Models had a powerful impact on higher education, yet general models may not always be useful for the associated specialized tasks. When using these models, oftentimes the need for particular domain knowledge becomes quickly apparent, and the desire for customized bots arises. Customization holds the promise of leading to more accurate and contextually relevant responses, enhancing the educational experience. The purpose of this short technical experience report is to describe what "customizing" Large Language Models means in practical terms for higher education institutions. This report thus relates insights and experiences from one particular technical university in Switzerland, ETH Zurich. | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-26 |
# スマートモビリティにおける空調状態同定のための複雑時系列の教師なし表現学習
Unsupervised Representation Learning of Complex Time Series for Maneuverability State Identification in Smart Mobility ( http://arxiv.org/abs/2409.06718v1 ) ライセンス: Link先を確認 | Thabang Lebese, | (参考訳) 多変量時系列(MTS)データは時間的挙動を捉え、様々な物理力学現象に関する貴重な洞察を与える。
スマートモビリティにおいて、MSSは、操作パターンのような行動の時間的ダイナミクスを提供することにおいて重要な役割を担い、異常な動作を早期に検出し、予後および健康管理(PHM)における活動促進を促進する。
本研究では,センサを用いた車両から収集したMSSデータのモデル化に関わる課題に対処することを目的とする。
我々の目標は、スマートモビリティにおける操作状態の特定における2つの異なる教師なし表現学習手法の有効性を検討することである。
具体的には、2.5年間の運転から抽出された二変量加速に注目し、データセットは非定常的で、長く、騒々しく、完全にラベル付けされていないため、手動ラベリングは非現実的である。
TNC4Maneuvering(TNC4Maneuvering)とDecoupled Local and Global Representation Learninger for Maneuvering(DLG4Maneuvering)である。
これらのフレームワークの主な利点は、転送可能な洞察をデータから表現の形に取り込み、時系列分類、クラスタリング、複数線形回帰といった複数のタスクに効果的に適用できることである。
スマートモビリティにおける操作状態の特定において、どのアプローチがより効果的かを理解するために、その効果を可能な限り比較する。
Multivariate Time Series (MTS) data capture temporal behaviors to provide invaluable insights into various physical dynamic phenomena. In smart mobility, MTS plays a crucial role in providing temporal dynamics of behaviors such as maneuver patterns, enabling early detection of anomalous behaviors while facilitating pro-activity in Prognostics and Health Management (PHM). In this work, we aim to address challenges associated with modeling MTS data collected from a vehicle using sensors. Our goal is to investigate the effectiveness of two distinct unsupervised representation learning approaches in identifying maneuvering states in smart mobility. Specifically, we focus on some bivariate accelerations extracted from 2.5 years of driving, where the dataset is non-stationary, long, noisy, and completely unlabeled, making manual labeling impractical. The approaches of interest are Temporal Neighborhood Coding for Maneuvering (TNC4Maneuvering) and Decoupled Local and Global Representation learner for Maneuvering (DLG4Maneuvering). The main advantage of these frameworks is that they capture transferable insights in a form of representations from the data that can be effectively applied in multiple subsequent tasks, such as time-series classification, clustering, and multi-linear regression, which are the quantitative measures and qualitative measures, including visualization of representations themselves and resulting reconstructed MTS, respectively. We compare their effectiveness, where possible, in order to gain insights into which approach is more effective in identifying maneuvering states in smart mobility. | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-26 |
# 二重対向摂動器が推薦のためのリッチビューを生成する
Dual Adversarial Perturbators Generate rich Views for Recommendation ( http://arxiv.org/abs/2409.06719v1 ) ライセンス: Link先を確認 | Lijun Zhang, Yuan Yao, Haibo Ye, | (参考訳) グラフコントラスト学習(GCL)は、リコメンダシステムにおいて強力なツールとして広く研究され、活用されている。
既存のGCLベースのレコメンダは、グラフ構造を変更したり、埋め込みに摂動を導入することで、コントラスト的なビューを生成する。
これらの手法はスパースデータからの学習を効果的に促進するが、コントラストビューの違いが強調しすぎると性能劣化やトレーニング崩壊のリスクを負う。
この問題を緩和するため、我々はカリキュラム学習を採用し、対照的な視点の格差を漸進的に増加させ、より困難なシナリオからモデルを得られるようにする。
本稿では, グラフ構造への対角学習を段階的に適用し, 摂動を埋め込むことにより, カリキュラム学習をエミュレートする2元逆グラフ学習手法AvoGCLを提案する。
具体的には、AvoGCLはグラフ冗長性を低減し、埋め込み空間における対角摂動を発生させることでコントラストビューを構築し、コントラストビューの難易度を徐々に高め、より良い結果を得る。
3つの実世界のデータセットに対する大規模な実験は、AvoGCLが最先端の競合より大幅に優れていることを示している。
Graph contrastive learning (GCL) has been extensively studied and leveraged as a potent tool in recommender systems. Most existing GCL-based recommenders generate contrastive views by altering the graph structure or introducing perturbations to embedding. While these methods effectively enhance learning from sparse data, they risk performance degradation or even training collapse when the differences between contrastive views become too pronounced. To mitigate this issue, we employ curriculum learning to incrementally increase the disparity between contrastive views, enabling the model to gain from more challenging scenarios. In this paper, we propose a dual-adversarial graph learning approach, AvoGCL, which emulates curriculum learning by progressively applying adversarial training to graph structures and embedding perturbations. Specifically, AvoGCL construct contrastive views by reducing graph redundancy and generating adversarial perturbations in the embedding space, and achieve better results by gradually increasing the difficulty of contrastive views. Extensive experiments on three real-world datasets demonstrate that AvoGCL significantly outperforms the state-of-the-art competitors. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-26 |
# 文化遺産・観光における没入型技術の戦略的導入に応用した進化型ゲームダイナミクス
Evolutionary Game Dynamics Applied to Strategic Adoption of Immersive Technologies in Cultural Heritage and Tourism ( http://arxiv.org/abs/2409.06720v1 ) ライセンス: Link先を確認 | Gioacchino Fazio, Stefano Fricano, Claudio Pirrone, | (参考訳) Metaverse、AR、VRといった没入型テクノロジーは、多くのアクターが、統合に関心のある採用や潜在的な分野について検討している。
文化産業や観光産業は特に影響を受けており、将来の景観を形作るための決定を迫られている。
ステークホルダーの認識はこのプロセスにおいて重要な役割を担い、技術採用のスピードと範囲に影響を与える。
没入型技術が体験に革命をもたらすと約束するにつれて、これらの分野のステークホルダーは、そのようなイノベーションを受け入れるメリットと課題を熟考する。
現在の選択は、文化の保存と観光の強化の軌跡を決定づける可能性があり、歴史、芸術、旅行の関わり方を変える可能性がある。
Q-methodologyを用いて利害関係者の認識を主成分に分解することから始まり、本論文では、可能なシナリオをマッピングし、潜在的な意思決定軌跡を強調するために進化型ゲームモデルを用いている。
提案したアプローチは、進化力学が様々な利害関係者の複雑な共存システムから生じる支配的な長期的な戦略を特定するのにどのように寄与するかを強調している。
Immersive technologies such as Metaverse, AR, and VR are at a crossroads, with many actors pondering their adoption and potential sectors interested in integration. The cultural and tourism industries are particularly impacted, facing significant pressure to make decisions that could shape their future landscapes. Stakeholders' perceptions play a crucial role in this process, influencing the speed and extent of technology adoption. As immersive technologies promise to revolutionize experiences, stakeholders in these fields weigh the benefits and challenges of embracing such innovations. The current choices will likely determine the trajectory of cultural preservation and tourism enhancement, potentially transforming how we engage with history, art, and travel. Starting from a decomposition of stakeholders' perceptions into principal components using Q-methodology, this article employs an evolutionary game model to attempt to map possible scenarios and highlight potential decision-making trajectories. The proposed approach highlights how evolutionary dynamics lead to identifying a dominant long-term strategy that emerges from the complex system of coexistence among various stakeholders. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-26 |
# 学習者の役割・機会・課題 : 中学校数学授業を事例として
Students' Perceived Roles, Opportunities, and Challenges of a Generative AI-powered Teachable Agent: A Case of Middle School Math Class ( http://arxiv.org/abs/2409.06721v1 ) ライセンス: Link先を確認 | Yukyeong Song, Jinhee Kim, Zifeng Liu, Chenglu Li, Wanli Xing, | (参考訳) ジェネレーティブAI(GenAI)の進歩は、教育可能なエージェント(TA)という形で、長年の学習と学習の実践を適用する可能性を高めている。
TAの役割や機会が認められているにもかかわらず、どのようにGenAIがシナジーを創り出し、TAに挑戦し、どのようにして学生がGenAIをTAに適用したかは分かっていない。
本研究は,中学生を対象に,真正数学教室におけるGenAIを利用したTAの役割,メリット,課題について検討した。
授業観察,フォーカスグループインタビュー,6年生108名を対象にしたオープンエンド調査の結果,学習支援者,ファシリテータ,協力的問題解決者として,GenAIを活用したTAが期待できることがわかった。
また、学生はGenAI搭載TAの利点と課題も表明した。
本研究は,教育用AIの設計とAI支援教育の意義について述べる。
Ongoing advancements in Generative AI (GenAI) have boosted the potential of applying long-standing learning-by-teaching practices in the form of a teachable agent (TA). Despite the recognized roles and opportunities of TAs, less is known about how GenAI could create synergy or introduce challenges in TAs and how students perceived the application of GenAI in TAs. This study explored middle school students perceived roles, benefits, and challenges of GenAI-powered TAs in an authentic mathematics classroom. Through classroom observation, focus-group interviews, and open-ended surveys of 108 sixth-grade students, we found that students expected the GenAI-powered TA to serve as a learning companion, facilitator, and collaborative problem-solver. Students also expressed the benefits and challenges of GenAI-powered TAs. This study provides implications for the design of educational AI and AI-assisted instruction. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-26 |
# 損傷骨格筋の顕微鏡像における白血球の自動定量
Automated Quantification of White Blood Cells in Light Microscopic Images of Injured Skeletal Muscle ( http://arxiv.org/abs/2409.06722v1 ) ライセンス: Link先を確認 | Yang Jiao, Hananeh Derakhshan, Barbara St. Pierre Schneider, Emma Regentova, Mei Yang, | (参考訳) 白血球 (WBC) は、損傷した骨格筋の治癒過程において最も多様な細胞タイプである。
治癒過程において、WBCは動的細胞応答を示し、複数のタンパク質の発現変化を経験する。
損傷後の異なる時刻で得られた光顕微鏡画像において、WBCの数や特定のタンパク質の量を定量化することにより、治癒の進行を分析することができる。
本稿では,損傷筋と損傷筋の顕微鏡画像を用いたWBCの自動定量分析フレームワークを提案する。
提案手法は, 筋端検出と関心抽出領域を用いた局所的反復的大津しきい値法に基づく。
ImageJのしきい値法と比較すると,LI Otsuのしきい値法は背景領域に対して高い抵抗を有し,精度が向上する。
本研究の有効性を示すため,CD68陽性細胞実験を行った。
White blood cells (WBCs) are the most diverse cell types observed in the healing process of injured skeletal muscles. In the course of healing, WBCs exhibit dynamic cellular response and undergo multiple protein expression changes. The progress of healing can be analyzed by quantifying the number of WBCs or the amount of specific proteins in light microscopic images obtained at different time points after injury. In this paper, we propose an automated quantifying and analysis framework to analyze WBCs using light microscopic images of uninjured and injured muscles. The proposed framework is based on the Localized Iterative Otsu's threshold method with muscle edge detection and region of interest extraction. Compared with the threshold methods used in ImageJ, the LI Otsu's threshold method has high resistance to background area and achieves better accuracy. The CD68-positive cell results are presented for demonstrating the effectiveness of the proposed work. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-26 |
# 小学生と教師の認識 : 創造的AIによる創造的な数学的記述に向けて
Elementary School Students' and Teachers' Perceptions Towards Creative Mathematical Writing with Generative AI ( http://arxiv.org/abs/2409.06723v1 ) ライセンス: Link先を確認 | Yukyeong Song, Jinhee Kim, Wanli Xing, Zifeng Liu, Chenglu Li, Hyunju Oh, | (参考訳) 数学的創造的な文章は、想像的な方法で数学的アイデアを表現するために学生が関与する可能性があるが、小学生の中にはこの過程に苦慮する者もいる。
Generative AI(GenAI)は、ストーリー生成など、クリエイティブな執筆活動を支援する可能性を提供する。
しかし、GenAIを活用した学習技術の設計には、実際の教室における技術受容を慎重に検討する必要がある。
本研究は、創造的な数学的記述に対する学生や教師の認識を、先進的なGenAI技術を用いて探求するものである。
本研究は,小学生79名を対象に,質問紙の質的テーマ分析を行い,調査回答と教室観察を行った結果,6テーマと19サブテーマが得られた。
本研究は,GenAIが支援する学習の生きた経験と,GenAIを活用した学習技術と指導の設計的考察に寄与する。
While mathematical creative writing can potentially engage students in expressing mathematical ideas in an imaginative way, some elementary school-age students struggle in this process. Generative AI (GenAI) offers possibilities for supporting creative writing activities, such as providing story generation. However, the design of GenAI-powered learning technologies requires careful consideration of the technology reception in the actual classrooms. This study explores students' and teachers' perceptions of creative mathematical writing with the developed GenAI-powered technology. The study adopted a qualitative thematic analysis of the interviews, triangulated with open-ended survey responses and classroom observation of 79 elementary school students, resulting in six themes and 19 subthemes. This study contributes by investigating the lived experience of GenAI-supported learning and the design considerations for GenAI-powered learning technologies and instructions. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-26 |
# MLP, XGBoost, Kan, TDNN, LSTM-GRU Hybrid RNN : SPXおよびNDX European Calltion Pricingへの留意
MLP, XGBoost, KAN, TDNN, and LSTM-GRU Hybrid RNN with Attention for SPX and NDX European Call Option Pricing ( http://arxiv.org/abs/2409.06724v1 ) ライセンス: Link先を確認 | Boris Ter-Avanesov, Homayoon Beigi, | (参考訳) マルチ層パーセプトロン(MLP)、コルモゴロフ・アルノルドネットワーク(KAN)、LSTM-GRUハイブリッド再帰ニューラルネットワーク(RNN)モデル、ヨーロッパでのコールオプションの価格設定のための時間遅延ニューラルネットワーク(TDNN)など、さまざまなニューラルネットワークアーキテクチャの性能について検討する。
本研究では,ANN,KANSA,勾配型決定木などの教師付き学習手法を用いて,過去の市場データに基づいてオプション価格を調整するために,複雑な多変量関数を近似する手法を提案する。
ANNとkansを使う動機は、それぞれUniversal Approximation TheoremとKolmogorov-Arnold Representation Theoremである。
具体的には、2015~2023年に取引されたS\&P 500(SPX)とNASDAQ 100(NDX)インデックスオプションを15日から4年以上にわたって使用しています(OptionMetrics IvyDB USデータセット)。
Black \&Scholes's (BS) PDE \cite{Black1973} モデルでは、実際のデータと同等の価格設定がベンチマークとして使用される。
このモデルは強い仮定に依存しており、実際のデータは予測と一致しないという文献で観察され議論されている。
このモデルのいくつかの制限により、オプション価格を調整するための代替手段として、教師付き学習法が広く用いられている。
我々の実験では、BSモデルは他のすべてのモデルと比較して性能が劣る。
また、最良のTDNNモデルは、すべてのエラーメトリクスで最高のMLPモデルよりも優れています。
我々は、RNNモデルを強化し、その性能を大幅に向上させる、シンプルな自己認識機構を実装した。
全体として最高の性能モデルはLSTM-GRUハイブリッドRNNモデルである。
また、kanモデルはTDNNおよびMLPモデルよりも優れている。
我々は,すべてのモデルの性能を,ティッカー,金銭性カテゴリ,過/過/過/誤価格の比率で分析する。
We explore the performance of various artificial neural network architectures, including a multilayer perceptron (MLP), Kolmogorov-Arnold network (KAN), LSTM-GRU hybrid recursive neural network (RNN) models, and a time-delay neural network (TDNN) for pricing European call options. In this study, we attempt to leverage the ability of supervised learning methods, such as ANNs, KANs, and gradient-boosted decision trees, to approximate complex multivariate functions in order to calibrate option prices based on past market data. The motivation for using ANNs and KANs is the Universal Approximation Theorem and Kolmogorov-Arnold Representation Theorem, respectively. Specifically, we use S\&P 500 (SPX) and NASDAQ 100 (NDX) index options traded during 2015-2023 with times to maturity ranging from 15 days to over 4 years (OptionMetrics IvyDB US dataset). Black \& Scholes's (BS) PDE \cite{Black1973} model's performance in pricing the same options compared to real data is used as a benchmark. This model relies on strong assumptions, and it has been observed and discussed in the literature that real data does not match its predictions. Supervised learning methods are widely used as an alternative for calibrating option prices due to some of the limitations of this model. In our experiments, the BS model underperforms compared to all of the others. Also, the best TDNN model outperforms the best MLP model on all error metrics. We implement a simple self-attention mechanism to enhance the RNN models, significantly improving their performance. The best-performing model overall is the LSTM-GRU hybrid RNN model with attention. Also, the KAN model outperforms the TDNN and MLP models. We analyze the performance of all models by ticker, moneyness category, and over/under/correctly-priced percentage. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-26 |
# DefectTwin: LLMが鉄道欠陥検査のデジタルツインに出会ったとき
DefectTwin: When LLM Meets Digital Twin for Railway Defect Inspection ( http://arxiv.org/abs/2409.06725v1 ) ライセンス: Link先を確認 | Rahatara Ferdousi, M. Anwar Hossain, Chunsheng Yang, Abdulmotaleb El Saddik, | (参考訳) Digital Twin(DT)は、オブジェクト、プロセス、あるいはシステムがリアルタイム監視、シミュレーション、予測保守のために複製される。
大規模言語モデル(LLM)のような最近の進歩は、従来のAIシステムに革命をもたらし、鉄道欠陥検査などの産業応用においてDTと組み合わせることで、大きな可能性を秘めている。
従来、この検査はパターンを特定するために広範な欠陥サンプルを必要とするが、限られたサンプルは過度に適合し、目に見えない欠陥に対してパフォーマンスが低下する可能性がある。
事前トレーニングされたLLMをDTに統合することは、膨大なサンプルデータの必要性を減らすことで、この課題に対処する。
本稿では,マルチモーダル・マルチモデル (M^2) LLMベースのAIパイプラインを用いたDefectTwinについて紹介する。
この応用により、鉄道事業者は、家電(例えばタブレット)を用いて専門家レベルの欠陥解析を行うことができる。
マルチモーダルプロセッサは、応答が消費可能なフォーマットであることを保証する一方、インスタントユーザフィードバック機構(instaUF)はQuality-of-Experience(QoE)を強化する。
提案したM^2 LLMは既存のモデルよりも優れており、テキスト、画像、事前訓練された欠陥のビデオを含むマルチモーダル入力に対して高い精度 (0.76-0.93) を実現し、目に見えない欠陥に対して優れたゼロショット一般化性を示す。
また,DefectTwinがコンシューマデバイス上で生成した応答のレイテンシ,トークン数,有用性も評価した。
我々の知る限り、DefectTwinは、鉄道欠陥検査用に設計された最初のLCM統合DTである。
A Digital Twin (DT) replicates objects, processes, or systems for real-time monitoring, simulation, and predictive maintenance. Recent advancements like Large Language Models (LLMs) have revolutionized traditional AI systems and offer immense potential when combined with DT in industrial applications such as railway defect inspection. Traditionally, this inspection requires extensive defect samples to identify patterns, but limited samples can lead to overfitting and poor performance on unseen defects. Integrating pre-trained LLMs into DT addresses this challenge by reducing the need for vast sample data. We introduce DefectTwin, which employs a multimodal and multi-model (M^2) LLM-based AI pipeline to analyze both seen and unseen visual defects in railways. This application enables a railway agent to perform expert-level defect analysis using consumer electronics (e.g., tablets). A multimodal processor ensures responses are in a consumable format, while an instant user feedback mechanism (instaUF) enhances Quality-of-Experience (QoE). The proposed M^2 LLM outperforms existing models, achieving high precision (0.76-0.93) across multimodal inputs including text, images, and videos of pre-trained defects, and demonstrates superior zero-shot generalizability for unseen defects. We also evaluate the latency, token count, and usefulness of responses generated by DefectTwin on consumer devices. To our knowledge, DefectTwin is the first LLM-integrated DT designed for railway defect inspection. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-26 |
# ダイヤモンドナノ結晶からの室温自然発振 [Nat. Commun. 8, 1205 (2017)]
Comment on Room-temperature spontaneous superradiance from single diamond nanocrystals [Nat. Commun. 8, 1205 (2017)] ( http://arxiv.org/abs/2409.07461v1 ) ライセンス: Link先を確認 | Jakub J. Borkowski, Artur Czerwinski, Piotr Kolenderski, | (参考訳) C. Bradacらによる論文[Nat. Commun. 8, 1205 (2017)]では、ダイヤモンド中のNV色中心からの室温超放射について論じている。
この現象の実験的特徴を反映した新しいモデルを提案する。
本モデルの有効性を検証するために,提案手法から導出した数値計算と比較した実験結果を提案する。
同様のNV試料の蛍光による独自の実験により,実験系を正確に記述する理論モデルの構築を試みた。
当初、Bradacらによる論文の補題の数値方程式を、我々の理論的な枠組みに組み込むことを目指していた。
しかし, 負光子数や非ゼロ漸近蛍光強度などの非物理的結果をもたらす多くの問題に遭遇した。
これらの矛盾を特定し、修正する修正案を提出した。
我々は、マスター方程式の項を正しく解釈することで、独自の枠組みを開発した。
結果として得られる公式は、実験データと整合した物理的に意味のある結果をもたらす。
The paper by C. Bradac et al. [Nat. Commun. 8, 1205 (2017)] discusses room-temperature superradiance from NV color centers in diamonds. It presents a new model intended to reflect experimental characteristics of this phenomenon. To validate the model, the authors provide experimental results that are subsequently compared with numerical calculations derived from the scheme. Motivated by our own experiments with the fluorescence of similar NV samples, we attempted to create a theoretical model to accurately describe experimental systems. Initially, we aimed to incorporate the numerical equations from Bradac et al.'s paper's supplement into our own theoretical framework. However, we encountered numerous issues resulting in non-physical results such as negative photon counts or non-zero asymptotic fluorescence intensity. We identified these inconsistencies and proposed amendments to rectify them. We have developed our own framework by correctly reinterpreting the terms of the master equation. The resulting formulas produce physically meaningful results consistent with experimental data. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-26 |
# 高周波エネルギーハーベスティングによるバッテリフリーワイヤレスセンシングに向けて
Towards Battery-Free Wireless Sensing via Radio-Frequency Energy Harvesting ( http://arxiv.org/abs/2409.00086v1 ) ライセンス: Link先を確認 | Tao Ni, Zehua Sun, Mingda Han, Guohao Lan, Yaxiong Xie, Zhenjiang Li, Tao Gu, Weitao Xu, | (参考訳) 日々の行動認識からバイタルサインモニタリングまで、様々なWi-Fiベースの無線アプリケーションが提案されている。
その顕著な精度にもかかわらず、高エネルギー消費とカスタマイズされたハードウェア修正の要求は、既存のセンシングソリューションの広範な展開を妨げる。
本稿では,無線周波数(RF)エネルギー収穫に基づくエネルギー効率の高いワイヤレスセンシングソリューションであるREHSenseを提案する。
パワーハングリーなWi-Fi受信機に頼る代わりに、REHSenseはRFエネルギーをセンサとして利用し、周囲のWi-Fi信号から取得した電圧信号を利用して、同時コンテキストセンシングとエネルギー収穫を可能にする。
我々は商用オフ・ザ・シェルフ(COTS)RFエネルギ収穫機を用いてREHSenseを設計・実装する。
3つの微細なワイヤレスセンシングタスク(呼吸監視、人的活動、手ジェスチャー認識)の広範囲な評価は、REHSenseが従来のWi-Fiベースのソリューションと同等の精度を達成でき、異なるセンシング環境に適応し、消費電力を98.7%削減し、RFエネルギーから4.5mWの電力を回収できることを示している。
Diverse Wi-Fi-based wireless applications have been proposed, ranging from daily activity recognition to vital sign monitoring. Despite their remarkable sensing accuracy, the high energy consumption and the requirement for customized hardware modification hinder the wide deployment of the existing sensing solutions. In this paper, we propose REHSense, an energy-efficient wireless sensing solution based on Radio-Frequency (RF) energy harvesting. Instead of relying on a power-hungry Wi-Fi receiver, REHSense leverages an RF energy harvester as the sensor and utilizes the voltage signals harvested from the ambient Wi-Fi signals to enable simultaneous context sensing and energy harvesting. We design and implement REHSense using a commercial-off-the-shelf (COTS) RF energy harvester. Extensive evaluation of three fine-grained wireless sensing tasks (i.e., respiration monitoring, human activity, and hand gesture recognition) shows that REHSense can achieve comparable sensing accuracy with conventional Wi-Fi-based solutions while adapting to different sensing environments, reducing the power consumption by 98.7% and harvesting up to 4.5mW of power from RF energy. | 翻訳日:2024-09-08 15:21:17 公開日:2024-08-26 |
# 圧縮センシングを用いたエッジコンピューティング可能なメタバースの軽量ヒューマンポース推定手法
A Lightweight Human Pose Estimation Approach for Edge Computing-Enabled Metaverse with Compressive Sensing ( http://arxiv.org/abs/2409.00087v1 ) ライセンス: Link先を確認 | Nguyen Quang Hieu, Dinh Thai Hoang, Diep N. Nguyen, | (参考訳) 5G/6Gネットワークのようなエッジコンピューティング対応ネットワーク上のユーザの3D動作を推定する能力は、拡張現実(XR)とメタバースアプリケーションの新しい時代の重要な有効性である。
近年の深層学習の進歩は,センサ信号,すなわち慣性計測ユニット(IMU)を付加したセンサ信号から3次元人間のポーズを推定する手法よりも優れている。
しかし、既存の研究は無線システムへの適用性に欠けており、ノイズの多い無線ネットワーク上でIMU信号を送信することは重大な課題となっている。
さらに、IMU信号の潜在的な冗長性は考慮されておらず、非常に冗長な伝送をもたらす。
本研究では,ノイズの多い無線環境上でのIMU信号の冗長性除去と軽量伝送のための新しい手法を提案する。
提案手法では, ランダムなガウス行列を用いて, 元の信号を低次元空間に変換する。
圧縮センシング理論を応用して,設計したガウス行列が信号の低次元空間への投射と,電力伝達制約下でのセット制限固有値条件の維持を証明した。
さらに、ノイズの多い圧縮データから元のIMU信号を復元するために、受信側で深い生成モデルを構築し、XRおよびMetaverse用受信側で3次元人体の動きを生成できるようにする。
実世界のIMUデータセットのシミュレーション結果から,我々のフレームワークは,元の信号から得られる計測値のわずか8.2セントで,ユーザの高精度な3次元ポーズを達成できることが分かる。
これは最適化に基づくアプローチ、すなわちラッソに匹敵するが、桁違いに高速である。
The ability to estimate 3D movements of users over edge computing-enabled networks, such as 5G/6G networks, is a key enabler for the new era of extended reality (XR) and Metaverse applications. Recent advancements in deep learning have shown advantages over optimization techniques for estimating 3D human poses given spare measurements from sensor signals, i.e., inertial measurement unit (IMU) sensors attached to the XR devices. However, the existing works lack applicability to wireless systems, where transmitting the IMU signals over noisy wireless networks poses significant challenges. Furthermore, the potential redundancy of the IMU signals has not been considered, resulting in highly redundant transmissions. In this work, we propose a novel approach for redundancy removal and lightweight transmission of IMU signals over noisy wireless environments. Our approach utilizes a random Gaussian matrix to transform the original signal into a lower-dimensional space. By leveraging the compressive sensing theory, we have proved that the designed Gaussian matrix can project the signal into a lower-dimensional space and preserve the Set-Restricted Eigenvalue condition, subject to a power transmission constraint. Furthermore, we develop a deep generative model at the receiver to recover the original IMU signals from noisy compressed data, thus enabling the creation of 3D human body movements at the receiver for XR and Metaverse applications. Simulation results on a real-world IMU dataset show that our framework can achieve highly accurate 3D human poses of the user using only $82\%$ of the measurements from the original signals. This is comparable to an optimization-based approach, i.e., Lasso, but is an order of magnitude faster. | 翻訳日:2024-09-08 15:21:17 公開日:2024-08-26 |
# オンデバイス言語モデル: 総合的なレビュー
On-Device Language Models: A Comprehensive Review ( http://arxiv.org/abs/2409.00088v1 ) ライセンス: Link先を確認 | Jiajun Xu, Zhiyuan Li, Wei Chen, Qun Wang, Xin Gao, Qi Cai, Ziyuan Ling, | (参考訳) 大規模言語モデル(LLM)の出現は自然言語処理アプリケーションに革命をもたらし、レイテンシの低減、データローカライゼーション、パーソナライズされたユーザエクスペリエンスといった理由から、エッジデバイス上でのLLMの実行がますます魅力的になっている。
本稿では,資源制約のあるデバイスに計算コストの高いLLMをデプロイする上での課題を概観し,複数の領域にわたる革新的なソリューションを探究する。
本稿では,オンデバイス言語モデルの開発,パラメータ共有やモジュール設計などの効率的なアーキテクチャ,量子化やプルーニング,知識蒸留といった最先端の圧縮技術について検討する。
ハードウェアアクセラレーション戦略とコラボレーティブなエッジクラウドデプロイメントアプローチが分析され、パフォーマンスとリソース利用の複雑なバランスが強調される。
主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
また、適応学習、マルチモーダル能力、パーソナライゼーションといった重要な側面についても論じている。
そこで本研究では,ユビキタスでインテリジェントなコンピューティングの潜在能力を実現するための学際的努力の必要性を強調し,責任と倫理的展開の確保を図っている。
デバイス上での大規模言語モデル(LLMs)の研究成果と教育リソースの総合的なレビューについては、https://github.com/NexaAI/Awesome-LLMs-on-deviceを参照してください。
デバイス上でLLMをダウンロードして実行するには、https://www.nexaai.com/models.comを参照してください。
The advent of large language models (LLMs) revolutionized natural language processing applications, and running LLMs on edge devices has become increasingly attractive for reasons including reduced latency, data localization, and personalized user experiences. This comprehensive review examines the challenges of deploying computationally expensive LLMs on resource-constrained devices and explores innovative solutions across multiple domains. The paper investigates the development of on-device language models, their efficient architectures, including parameter sharing and modular designs, as well as state-of-the-art compression techniques like quantization, pruning, and knowledge distillation. Hardware acceleration strategies and collaborative edge-cloud deployment approaches are analyzed, highlighting the intricate balance between performance and resource utilization. Case studies of on-device language models from major mobile manufacturers demonstrate real-world applications and potential benefits. The review also addresses critical aspects such as adaptive learning, multi-modal capabilities, and personalization. By identifying key research directions and open challenges, this paper provides a roadmap for future advancements in on-device language models, emphasizing the need for interdisciplinary efforts to realize the full potential of ubiquitous, intelligent computing while ensuring responsible and ethical deployment. For a comprehensive review of research work and educational resources on on-device large language models (LLMs), please visit https://github.com/NexaAI/Awesome-LLMs-on-device. To download and run on-device LLMs, visit https://www.nexaai.com/models. | 翻訳日:2024-09-08 15:21:17 公開日:2024-08-26 |
# 大規模言語モデルのための透かし技術:サーベイ
Watermarking Techniques for Large Language Models: A Survey ( http://arxiv.org/abs/2409.00089v1 ) ライセンス: Link先を確認 | Yuqing Liang, Jiancheng Xiao, Wensheng Gan, Philip S. Yu, | (参考訳) 人工知能技術の急速な進歩と広範な応用により、大規模言語モデル(LLM)は様々な領域にわたる生産、創造性、学習、作業効率の向上に広く利用されている。
しかし、LLMの濫用は、知的財産権問題、学術的不正行為、虚偽の内容、幻覚など、人間の社会に潜在的に害を与える。
関連研究は、LLMのIP保護とLLMによるマルチメディアデータのトレーサビリティを実現するために、LLM透かしの使用を提案する。
我々の知る限り、LLM透かし技術の詳細を精査し分析する最初の徹底的なレビューである。
このレビューは、従来の透かし技術の歴史を振り返り、LLM透かし研究の現状を分析し、これらの技術の継承と関連性について徹底的に検討することから始まる。
従来の電子透かし技術をLCM透かしに適用し、透かし技術のクロスインテグレーションと革新を促進するためのアイデアを研究に提供する。
さらに, LLM透かしの長所と短所について検討した。
LLMの現在のマルチモーダル開発動向を考えると、ビジュアルやオーディオデータなどの新しいマルチモーダルLCM透かしを詳細に分析し、関連する研究にもっと参考となるアイデアを提供する。
このレビューは、現在の透かし技術の課題と将来展望を掘り下げ、将来のLCM透かしの研究と応用に貴重な洞察を提供する。
With the rapid advancement and extensive application of artificial intelligence technology, large language models (LLMs) are extensively used to enhance production, creativity, learning, and work efficiency across various domains. However, the abuse of LLMs also poses potential harm to human society, such as intellectual property rights issues, academic misconduct, false content, and hallucinations. Relevant research has proposed the use of LLM watermarking to achieve IP protection for LLMs and traceability of multimedia data output by LLMs. To our knowledge, this is the first thorough review that investigates and analyzes LLM watermarking technology in detail. This review begins by recounting the history of traditional watermarking technology, then analyzes the current state of LLM watermarking research, and thoroughly examines the inheritance and relevance of these techniques. By analyzing their inheritance and relevance, this review can provide research with ideas for applying traditional digital watermarking techniques to LLM watermarking, to promote the cross-integration and innovation of watermarking technology. In addition, this review examines the pros and cons of LLM watermarking. Considering the current multimodal development trend of LLMs, it provides a detailed analysis of emerging multimodal LLM watermarking, such as visual and audio data, to offer more reference ideas for relevant research. This review delves into the challenges and future prospects of current watermarking technologies, offering valuable insights for future LLM watermarking research and applications. | 翻訳日:2024-09-08 15:21:17 公開日:2024-08-26 |
# 核ドメインデータを用いたChatGPTの評価
Evaluating ChatGPT on Nuclear Domain-Specific Data ( http://arxiv.org/abs/2409.00090v1 ) ライセンス: Link先を確認 | Muhammad Anwar, Mischa de Costa, Issam Hammad, Daniel Lau, | (参考訳) 本稿では,大規模言語モデル(LLM)であるChatGPTの,高度に専門化された核データ分野におけるQ&Aタスクへの適用について検討する。
主な焦点は、計算済みのテストデータセット上でChatGPTのパフォーマンスを評価することであり、スタンドアロンのLLMの結果とRetrieval Augmented Generation(RAG)アプローチで生成されたものを比較することである。
LLMは最近の進歩にもかかわらず、誤った情報や「ハロゲン化」情報を生成する傾向があり、これは高い精度と信頼性を必要とするアプリケーションにおいて重要な制限である。
本研究では, 外部知識ベースと高度な検索技術を統合し, 出力の精度と妥当性を高める手法である LLM におけるRAG の利用の可能性について検討する。
この文脈では、ChatGPTがドメイン固有の質問に答える能力を評価し、A) LLMからの直接応答とB) RAGフレームワーク内のLLMからの応答の2つの方法論を用いる。
これらの手法の有効性は、人間とLLMの評価の二重メカニズムを通じて評価され、正当性やその他の指標に対する応答を評価する。
LLMにRAGパイプラインを組み込む場合、特に核ドメイン固有のクエリに対してより正確で文脈的に適切な応答を生成する場合のパフォーマンス向上を裏付ける。
さらに、これらの専門分野における回答の質をさらに洗練・改善するための代替手法を強調した。
This paper examines the application of ChatGPT, a large language model (LLM), for question-and-answer (Q&A) tasks in the highly specialized field of nuclear data. The primary focus is on evaluating ChatGPT's performance on a curated test dataset, comparing the outcomes of a standalone LLM with those generated through a Retrieval Augmented Generation (RAG) approach. LLMs, despite their recent advancements, are prone to generating incorrect or 'hallucinated' information, which is a significant limitation in applications requiring high accuracy and reliability. This study explores the potential of utilizing RAG in LLMs, a method that integrates external knowledge bases and sophisticated retrieval techniques to enhance the accuracy and relevance of generated outputs. In this context, the paper evaluates ChatGPT's ability to answer domain-specific questions, employing two methodologies: A) direct response from the LLM, and B) response from the LLM within a RAG framework. The effectiveness of these methods is assessed through a dual mechanism of human and LLM evaluation, scoring the responses for correctness and other metrics. The findings underscore the improvement in performance when incorporating a RAG pipeline in an LLM, particularly in generating more accurate and contextually appropriate responses for nuclear domain-specific queries. Additionally, the paper highlights alternative approaches to further refine and improve the quality of answers in such specialized domains. | 翻訳日:2024-09-08 15:21:17 公開日:2024-08-26 |
# 大規模言語モデルを用いた原子力施設の安全事象の分類
Classification of Safety Events at Nuclear Sites using Large Language Models ( http://arxiv.org/abs/2409.00091v1 ) ライセンス: Link先を確認 | Mishca de Costa, Muhammad Anwar, Daniel Lau, Issam Hammad, | (参考訳) 本稿では,原子力発電所のステーション条件レコード(SCR)を安全関連・非安全関連カテゴリに分類する大規模言語モデル(LLM)に基づく機械学習分類器の開発を提案する。
主な目的は、原子力発電所の安全分類プロセスの効率性と正確性を高めることにより、既存の手動レビュープロセスを強化することである。
本稿では,ラベル付きSCRデータセットを分類するための実験を行い,分類器の性能を評価する。
LLMの意思決定プロセスにいくつかの急激なバリエーションとそれらの観察結果が与える影響について検討する。
さらに、SCRの安全性分類に対するよりニュアンスで柔軟なアプローチを提供する数値スコアリング機構も導入されている。
この方法は、原子力安全管理における革新的なステップであり、安全事象を識別するためのスケーラブルなツールを提供する。
This paper proposes the development of a Large Language Model (LLM) based machine learning classifier designed to categorize Station Condition Records (SCRs) at nuclear power stations into safety-related and non-safety-related categories. The primary objective is to augment the existing manual review process by enhancing the efficiency and accuracy of the safety classification process at nuclear stations. The paper discusses experiments performed to classify a labeled SCR dataset and evaluates the performance of the classifier. It explores the construction of several prompt variations and their observed effects on the LLM's decision-making process. Additionally, it introduces a numerical scoring mechanism that could offer a more nuanced and flexible approach to SCR safety classification. This method represents an innovative step in nuclear safety management, providing a scalable tool for the identification of safety events. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-26 |
# PatentGPT:知識に基づくファインチューニング法を用いた特許文書作成のための大規模言語モデル
PatentGPT: A Large Language Model for Patent Drafting Using Knowledge-based Fine-tuning Method ( http://arxiv.org/abs/2409.00092v1 ) ライセンス: Link先を確認 | Runtao Ren, Jian Ma, | (参考訳) 人類は技術革新の新たな時代の瀬戸際にあるので、創造的アイデアを知的財産(IP)に迅速に変換する能力は、これまで以上に重要である。
しかし、従来の特許起草プロセスには課題が伴い、先進的な分野知識と技術的概念の微妙な理解が求められている。
既存の大規模言語モデル(LLM)は、技術的に正確な特許文書を生成するのに必要な専門知識や文脈認識が欠如しているため、このIP生成領域では強力ではないことが多い。
この重要なギャップを埋めるため、我々はLLMの知識細調整(KFT)のための画期的なフレームワークを提案し、AIに自律的なマイニング、理解、ドメイン固有の知識の適用を可能にするように設計されている。
我々のモデルであるPatentGPTは、知識グラフに基づく事前学習、ドメイン固有教師付き微調整(SFT)、人間からのフィードバックからの強化学習(RLHF)のユニークな組み合わせを活用している。
広範な評価を通じて、特許GPTは優れた性能を示し、最先端のモデルと比較して、特許関連のベンチマークテストでは最大400%高いスコアを得た。
KFTは、人間の創造性と革新を補助するだけでなく、モデルの能力を高めることで、私たちのアプローチはAI駆動の知的財産生成の新しい標準を設定し、より効率的で効果的な発明プロセスの道を開く。
As humanity stands on the brink of a new era of technological innovation, the ability to rapidly transform creative ideas into protected intellectual property (IP) is more crucial than ever. However, the conventional processes for patent drafting are fraught with challenges, demanding a nuanced understanding of advanced field knowledge and technical concepts. Existing large language models (LLMs), while powerful, often fall short in this IP creation domain due to their lack of specialized knowledge and context-awareness necessary for generating technically accurate patent documents. To bridge this critical gap, we propose a groundbreaking framework for Knowledge Fine-Tuning (KFT) of LLMs, designed to endow AI with the ability to autonomously mine, understand, and apply domain-specific knowledge. Our model, PatentGPT leverages a unique combination of knowledge graph-based pre-training, domain-specific supervised fine-tuning (SFT), and reinforcement learning from human feedback (RLHF). Through extensive evaluation, PatentGPT has demonstrated outstanding performance, scoring up to approximately 400% higher in patent related benchmark tests compared to state-of-the-art models. By KFT method the model's capability to not only assist but also augment human creativity and innovation, our approach sets a new standard for AI-driven intellectual property generation, paving the way for more efficient and effective invention processes. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-26 |
# TinyMLとCloud-Enabled Auto Deploymentによるデバイス上でのパーソナライズ可能な人間活動認識の実現に向けて
Towards Sustainable Personalized On-Device Human Activity Recognition with TinyML and Cloud-Enabled Auto Deployment ( http://arxiv.org/abs/2409.00093v1 ) ライセンス: Link先を確認 | Bidyut Saha, Riya Samanta, Soumya K Ghosh, Ram Babu Roy, | (参考訳) HAR(Human Activity Recognition)は、健康とフィットネスのモニタリングを変革する大きな可能性を秘めているが、デバイス上での継続的な推論において、パーソナライズされた結果と持続可能性を達成する上で、課題は続く。
この研究は、デバイス上のTinyML駆動コンピューティングとクラウド対応自動デプロイを組み合わせた新しい組み合わせによって、これらの課題に対処するために設計された、手首のスマートバンドを導入している。
慣性測定ユニット(IMU)センサーと、パーソナライズされたHARのためのカスタマイズされた1D畳み込みニューラルネットワーク(CNN)を活用することで、ユーザーは最小限のキャリブレーションでアクティビティクラスを独自のムーブメントスタイルにカスタマイズすることができる。
TinyMLを局所的な計算に利用することにより、スマートバンドは一定のデータ伝送と無線通信の必要性を減らし、電力消費を減らし、炭素フットプリントを削減する。
また、送信を制限することにより、ユーザデータのプライバシやセキュリティも向上する。
ユーザ固有のデータの転送学習と微調整により、パーソナライズされた設定における一般化されたモデルよりも精度が37倍に向上する。
WISDM、PAMAP2、BandXの3つのベンチマークデータセットによる評価は、様々なアクティビティ領域で有効性を示す。
さらに、この作業では、TinyMLモデルをリモートウェアラブルに自動デプロイするためのクラウドサポートフレームワークを提供し、ターゲットデータに制限がある場合でも、シームレスなカスタマイズとデバイス上の推論を可能にする。
パーソナライズされたHARとデバイス上での継続的な推論のための持続可能な戦略を組み合わせることで、このシステムは世界中の健康的で持続可能な社会を育むための有望なステップとなる。
Human activity recognition (HAR) holds immense potential for transforming health and fitness monitoring, yet challenges persist in achieving personalized outcomes and sustainability for on-device continuous inferences. This work introduces a wrist-worn smart band designed to address these challenges through a novel combination of on-device TinyML-driven computing and cloud-enabled auto-deployment. Leveraging inertial measurement unit (IMU) sensors and a customized 1D Convolutional Neural Network (CNN) for personalized HAR, users can tailor activity classes to their unique movement styles with minimal calibration. By utilising TinyML for local computations, the smart band reduces the necessity for constant data transmission and radio communication, which in turn lowers power consumption and reduces carbon footprint. This method also enhances the privacy and security of user data by limiting its transmission. Through transfer learning and fine-tuning on user-specific data, the system achieves a 37\% increase in accuracy over generalized models in personalized settings. Evaluation using three benchmark datasets, WISDM, PAMAP2, and the BandX demonstrates its effectiveness across various activity domains. Additionally, this work presents a cloud-supported framework for the automatic deployment of TinyML models to remote wearables, enabling seamless customization and on-device inference, even with limited target data. By combining personalized HAR with sustainable strategies for on-device continuous inferences, this system represents a promising step towards fostering healthier and more sustainable societies worldwide. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-26 |
# アンサンブル感性分析における独立性の検討--Condorcet Jury Theorem を用いた大規模言語モデルの限界について
Examining Independence in Ensemble Sentiment Analysis: A Study on the Limits of Large Language Models Using the Condorcet Jury Theorem ( http://arxiv.org/abs/2409.00094v1 ) ライセンス: Link先を確認 | Baptiste Lefort, Eric Benhamou, Jean-Jacques Ohana, Beatrice Guez, David Saltiel, Thomas Jacquot, | (参考訳) 本稿では,Condorcet Juryの定理を感情分析分野に適用し,より単純な自然言語処理(NLP)モデルと比較して,様々な大規模言語モデル(LLM)の性能について検討する。
この定理は、個別の分類者の決定が独立であるならば、多数決分類者の予測精度を高めるべきであると仮定している。
実験的な研究では,ChatGPT 4 などの先進 LLM など,さまざまなモデルを対象とした多数決機構を実装して,この理論的枠組みを検証した。
期待とは対照的に、結果はより大きなモデルを導入する際のパフォーマンスの限界的な改善しか示さず、独立性の欠如を示唆している。
この発見は、その複雑さにもかかわらず、LLMは感情分析におけるタスクの推論において、より単純なモデルを著しく上回り、高度なNLPタスクの文脈におけるモデル独立の実践的限界を示すという仮説と一致している。
This paper explores the application of the Condorcet Jury theorem to the domain of sentiment analysis, specifically examining the performance of various large language models (LLMs) compared to simpler natural language processing (NLP) models. The theorem posits that a majority vote classifier should enhance predictive accuracy, provided that individual classifiers' decisions are independent. Our empirical study tests this theoretical framework by implementing a majority vote mechanism across different models, including advanced LLMs such as ChatGPT 4. Contrary to expectations, the results reveal only marginal improvements in performance when incorporating larger models, suggesting a lack of independence among them. This finding aligns with the hypothesis that despite their complexity, LLMs do not significantly outperform simpler models in reasoning tasks within sentiment analysis, showing the practical limits of model independence in the context of advanced NLP tasks. | 翻訳日:2024-09-08 15:11:32 公開日:2024-08-26 |
# 糖尿病網膜症の即時診断
Instant automatic diagnosis of diabetic retinopathy ( http://arxiv.org/abs/1906.11875v2 ) ライセンス: Link先を確認 | Gwenolé Quellec, Mathieu Lamard, Bruno Lay, Alexandre Le Guilcher, Ali Erginay, Béatrice Cochener, Pascale Massin, | (参考訳) 本研究の目的は,参照性糖尿病網膜症(DR)の自動検出のためのOphtAIシステムの性能評価と,カラーファンドス写真を用いたDR重症度の自動評価である。
OphtAIは、眼のラテラルを認識し、参照可能なDRを検出し、DR重症度を評価するために訓練された畳み込みニューラルネットワークのアンサンブルに依存している。
システムは単一の画像または完全な検査記録を処理できる。
自動診断を文書化するために、正確なヒートマップを生成する。
このシステムは、OPHDIATスクリーニングプログラムから164,660のスクリーニング手順から、763,848の画像のデータセットを用いて開発され、検証された。
比較のために、パブリックなMessidor-2データセットでも評価された。
参照DRは、アイオワ大学の基準規格(95% CI: 0.984-0.994)を用いて、メシドール-2データセットのAUC = 0.989のROC曲線の下で検出できる。
これはFDAが認可した唯一のAIシステムよりも優れている(AUC = 0.980)。
OphtAIは、AUCが0.997(95% CI:0.996-0.998)で、AUCが0.997(95% CI:0.995-0.999)で増殖するDRを検出できる。
このシステムはグラフィックス処理ユニットを使用して0.3秒で動作し、2秒未満で動作します。
OphtAIは、FDAが認可している唯一のAIシステムよりも安全で高速で包括的だ。
即時DR診断が可能となり、DRスクリーニングの合理化と、より多くの糖尿病患者へのDRスクリーニングの容易化が期待されている。
The purpose of this study is to evaluate the performance of the OphtAI system for the automatic detection of referable diabetic retinopathy (DR) and the automatic assessment of DR severity using color fundus photography. OphtAI relies on ensembles of convolutional neural networks trained to recognize eye laterality, detect referable DR and assess DR severity. The system can either process single images or full examination records. To document the automatic diagnoses, accurate heatmaps are generated. The system was developed and validated using a dataset of 763,848 images from 164,660 screening procedures from the OPHDIAT screening program. For comparison purposes, it was also evaluated in the public Messidor-2 dataset. Referable DR can be detected with an area under the ROC curve of AUC = 0.989 in the Messidor-2 dataset, using the University of Iowa's reference standard (95% CI: 0.984-0.994). This is better than the only AI system authorized by the FDA, evaluated in the exact same conditions (AUC = 0.980). OphtAI can also detect vision-threatening DR with an AUC of 0.997 (95% CI: 0.996-0.998) and proliferative DR with an AUC of 0.997 (95% CI: 0.995-0.999). The system runs in 0.3 seconds using a graphics processing unit and less than 2 seconds without. OphtAI is safer, faster and more comprehensive than the only AI system authorized by the FDA so far. Instant DR diagnosis is now possible, which is expected to streamline DR screening and to give easy access to DR screening to more diabetic patients. | 翻訳日:2024-08-30 19:54:50 公開日:2024-08-26 |
# ディジタル双極型IoTネットワークのためのリソース効率の良い非同期フェデレーション学習
Resource Efficient Asynchronous Federated Learning for Digital Twin Empowered IoT Network ( http://arxiv.org/abs/2408.14298v1 ) ライセンス: Link先を確認 | Shunfeng Chu, Jun Li, Jianxin Wang, Yiyang Ni, Kang Wei, Wen Chen, Shi Jin, | (参考訳) 新たなテクノロジとして、ディジタルツイン(DT)は、IoT(Internet of Things)デバイスのためのリアルタイムステータスと動的トポロジマッピングを提供する。
しかしながら、産業用IoTネットワークにおけるDTとその実装には、相当量の分散データサポートが必要であり、多くの場合、‘データサイロ’が発生し、プライバシの懸念が高まる。
これらの問題に対処するため、非同期フェデレーション学習(FL)ベースの軽量DT強化IoTネットワークに適した動的リソーススケジューリングアルゴリズムを開発した。
具体的には、FLモデルの性能制約を条件として、IoTデバイスの選択を最適化し、電力制御を伝達することにより、エネルギー消費と遅延の両方を包含する多目的関数を最小化することを目的とする。
我々は、Lyapunov法を用いて、定式化問題を一連の1スロット最適化問題に分解し、最適な送信電力制御とIoTデバイススケジューリング戦略を実現するための2段階最適化アルゴリズムを開発した。
第1段階では、IoTデバイス側で最適な送信電力を求めるクローズドフォームソリューションを導出する。
第2段階では、部分状態情報、例えばIoTデバイスの送信電力と計算頻度が不明であるため、エッジサーバは、IoTデバイス選択問題をモデル化するためのマルチアームバンディット(MAB)フレームワークを使用して、効率的なオンラインアルゴリズム、すなわち、クライアントユーティリティベースのアッパー信頼境界(CU-UCB)を使用して対処する。
シミュレーションにより,本アルゴリズムはFashion-MNISTとCIFAR-10データセットのトレーニング速度を同じトレーニング期間で高速化することを示した。
As an emerging technology, digital twin (DT) can provide real-time status and dynamic topology mapping for Internet of Things (IoT) devices. However, DT and its implementation within industrial IoT networks necessitates substantial, distributed data support, which often leads to ``data silos'' and raises privacy concerns. To address these issues, we develop a dynamic resource scheduling algorithm tailored for the asynchronous federated learning (FL)-based lightweight DT empowered IoT network. Specifically, our approach aims to minimize a multi-objective function that encompasses both energy consumption and latency by optimizing IoT device selection and transmit power control, subject to FL model performance constraints. We utilize the Lyapunov method to decouple the formulated problem into a series of one-slot optimization problems and develop a two-stage optimization algorithm to achieve the optimal transmission power control and IoT device scheduling strategies. In the first stage, we derive closed-form solutions for optimal transmit power on the IoT device side. In the second stage, since partial state information is unknown, e.g., the transmitting power and computational frequency of IoT device, the edge server employs a multi-armed bandit (MAB) framework to model the IoT device selection problem and utilizes an efficient online algorithm, namely the client utility-based upper confidence bound (CU-UCB), to address it. Numerical results validate our algorithm's superiority over benchmark schemes, and simulations demonstrate that our algorithm achieves faster training speeds on the Fashion-MNIST and CIFAR-10 datasets within the same training duration. | 翻訳日:2024-08-29 18:22:33 公開日:2024-08-26 |
# 相対論的フェシュバッハ・ヴィラーズスピン-1/2方程式の解
Solution of Relativistic Feshbach-Villars Spin-1/2 Equations ( http://arxiv.org/abs/2408.15288v1 ) ライセンス: Link先を確認 | D. Wingard, A. Garcia Vallejo, Z. Papp, | (参考訳) 本研究では, 対応するフェシュバッハ・ビラース方程式を解くことにより, 相対論的スピン-1/2$粒子の研究手法を提案する。
フェシュバッハ・ビラーススピン-1/2$方程式はスピンカップリングされたフェシュバッハ・ビラーススピン-0$方程式として定式化することができ、ハミルトニアン固有値問題をもたらす。
私たちは積分方程式の定式化を採用した。
ポテンシャル作用素は離散ヒルベルト空間基底で表され、関連するグリーン作用素は行列連続分数によって計算される。
We propose method for studying relativistic spin-$1/2$ particles by solving the corresponding Feshbach-Villars equation. We have found that the Feshbach-Villars spin-$1/2$ equations can be formulated as spin-coupled Feshbach-Villars spin-$0$ equations, that results in a Hamiltonian eigenvalue problem. We adopted an integral equation formalism. The potential operators are represented in a discrete Hilbert space basis and the relevant Green's operator has been calculated by a matrix continued fraction. | 翻訳日:2024-08-29 18:22:33 公開日:2024-08-26 |
# マルチクラス植物葉病検出:モバイルアプリ統合によるCNNに基づくアプローチ
Multi-Class Plant Leaf Disease Detection: A CNN-based Approach with Mobile App Integration ( http://arxiv.org/abs/2408.15289v1 ) ライセンス: Link先を確認 | Md Aziz Hosen Foysal, Foyez Ahmed, Md Zahurul Haque, | (参考訳) 植物病は農業の生産性に大きな影響を及ぼし、経済的な損失と食料の安全を損なう。
植物の病気の効率的な管理と緩和には、迅速かつ正確な検出が不可欠である。
本研究では, 画像処理, 機械学習, 深層学習, 移動技術の統合に着目し, 植物病検出の最先端技術について検討する。
植物葉の高分解能画像が捉えられ、畳み込みニューラルネットワーク(CNN)を用いて分析された。
本研究は14種類の植物を探索し,26種の植物疾患を診断する。
我々は様々な作物に影響を及ぼす共通疾患に焦点を当てている。
このモデルは、複数の作物や病気のタイプを含む多様なデータセットに基づいて訓練され、98.14%の精度で診断された。
最終的にこのモデルをモバイルアプリに統合し、リアルタイムな疾患診断を実現した。
Plant diseases significantly impact agricultural productivity, resulting in economic losses and food insecurity. Prompt and accurate detection is crucial for the efficient management and mitigation of plant diseases. This study investigates advanced techniques in plant disease detection, emphasizing the integration of image processing, machine learning, deep learning methods, and mobile technologies. High-resolution images of plant leaves were captured and analyzed using convolutional neural networks (CNNs) to detect symptoms of various diseases, such as blight, mildew, and rust. This study explores 14 classes of plants and diagnoses 26 unique plant diseases. We focus on common diseases affecting various crops. The model was trained on a diverse dataset encompassing multiple crops and disease types, achieving 98.14% accuracy in disease diagnosis. Finally integrated this model into mobile apps for real-time disease diagnosis. | 翻訳日:2024-08-29 18:22:33 公開日:2024-08-26 |
# マニフォールド上の関数近似のためのランダムベクトル関数リンクネットワーク
Random Vector Functional Link Networks for Function Approximation on Manifolds ( http://arxiv.org/abs/2007.15776v4 ) ライセンス: Link先を確認 | Deanna Needell, Aaron A. Nelson, Rayan Saab, Palina Salanevich, Olov Schavemaker, | (参考訳) フィードフォワードニューラルネットワークの学習速度は、非常に遅く、数十年にわたってディープラーニングアプリケーションにボトルネックをもたらしてきた。
例えば、ニューラルネットワークのトレーニングに広く使用される勾配に基づく学習アルゴリズムは、すべてのネットワークパラメータを反復的に調整する必要がある場合、動作が遅くなる傾向がある。
これに対抗するため、研究者も実践者も学習要求を減らすためにランダム性の導入を試みた。
イジェルニクとパオの当初の構成に基づいて、ランダムな入射層重みとバイアスを持つ単層ニューラルネットワークが実際に成功したが、必要な理論上の正当化は欠如している。
本稿では,この理論的ギャップを埋める。
我々は、Igelnik と Pao の構造がコンパクト領域上の連続函数の普遍近似であり、ネットワークノードの数$n$に対して$O(1/\sqrt{n})$のように近似誤差が漸近的に減衰する(補正された)厳密な証明を与える。
すると、この結果を漸近的でない設定に拡張し、n$が十分大きければ高い確率で任意の所望の近似誤差を達成できることを証明した。
さらに、このランダム化されたニューラルネットワークアーキテクチャをユークリッド空間の滑らかでコンパクトな部分多様体上の近似関数に適用し、漸近型と非漸近型の両方において理論的保証を提供する。
最後に, 数値実験による解析結果について述べる。
The learning speed of feed-forward neural networks is notoriously slow and has presented a bottleneck in deep learning applications for several decades. For instance, gradient-based learning algorithms, which are used extensively to train neural networks, tend to work slowly when all of the network parameters must be iteratively tuned. To counter this, both researchers and practitioners have tried introducing randomness to reduce the learning requirement. Based on the original construction of Igelnik and Pao, single layer neural-networks with random input-to-hidden layer weights and biases have seen success in practice, but the necessary theoretical justification is lacking. In this paper, we begin to fill this theoretical gap. We provide a (corrected) rigorous proof that the Igelnik and Pao construction is a universal approximator for continuous functions on compact domains, with approximation error decaying asymptotically like $O(1/\sqrt{n})$ for the number $n$ of network nodes. We then extend this result to the non-asymptotic setting, proving that one can achieve any desired approximation error with high probability provided $n$ is sufficiently large. We further adapt this randomized neural network architecture to approximate functions on smooth, compact submanifolds of Euclidean space, providing theoretical guarantees in both the asymptotic and non-asymptotic forms. Finally, we illustrate our results on manifolds with numerical experiments. | 翻訳日:2024-08-28 20:36:52 公開日:2024-08-26 |
# YouTubeインフルエンサービデオにおけるエンゲージメントのアンボックス化:注意に基づくアプローチ
Unboxing Engagement in YouTube Influencer Videos: An Attention-Based Approach ( http://arxiv.org/abs/2012.12311v4 ) ライセンス: Link先を確認 | Prashant Rajaram, Puneet Manchanda, | (参考訳) インフルエンサーのマーケティングビデオの人気は急上昇しているが、ビデオ機能とエンゲージメントの関係を理解する上では大きなギャップが残っている。
この課題は、非構造化データの解釈の複雑さによって強化される。
ディープラーニングモデルは、非構造化データを効果的に活用してビジネス成果を予測する一方で、しばしばブラックボックスとして機能する。
この問題に対処するため,著者らは,非構造化データを用いたサンプル外予測だけでなく,キャプチャされた関係に関する洞察を提供する「解釈可能なディープラーニングフレームワーク」を開発した。
印刷広告における視覚的注意から着想を得たこの解釈手法は、ビデオ特徴に対するモデル的注意の尺度を用いて、2段階のプロセスを通して刺激的な関連を排除し、形式的因果検定のための関係をショートリスト化する。
この方法は、テキスト、オーディオ、ビデオ画像データを分析する際に、付加的な注意、拡張されたドット積の注意、勾配に基づく注意など、よく知られた注意機構に適用できる。
シミュレーションを用いて検証されたこのアプローチは、ベンチマークの特徴選択方法よりも優れている。
このフレームワークは、YouTubeのインフルエンサービデオに適用され、ビデオ機能と、思考のデュアルシステムフレームワークに基づいて開発された浅いエンゲージメントと深いエンゲージメントの尺度をリンクする。
この発見は、インフルエンサーやブランドが深いエンゲージメントに関連するビデオ特徴の優先順位付けに寄与する。
Influencer marketing videos have surged in popularity, yet significant gaps remain in understanding the relationship between video features and engagement. This challenge is intensified by the complexities of interpreting unstructured data. While deep learning models effectively leverage unstructured data to predict business outcomes, they often function as black boxes with limited interpretability, particularly when human validation is hindered by the absence of a known ground truth. To address this issue, the authors develop an "interpretable deep learning framework" that not only makes good out-of-sample predictions using unstructured data but also provides insights into the captured relationships. Inspired by visual attention in print advertising, the interpretation approach uses measures of model attention to video features, eliminating spurious associations through a two-step process and shortlisting relationships for formal causal testing. This method is applicable across well-known attention mechanisms - additive attention, scaled dot-product attention, and gradient-based attention - when analyzing text, audio, or video image data. Validated using simulations, this approach outperforms benchmark feature selection methods. This framework is applied to YouTube influencer videos, linking video features to measures of shallow and deep engagement developed based on the dual-system framework of thinking. The findings guide influencers and brands in prioritizing video features associated with deep engagement. | 翻訳日:2024-08-28 20:36:52 公開日:2024-08-26 |
# 統合階段特性:二層ニューラルネットワークにおけるスパース関数のSGD学習に必要なほぼ十分条件
The merged-staircase property: a necessary and nearly sufficient condition for SGD learning of sparse functions on two-layer neural networks ( http://arxiv.org/abs/2202.08658v2 ) ライセンス: Link先を確認 | Emmanuel Abbe, Enric Boix-Adsera, Theodor Misiakiewicz, | (参考訳) 現在、ニューラルネットワークが2つの極端パラメータ化のためにSGDで学習できる機能、すなわち線形状態のニューラルネットワークと、構造的な制約のないニューラルネットワークを特徴付ける方法が知られている。
しかし、関心の主パラメトリゼーション(非線形だが正規のネットワーク)については、大きな発展にもかかわらず、厳密な特徴がまだ得られていない。
我々は、SGDが訓練したディープ2ニューラルネットワークを平均場状態に組み込むことにより、この方向への一歩を踏み出す。
我々は、潜在する低次元部分空間(つまり、少数の座標)に依存する二進入力上の函数を考える。
この体制は、ニューラルネットワークが高次元データセットに日常的に取り組み、次元性の呪いに苦しむことなく潜伏する低次元構造に適応する方法がよく理解されていないため、関心がある。
したがって、SGD-learnability with $O(d)$ sample complexity in a large ambient dimension $d$。
本研究の主な成果は, 階層的特性である「マージ階段特性」を特徴付けるものである。
このクラスの関数では、任意の特徴写像(例えばNTK)上の線形メソッドは効率的に学習できない。
鍵となるツールは、低次元の潜在空間上で定義される函数に適用される新しい「次元自由」力学近似結果、多項式アイデンティティテストに基づく大域収束の証明、非直交関数に対する線形メソッドに対する下界の改善である。
It is currently known how to characterize functions that neural networks can learn with SGD for two extremal parameterizations: neural networks in the linear regime, and neural networks with no structural constraints. However, for the main parametrization of interest (non-linear but regular networks) no tight characterization has yet been achieved, despite significant developments. We take a step in this direction by considering depth-2 neural networks trained by SGD in the mean-field regime. We consider functions on binary inputs that depend on a latent low-dimensional subspace (i.e., small number of coordinates). This regime is of interest since it is poorly understood how neural networks routinely tackle high-dimensional datasets and adapt to latent low-dimensional structure without suffering from the curse of dimensionality. Accordingly, we study SGD-learnability with $O(d)$ sample complexity in a large ambient dimension $d$. Our main results characterize a hierarchical property, the "merged-staircase property", that is both necessary and nearly sufficient for learning in this setting. We further show that non-linear training is necessary: for this class of functions, linear methods on any feature map (e.g., the NTK) are not capable of learning efficiently. The key tools are a new "dimension-free" dynamics approximation result that applies to functions defined on a latent space of low-dimension, a proof of global convergence based on polynomial identity testing, and an improvement of lower bounds against linear methods for non-almost orthogonal functions. | 翻訳日:2024-08-28 20:36:52 公開日:2024-08-26 |
# ヤンミルズ安定境界とプラケット場生成関数について
On Yang-Mills Stability Bounds and Plaquette Field Generating Function ( http://arxiv.org/abs/2205.07376v2 ) ライセンス: Link先を確認 | Paulo A. Faria da Veiga, Michael O'Carroll, | (参考訳) 我々は、グループ$U(N)$のYang-Mills (YM) QFTを考える。
有限格子正則化 $\Lambda\subset a\mathbb Z^d$, $d = 2,3,4$, with $a\in (0,1]$ and $L$ (even) sites on a side。
各結合はゲージ変数$U\in U(N)$を持つ。
Wilson 分割関数を使用し、作用はゲージ不変プラケット(最小正方形)の作用の和である: $a^{d-4}/g^2$, $g^2\in(0,g_0^2]$, $0<g_0^2<\infty$。
プラケット作用はその4変数の積を持ち、分割函数はボルツマン因子の積分であり、積は$U(N)$ハール測度である。
正式には、$a\searrow 0$のアクションは通常のYM連続アクションを与える。
自由かつ周期的なb.c.に対して、前述した任意のYMモデルの正規化分割関数に対する熱力学および安定性境界を示し、その境界定数は$L,a,g$とは独立である。
後続の熱力学と自由エネルギーの紫外限界が存在する。
我々の境界を得るために、ワイル積分公式を使用し、下界を得るには、作用上の新しい二次大域上界が導出される。
ゲージ不変な物理およびスケールされたプラケット場を定義する。
周期的b.c.とマルチリフレクション法を用いて、$r-$scaled plaquette相関の生成関数を束縛する。
スケールされた$r$の相関に対する正規化生成関数は、任意の$L,a,g$と外部フィールドの位置に対して絶対有界である。
場源の合同解析から相関は有界である。
境界は新しいもので、一致する点における物理的二括相関に対して$a^{-d}$を得る。
物理的微分の質量を持たないスカラー自由場2点相関の$a\searrow 0$特異点と比較すると、これは格子 QFT の文脈における紫外線漸近自由度の測定である。
私たちの方法は代替手段であり、より伝統的な方法を完成させます。
We consider the Yang-Mills (YM) QFT with group $U(N)$. We take a finite lattice regularization $\Lambda\subset a\mathbb Z^d$, $d = 2,3,4$, with $a\in (0,1]$ and $L$ (even) sites on a side. Each bond has a gauge variable $U\in U(N)$. The Wilson partition function is used and the action is a sum of gauge-invariant plaquette (minimal square) actions times $a^{d-4}/g^2$, $g^2\in(0,g_0^2]$, $0<g_0^2<\infty$. A plaquette action has the product of its four variables and the partition function is the integral of the Boltzmann factor with a product of $U(N)$ Haar measures. Formally, when $a\searrow 0$ our action gives the usual YM continuum action. For free and periodic b.c., we show thermodynamic and stability bounds for a normalized partition function of any YM model defined as before, with bound constants independent of $L,a,g$. The subsequential thermodynamic and ultraviolet limit of the free energy exist. To get our bounds, the Weyl integration formula is used and, to obtain the lower bound, a new quadratic global upper bound on the action is derived. We define gauge-invariant physical and scaled plaquette fields. Using periodic b.c. and the multi-reflection method, we bound the generating function of $r-$scaled plaquette correlations. A normalized generating function for the correlations of $r$ scaled fields is absolutely bounded, for any $L,a,g$, and location of the external fields. From the joint analyticity on the field sources, correlations are bounded. The bounds are new and we get $a^{-d}$ for the physical two-plaquette correlation at coincident points. Comparing with the $a\searrow 0$ singularity of the physical derivative massless scalar free field two-point correlation, this is a measure of ultraviolet asymptotic freedom in the context of a lattice QFT. Our methods are an alternative and complete the more traditional ones. | 翻訳日:2024-08-28 20:36:52 公開日:2024-08-26 |
# FrischとSegrèによる多段Stern$\unicode{x2013}$Gerlach実験の量子力学的モデリング
Quantum mechanical modeling of the multi-stage Stern$\unicode{x2013}$Gerlach experiment conducted by Frisch and Segrè ( http://arxiv.org/abs/2210.11553v5 ) ライセンス: Link先を確認 | S. Süleyman Kahraman, Kelvin Titimbo, Zhe He, Jung-Tsung Shen, Lihong V. Wang, | (参考訳) Frisch と Segr\`e が行ったマルチステージ Stern$\unicode{x2013}$Gerlach 実験には、2つのカスケード量子測度と非可逆フッパーがある。
Frisch と Segr\`e の実験は、核効果のないマヨラナによって解析的にモデル化され、その後ラビによって超微細な相互作用で修正された。
しかし、理論的予測は実験結果と正確に一致しない。
ここでは、スピンの時間発展のための超微細相互作用を含むフォン・ノイマン方程式を用いて、標準的な量子力学モデルを数値的に解く。
これまでのところ、自由パラメータを使わずに標準量子力学モデルから決定される係数は依然として低く、理論と実験のミスマッチを示している。
一致を改善する非標準変種を議論するために検討する。
The multi-stage Stern$\unicode{x2013}$Gerlach experiment conducted by Frisch and Segr\`e includes two cascaded quantum measurements with a nonadiabatic flipper in between. The Frisch and Segr\`e experiment has been modeled analytically by Majorana without the nuclear effect and subsequently revised by Rabi with the hyperfine interaction. However, the theoretical predictions do not match the experimental observation accurately. Here, we numerically solve the standard quantum mechanical model, via the von Neumann equation, including the hyperfine interaction for the time evolution of the spin. Thus far, the coefficients of determination from the standard quantum mechanical model without using free parameters are still low, indicating a mismatch between the theory and the experiment. Non-standard variants that improve the match are explored for discussion. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-26 |
# SPD行列学習のための適応的対数ユークリッド計量
Adaptive Log-Euclidean Metrics for SPD Matrix Learning ( http://arxiv.org/abs/2303.15477v4 ) ライセンス: Link先を確認 | Ziheng Chen, Yue Song, Tianyang Xu, Zhiwu Huang, Xiao-Jun Wu, Nicu Sebe, | (参考訳) 対称正定値行列(SPD)は、データの構造的相関を符号化する固有の能力のため、機械学習において広く注目を集めている。
多くの成功したリーマン計量は、SPD多様体の非ユークリッド幾何学を反映するために提案されている。
しかし、既存の計量テンソルのほとんどは固定されており、特に深いSPDニューラルネットワークにおいて、SPD行列学習の準最適性能をもたらす可能性がある。
この制限を緩和するために、よく遭遇する引き戻し手法を活用し、広く使われているログユークリッド計量(LEM)を拡張した適応ログユークリッド計量(ALEM)を提案する。
従来のリーマン測度と比較すると、我々の測度は学習可能なパラメータを含み、小さな余分な計算を伴うリーマンニューラルネットワークの複雑な力学に適応できる。
また、代数的およびリーマン的性質を含むALEMをサポートするための完全な理論解析も提示する。
実験および理論的結果から,SPDニューラルネットワークの性能向上における提案手法の有効性が示された。
このメトリクスの有効性は、リーマン的バッチ正規化、リーマン的残留ブロック、リーマン的分類器を含む、最近開発されたリーマン的構成ブロックの集合でさらに示される。
Symmetric Positive Definite (SPD) matrices have received wide attention in machine learning due to their intrinsic capacity to encode underlying structural correlation in data. Many successful Riemannian metrics have been proposed to reflect the non-Euclidean geometry of SPD manifolds. However, most existing metric tensors are fixed, which might lead to sub-optimal performance for SPD matrix learning, especially for deep SPD neural networks. To remedy this limitation, we leverage the commonly encountered pullback techniques and propose Adaptive Log-Euclidean Metrics (ALEMs), which extend the widely used Log-Euclidean Metric (LEM). Compared with the previous Riemannian metrics, our metrics contain learnable parameters, which can better adapt to the complex dynamics of Riemannian neural networks with minor extra computations. We also present a complete theoretical analysis to support our ALEMs, including algebraic and Riemannian properties. The experimental and theoretical results demonstrate the merit of the proposed metrics in improving the performance of SPD neural networks. The efficacy of our metrics is further showcased on a set of recently developed Riemannian building blocks, including Riemannian batch normalization, Riemannian Residual blocks, and Riemannian classifiers. | 翻訳日:2024-08-28 20:28:28 公開日:2024-08-26 |
# PCNN:AIと人間のための細粒度画像分類の精度を向上する予測可能なクラスNearest-Neighbor説明
PCNN: Probable-Class Nearest-Neighbor Explanations Improve Fine-Grained Image Classification Accuracy for AIs and Humans ( http://arxiv.org/abs/2308.13651v5 ) ライセンス: Link先を確認 | Giang, Nguyen, Valerie Chen, Mohammad Reza Taesiri, Anh Totti Nguyen, | (参考訳) 最寄りの隣人(NN)は、伝統的にSupport Vector Machinesやk-NNの分類器で最終決定を計算したり、モデルの判断を説明するために使用される。
本稿では,凍結した事前訓練された画像分類器Cの予測を改善するために,(1)入力画像と,(2)Cが与える最上位クラスのNN画像を比較した画像コンパレータSを活用し,(2)Cの信頼性スコアをSから重み付けして予測を洗練させる。
CUB-200, Cars-196, Dogs-120における画像分類精度を常に改善する。
また、人間による研究では、予測可能なクラス隣人(PCNN)を示すことによって、AIへの過度な依存が軽減され、最も確率の高い(トップ-1)クラスの例のみを示す以前の作業よりも、決定精度が向上することがわかった。
Nearest neighbors (NN) are traditionally used to compute final decisions, e.g., in Support Vector Machines or k-NN classifiers, and to provide users with explanations for the model's decision. In this paper, we show a novel utility of nearest neighbors: To improve predictions of a frozen, pretrained image classifier C. We leverage an image comparator S that (1) compares the input image with NN images from the top-K most probable classes given by C; and (2) uses scores from S to weight the confidence scores of C to refine predictions. Our method consistently improves fine-grained image classification accuracy on CUB-200, Cars-196, and Dogs-120. Also, a human study finds that showing users our probable-class nearest neighbors (PCNN) reduces over-reliance on AI, thus improving their decision accuracy over prior work which only shows only the most-probable (top-1) class examples. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-26 |
# 必要なものはトロッターだけ
All you need is Trotter ( http://arxiv.org/abs/2311.01533v2 ) ライセンス: Link先を確認 | Gumaro Rendon, | (参考訳) ここでの作業は、${\rm polylog} (1/\epsilon)$と余分なブロックエンコーディングキュービットを保ちながら、進化時間$t$で線形コストスケーリングを可能にします。
これは、積公式、安定補間(チェビシェフ)、必要な分数クエリを計算するために、基数正弦補間を用いる。
The work here enables linear cost-scaling with evolution time $t$ while keeping ${\rm polylog} (1/\epsilon)$ scaling and no extra block-encoding qubits, where $\epsilon$ is the algorithmic error. This is achieved through product formulas, stable interpolation (Chebyshev), and to calculate the needed fractional queries, cardinal sine interpolation is used. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-26 |
# 制約付き生成逆数ネットワークを用いた負荷注入の時間的相関した高分解能プロファイルの作成
Creating Temporally Correlated High-Resolution Profiles of Load Injection Using Constrained Generative Adversarial Networks ( http://arxiv.org/abs/2311.12166v3 ) ライセンス: Link先を確認 | Hritik Gopal Shah, Behrouz Azimian, Anamitra Pal, | (参考訳) 従来のスマートメーターは15分以上毎のエネルギー使用量を計測し、少なくとも数時間後に報告するが、リアルタイムの意思決定に必要な粒度は欠如している。
この問題に対処するために,凸最適化を用いた厳密な不等式制約を通した高分解能出力の時間的整合性を実現するGAN(Generative Adversarial Network)を用いた新しい手法を提案する。
GANモデルのユニークな特徴は、スマートメーターから得られる遅い時間スケールの歴史的エネルギーデータのみに基づいて訓練されていることである。
その結果,15分間隔の平均消費電力情報から,時間的に時間的に相関した電力使用量のプロファイルを作成することができた。
この革新的なアプローチは、ニューロン間の制約を強調し、分散システムにおける高速状態推定を改善するための有望な方法を提供し、そのようなシステムを監視し、その後制御するためのデータ駆動型ソリューションの適用性を高める。
Traditional smart meters, which measure energy usage every 15 minutes or more and report it at least a few hours later, lack the granularity needed for real-time decision-making. To address this practical problem, we introduce a new method using generative adversarial networks (GAN) that enforces temporal consistency on its high-resolution outputs via hard inequality constraints using convex optimization. A unique feature of our GAN model is that it is trained solely on slow timescale aggregated historical energy data obtained from smart meters. The results demonstrate that the model can successfully create minute-by-minute temporally correlated profiles of power usage from 15-minute interval average power consumption information. This innovative approach, emphasizing inter-neuron constraints, offers a promising avenue for improved high-speed state estimation in distribution systems and enhances the applicability of data-driven solutions for monitoring and subsequently controlling such systems. | 翻訳日:2024-08-28 20:08:36 公開日:2024-08-26 |
# 自由電子線に印加された横型リコイル
Transverse Recoil Imprinted on Free-Electron Radiation ( http://arxiv.org/abs/2312.04383v2 ) ライセンス: Link先を確認 | Xihang Shi, Lee Wei Wesley Wong, Sunchao Huang, Liang Jie Wong, Ido Kaminer, | (参考訳) 自由電子X線放射の現象は、量子電気力学の現象である固有の相互作用にもかかわらず、古典的な電磁力学でほとんど排他的に扱われる。
量子性の欠如は、電子エネルギーとずっと小さな光子エネルギーとの間の大きな相違から生じ、量子効果を無視できる小さな断面積をもたらす。
ここでは、このエネルギー格差を回避し、非常に強い量子特性を示す、根本的に異なる電子放射現象を同定する。
この現象は、放射過程中に自由電子の逆散乱が起こり、各逆転した電子と放出した光子との間の絡み合いが生じる。
この現象は、従来の古典的分析やそれ以前の量子解析と比較して、結晶によって媒介される自由電子放射の特性を著しく変化させる。
また、低エミタンス電子ビームと高分解能X線分光計を用いて、この現象を検出する条件も分析した。
これらの量子放射特性は、ナノフォトニクスと量子光学によって促進されるコンパクトなコヒーレントX線源の開発を導く可能性がある。
Phenomena of free-electron X-ray radiation are treated almost exclusively with classical electrodynamics, despite the intrinsic interaction being that of quantum electrodynamics. The lack of quantumness arises from the vast disparity between the electron energy and the much smaller photon energy, resulting in a small cross-section that makes quantum effects negligible. Here we identify a fundamentally distinct phenomenon of electron radiation that bypasses this energy disparity, and thus displays extremely strong quantum features. This phenomenon arises when free-electron transverse scattering occurs during the radiation process, creating entanglement between each transversely recoiled electron and the photons it emitted. This phenomenon profoundly modifies the characteristics of free-electron radiation mediated by crystals, compared to conventional classical analysis and even previous quantum analysis. We also analyze conditions to detect this phenomenon using low-emittance electron beams and high-resolution X-ray spectrometers. These quantum radiation features could guide the development of compact coherent X-ray sources facilitated by nanophotonics and quantum optics. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-26 |
# 量子イジング鎖上の閉じ込めとキンク絡みの非対称性
Confinement and Kink Entanglement Asymmetry on a Quantum Ising Chain ( http://arxiv.org/abs/2312.08601v2 ) ライセンス: Link先を確認 | Brian J. J. Khor, D. M. Kürkçüoglu, T. J. Hobbs, G. N. Perdue, Israel Klich, | (参考訳) 本研究では, 1次元量子イジング鎖上の閉じ込め, 弦の破れ, 絡み合う非対称性の相互作用について検討する。
我々は、初期領域壁の進化を考察し、意外なことに、長手フィールドによる閉じ込めの導入は典型的には絡みを抑制するが、自由粒子の有界集合を超えて増大させるのに役立つことを示した。
我々のモデルは、ドメイン壁の数を保存するために調整することができ、リンク変数に関連する絡み合い非対称性を探索する機会を与える。
結合変数(キンク)をサイト変数(スピン)に写像するクラマース・ワニエ変換の直接あるいは後続のリンク変数の非局所性を扱うための2つのアプローチについて検討する。
テンソルネットワーク法を用いて非対称性を計算する数値計算法を開発し, 異なる種類の絡み合いと絡み合い非対称性を示す。
In this work, we explore the interplay of confinement, string breaking and entanglement asymmetry on a 1D quantum Ising chain. We consider the evolution of an initial domain wall and show that, surprisingly, while the introduction of confinement through a longitudinal field typically suppresses entanglement, it can also serve to increase it beyond a bound set for free particles. Our model can be tuned to conserve the number of domain walls, which gives an opportunity to explore entanglement asymmetry associated with link variables. We study two approaches to deal with the non-locality of the link variables, either directly or following a Kramers-Wannier transformation that maps bond variables (kinks) to site variables (spins). We develop a numerical procedure for computing the asymmetry using tensor network methods and use it to demonstrate the different types of entanglement and entanglement asymmetry. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-26 |
# 破滅的干渉の自然緩和--電力系統学習環境における継続的な学習-
Natural Mitigation of Catastrophic Interference: Continual Learning in Power-Law Learning Environments ( http://arxiv.org/abs/2401.10393v3 ) ライセンス: Link先を確認 | Atith Gandhi, Raj Sanjay Shah, Vijay Marupudi, Sashank Varma, | (参考訳) ニューラルネットワークは、しばしば破滅的な干渉(CI)に悩まされる。
これは、従来のタスクを忘れずに新しいタスクを継続的に学習できる人間と強く対照的である。
以前の研究は、CIを緩和し、正規化、リハーサル、生成的リプレイ、コンテキスト固有のコンポーネントといった継続的な学習を促進するための様々なテクニックを探求してきた。
本論文は, 自然科学研究により, 課題に遭遇する確率が, 最期以来のパワーローとして減少することが示唆された。
シミュレーション自然主義学習環境における本質的な緩和に対して,CIの緩和技術は比較されるべきである,と我々は主張する。
そこで我々は,人間と同じような,権力者環境下でのトレーニングモデルにおけるCIの自然緩和の程度を評価する。
以上の結果から,自然リハーサル環境は既存の手法よりもCIを緩和し,より良い評価プロセスの必要性を訴えている。
この環境の利点は、単純さ、タスクとモデルの両方に非依存なリハーサル、追加の神経回路の必要性の欠如である。
さらに,パワーロー環境における一般的な緩和手法を探求し,継続的な学習研究のための新たなベースラインを創出する。
Neural networks often suffer from catastrophic interference (CI): performance on previously learned tasks drops off significantly when learning a new task. This contrasts strongly with humans, who can continually learn new tasks without appreciably forgetting previous tasks. Prior work has explored various techniques for mitigating CI and promoting continual learning such as regularization, rehearsal, generative replay, and context-specific components. This paper takes a different approach, one guided by cognitive science research showing that in naturalistic environments, the probability of encountering a task decreases as a power-law of the time since it was last performed. We argue that techniques for mitigating CI should be compared against the intrinsic mitigation in simulated naturalistic learning environments. Thus, we evaluate the extent of the natural mitigation of CI when training models in power-law environments, similar to those humans face. Our results show that natural rehearsal environments are better at mitigating CI than existing methods, calling for the need for better evaluation processes. The benefits of this environment include simplicity, rehearsal that is agnostic to both tasks and models, and the lack of a need for extra neural circuitry. In addition, we explore popular mitigation techniques in power-law environments to create new baselines for continual learning research. | 翻訳日:2024-08-28 19:58:52 公開日:2024-08-26 |
# LLaVA-Docent:芸術鑑賞教育を支援するマルチモーダル大言語モデルによる授業チューニング
LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education ( http://arxiv.org/abs/2402.06264v2 ) ライセンス: Link先を確認 | Unggi Lee, Minji Jeon, Yunseo Lee, Gyuri Byun, Yoorim Son, Jaeyoon Shin, Hongkyu Ko, Hyeoncheol Kim, | (参考訳) 芸術鑑賞は、学習者の批判的思考と感情的知性を育む上で不可欠である。
しかし、伝統的な美術鑑賞教育は、特に不利な学生の芸術資源へのアクセスが制限されることや、主流の教育におけるSTEMの主題に重点が置かれることによって、しばしば妨げられている。
これらの課題に応えて、最近の技術進歩は革新的な解決策の道を開いた。
本研究では,これらの進歩を生かしたLLaVA-Docentの開発に焦点をあて,マルチモーダル大言語モデル(MLLM)を芸術鑑賞教育に適用することを検討する。
我々のアプローチには、この分野の専門家との総合的な文献レビューとコンサルテーションが含まれ、堅牢なデータフレームワークの開発に繋がった。
このフレームワークを利用して,GPT-4で活用した仮想対話データセットを作成した。
このデータセットは、LLaVA-Docentという名前のMLLMのトレーニングに役立った。
6人の研究者がLLaVA-Docentの定量的および質的な評価を行い、その効果を評価し、数ショットでGPT-4モデルと比較した。
評価結果からLLaVA-Docentモデルの強度と弱点が明らかとなった。
LLaVA-Docentは,美術鑑賞教育のアクセシビリティとエンゲージメントを高めるのに有効である。
本研究は,MLLMの潜在能力を生かして,芸術教育の分野に多大な貢献をし,芸術鑑賞の指導・経験方法を再考する新たな方法論を提案する。
Art appreciation is vital in nurturing critical thinking and emotional intelligence among learners. However, traditional art appreciation education has often been hindered by limited access to art resources, especially for disadvantaged students, and an imbalanced emphasis on STEM subjects in mainstream education. In response to these challenges, recent technological advancements have paved the way for innovative solutions. This study explores the application of multi-modal large language models (MLLMs) in art appreciation education, focusing on developing LLaVA-Docent, a model that leverages these advancements. Our approach involved a comprehensive literature review and consultations with experts in the field, leading to developing a robust data framework. Utilizing this framework, we generated a virtual dialogue dataset that was leveraged by GPT-4. This dataset was instrumental in training the MLLM, named LLaVA-Docent. Six researchers conducted quantitative and qualitative evaluations of LLaVA-Docent to assess its effectiveness, benchmarking it against the GPT-4 model in a few-shot setting. The evaluation process revealed distinct strengths and weaknesses of the LLaVA-Docent model. Our findings highlight the efficacy of LLaVA-Docent in enhancing the accessibility and engagement of art appreciation education. By harnessing the potential of MLLMs, this study makes a significant contribution to the field of art education, proposing a novel methodology that reimagines the way art appreciation is taught and experienced. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-26 |
# 拡張二分分類のための共分散とヘッセン行列の相乗的固有解析
Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification ( http://arxiv.org/abs/2402.09281v2 ) ライセンス: Link先を確認 | Agus Hartoyo, Jan Argasiński, Aleksandra Trenk, Kinga Przybylska, Anna Błasiak, Alessandro Crimi, | (参考訳) 共分散行列とヘッセン行列は、分類問題に関する文献の中で別々に分析されている。
しかし、これらの行列の統合は、分類性能を向上させるために、それらの組み合わせのパワーを高める可能性がある。
本稿では,2進分類タスクにおいて最適なクラス分離性を実現するために,学習セットで評価した共分散行列の固有解析と深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
我々のアプローチは、クラス平均距離を最大化し、クラス内分散を最小化する能力を確立する形式的な証明によって裏付けられている。
両行列から最も関連性の高い固有方向の組合せ空間にデータを投影することにより、線形判別分析(LDA)基準に従って最適なクラス分離性が得られる。
ニューラルネットワークと健康データセット間の実証検証は、我々の理論的枠組みを一貫してサポートし、我々の手法が確立された手法より優れていることを示す。
本手法は,PCA法とヘッセン法と異なり,LDA基準の双方に対処することで際立っている。
この包括的なアプローチは複雑なパターンと関係を捉え、分類性能を向上する。
さらに,両LDA基準の活用により,高次元の特徴空間を利用してLDA自体よりも優れており,高次元の線形分離性を好むCoverの定理に則っている。
また,本手法は性能においてカーネルベースの手法や多様体学習手法を超越している。
さらに、我々のアプローチは複雑なDNNの意思決定に光を当て、それらを2D空間内で理解できるようにする。
Covariance and Hessian matrices have been analyzed separately in the literature for classification problems. However, integrating these matrices has the potential to enhance their combined power in improving classification performance. We present a novel approach that combines the eigenanalysis of a covariance matrix evaluated on a training set with a Hessian matrix evaluated on a deep learning model to achieve optimal class separability in binary classification tasks. Our approach is substantiated by formal proofs that establish its capability to maximize between-class mean distance and minimize within-class variances, particularly under ideal data conditions such as isotropy around class means and dominant leading eigenvalues. By projecting data into the combined space of the most relevant eigendirections from both matrices, we achieve optimal class separability as per the linear discriminant analysis (LDA) criteria. Empirical validation across neural and health datasets consistently supports our theoretical framework and demonstrates that our method outperforms established methods. Our method stands out by addressing both LDA criteria, unlike PCA and the Hessian method, which predominantly emphasize one criterion each. This comprehensive approach captures intricate patterns and relationships, enhancing classification performance. Furthermore, through the utilization of both LDA criteria, our method outperforms LDA itself by leveraging higher-dimensional feature spaces, in accordance with Cover's theorem, which favors linear separability in higher dimensions. Our method also surpasses kernel-based methods and manifold learning techniques in performance. Additionally, our approach sheds light on complex DNN decision-making, rendering them comprehensible within a 2D space. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-26 |
# 大N配位におけるSU(3)格子型ヤンミルの理論の量子シミュレーション
Quantum Simulation of SU(3) Lattice Yang Mills Theory at Leading Order in Large N ( http://arxiv.org/abs/2402.10265v4 ) ライセンス: Link先を確認 | Anthony N. Ciavarella, Christian W. Bauer, | (参考訳) QCDの力学の量子シミュレーションは、連続ゲージ場を量子コンピュータにマッピングする複雑さによって制限されてきた。
ゲージ不変ヒルベルト空間をプラケットの次数でパラメータ化することにより、ヒルベルト空間と相互作用がN_cの逆数でどのように拡張されるかを示す。
この展開の先頭の順序において、ハミルトニアンはヒルベルト空間の必要な大きさと関連する相互作用のタイプの両方において劇的に単純化される。
局所エネルギー状態の観点で結果のヒルベルト空間の切り離しを加えることで、u(3)ゲージ場をクォービットおよびクォートリット上で単純に表現できる明示的な構成を与える。
この定式化により、CNOT深さ113のibm_torino上の5x5および8x8格子上のSU(3)格子ゲージ理論のリアルタイムダイナミクスのシミュレーションが可能になる。
Quantum simulations of the dynamics of QCD have been limited by the complexities of mapping the continuous gauge fields onto quantum computers. By parametrizing the gauge invariant Hilbert space in terms of plaquette degrees of freedom, we show how the Hilbert space and interactions can be expanded in inverse powers of N_c. At leading order in this expansion, the Hamiltonian simplifies dramatically, both in the required size of the Hilbert space as well as the type of interactions involved. Adding a truncation of the resulting Hilbert space in terms of local energy states we give explicit constructions that allow simple representations of SU(3) gauge fields on qubits and qutrits. This formulation allows a simulation of the real time dynamics of a SU(3) lattice gauge theory on a 5x5 and 8x8 lattice on ibm_torino with a CNOT depth of 113. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-26 |
# 有限サイズJanes-Cummings格子における状態形成のための量子ショートカット
Quantum Shortcut to Adiabaticity for State Preparation in a Finite-Sized Jaynes-Cummings Lattice ( http://arxiv.org/abs/2402.12485v2 ) ライセンス: Link先を確認 | Kang Cai, Prabin Parajuli, Anuvetha Govindarajan, Lin Tian, | (参考訳) ノイズの多い量子系では、アディバティックアプローチによる高忠実度状態の準備を達成することはジレンマに直面し、進化時間を拡張してダイアバティック遷移を減らすか、デコヒーレンス効果を緩和するために短縮するかのいずれかである。
本稿では, 有限サイズのJanes-Cummings格子において, 与えられた断熱軌道に沿って, 反断熱駆動(CD)を適用して, 状態準備のための量子ショートカットを提案する。
系の固有状態の対称性を活用して、我々はCD駆動を1つの偏光子励起を持つ2つのサイト格子に対して局所的なクビット・キャビティカップリングのみを含む実装可能なハミルトニアンに変換する。
さらに、2つの励起を持つ格子に対するCD駆動の部分解析形式を導出する。
シミュレーションの結果,回路誤差や環境騒音が実測条件下での計画に無視できる影響があることが判明した。
また,提案手法は,量子ビット演算子の検出によって特徴付けられることを示す。
この手法は,従来の断熱法と比較して,時間スケールが大幅に短縮され,高忠実度状態の調製が期待できる経路となる可能性がある。
In noisy quantum systems, achieving high-fidelity state preparation using the adiabatic approach faces a dilemma: either extending the evolution time to reduce diabatic transitions or shortening it to mitigate decoherence effects. Here, we present a quantum shortcut to adiabaticity for state preparation in a finite-sized Jaynes-Cummings lattice by applying counter-diabatic (CD) driving along given adiabatic trajectories. Leveraging the symmetry of eigenstates in our system, we convert the CD driving to an implementable Hamiltonian that only involves local qubit-cavity couplings for a two-site lattice with one polariton excitation. Additionally, we derive a partial analytical form of the CD driving for the lattice with two excitations. Our numerical results demonstrate that circuit errors and environmental noise have negligible effects on our scheme under practical parameters. We also show that our scheme can be characterized through the detection of qubit operators. This approach can lead to a promising pathway to high-fidelity state preparation in a significantly reduced timescale when compared to conventional adiabatic methods. | 翻訳日:2024-08-28 19:49:00 公開日:2024-08-26 |
# Customize-A-Video: テキスト・ビデオ拡散モデルのワンショットモーションカスタマイズ
Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models ( http://arxiv.org/abs/2402.14780v2 ) ライセンス: Link先を確認 | Yixuan Ren, Yang Zhou, Jimei Yang, Jing Shi, Difan Liu, Feng Liu, Mingi Kwon, Abhinav Shrivastava, | (参考訳) 画像のカスタマイズはテキスト・ツー・イメージ(T2I)拡散モデルで広く研究され、印象的な結果と応用をもたらした。
テキスト・ツー・ビデオ拡散モデル(T2V)の出現に伴い、その時間的対応であるモーション・カスタマイズは未だ十分に研究されていない。
ワンショットビデオモーションカスタマイズの課題に対処するために,単一参照ビデオからのモーションをモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
時間的注意層上でのローランク適応(LoRA)を利用して、特定の動きモデリングのために事前訓練されたT2V拡散モデルを調整する。
トレーニング中における空間的・時間的情報を切り離すために,動作学習に先立って,参照映像から本来の外観を逸脱する外観吸収体の概念を導入する。
提案したモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、カスタムビデオ生成や編集、ビデオの外観のカスタマイズ、複数モーションの組み合わせなど、さまざまな下流タスクへの拡張が容易になる。
私たちのプロジェクトページはhttps://customize-a-video.github.io.comにある。
Image customization has been extensively studied in text-to-image (T2I) diffusion models, leading to impressive outcomes and applications. With the emergence of text-to-video (T2V) diffusion models, its temporal counterpart, motion customization, has not yet been well investigated. To address the challenge of one-shot video motion customization, we propose Customize-A-Video that models the motion from a single reference video and adapts it to new subjects and scenes with both spatial and temporal varieties. It leverages low-rank adaptation (LoRA) on temporal attention layers to tailor the pre-trained T2V diffusion model for specific motion modeling. To disentangle the spatial and temporal information during training, we introduce a novel concept of appearance absorbers that detach the original appearance from the reference video prior to motion learning. The proposed modules are trained in a staged pipeline and inferred in a plug-and-play fashion, enabling easy extensions to various downstream tasks such as custom video generation and editing, video appearance customization and multiple motion combination. Our project page can be found at https://customize-a-video.github.io. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-26 |
# 新しい損失関数を訓練したトランスフォーマーとRNNを用いた哺乳類タンパク質のO-GlcNA細胞化部位の予測
Predicting O-GlcNAcylation Sites in Mammalian Proteins with Transformers and RNNs Trained with a New Loss Function ( http://arxiv.org/abs/2402.17131v2 ) ライセンス: Link先を確認 | Pedro Seber, | (参考訳) グリコシル化(グリコシル化、英: Glycosylation)は、タンパク質の修飾である。
グリコシル化のサブタイプであるO-GlcNAcylationは治療の標的となる可能性があるが、O-GlcNAcylation部位を確実に予測する方法は2023年まで利用できなかった。
さらに、多くはもはや使用できない。
2023年、F$_1$スコアが36.17%、MCCが34.57%のかなり優れたRNNモデルが発表された。
この記事はまず、トランスフォーマーエンコーダを使ってこれらのメトリクスを改善することを試みた。
トランスフォーマーはこのデータセットで高いパフォーマンスを示したが、その性能は以前公開されたRNNよりも劣っていた。
そこで我々は、重み付き焦点微分可能MCCと呼ばれる新しい損失関数を作成し、分類モデルの性能を向上させる。
この新しい関数で訓練されたRNNモデルは、重み付きクロスエントロピー損失を用いて訓練されたモデルよりも優れた性能を示す。
この損失でトレーニングされた2セルRNNは、O-GlcNAcylationサイトの予測において、F$_1$スコア38.88%、MCC38.20%の最先端のパフォーマンスを達成する。
Glycosylation, a protein modification, has multiple essential functional and structural roles. O-GlcNAcylation, a subtype of glycosylation, has the potential to be an important target for therapeutics, but methods to reliably predict O-GlcNAcylation sites had not been available until 2023; a 2021 review correctly noted that published models were insufficient and failed to generalize. Moreover, many are no longer usable. In 2023, a considerably better RNN model with an F$_1$ score of 36.17% and an MCC of 34.57% on a large dataset was published. This article first sought to improve these metrics using transformer encoders. While transformers displayed high performance on this dataset, their performance was inferior to that of the previously published RNN. We then created a new loss function, which we call the weighted focal differentiable MCC, to improve the performance of classification models. RNN models trained with this new function display superior performance to models trained using the weighted cross-entropy loss; this new function can also be used to fine-tune trained models. A two-cell RNN trained with this loss achieves state-of-the-art performance in O-GlcNAcylation site prediction with an F$_1$ score of 38.88% and an MCC of 38.20% on that large dataset. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-26 |
# RAVEL:分散言語モデル表現における解釈可能性の評価
RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations ( http://arxiv.org/abs/2402.17700v2 ) ライセンス: Link先を確認 | Jing Huang, Zhengxuan Wu, Christopher Potts, Mor Geva, Atticus Geiger, | (参考訳) 個々のニューロンは複数のハイレベルな概念の表現に関与している。
どのようにして異なる解釈可能性法がこれらの役割を解き放つことができるのか?
この問題に対処するために,既存の様々な解釈可能性手法間の厳密に制御された定量的な比較を可能にするデータセットであるRAVEL(Resolving Attribute-Value Entanglements in Language Models)を導入する。
提案手法は,マルチタスク分散アライメントサーチ (MDAS) の新たな手法を定義し,複数の因果基準を満たす分散表現の発見を可能にする。
Llama2-7Bをターゲット言語モデルとして、MDASはRAVELの最先端の成果を達成し、ニューロンレベルの解析を超えてアクティベーションに分散した特徴を特定することが重要であることを示した。
ベンチマークはhttps://github.com/explanare/ravel.comで公開しています。
Individual neurons participate in the representation of multiple high-level concepts. To what extent can different interpretability methods successfully disentangle these roles? To help address this question, we introduce RAVEL (Resolving Attribute-Value Entanglements in Language Models), a dataset that enables tightly controlled, quantitative comparisons between a variety of existing interpretability methods. We use the resulting conceptual framework to define the new method of Multi-task Distributed Alignment Search (MDAS), which allows us to find distributed representations satisfying multiple causal criteria. With Llama2-7B as the target language model, MDAS achieves state-of-the-art results on RAVEL, demonstrating the importance of going beyond neuron-level analyses to identify features distributed across activations. We release our benchmark at https://github.com/explanare/ravel. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-26 |
# フェデレート設定における因果多ラベル特徴選択
Causal Multi-Label Feature Selection in Federated Setting ( http://arxiv.org/abs/2403.06419v2 ) ライセンス: Link先を確認 | Yukun Song, Dayuan Cao, Jiali Miao, Shuai Yang, Kui Yu, | (参考訳) マルチラベル特徴選択は、高次元のマルチラベルデータを扱う効果的な手段となる。
良好な性能を達成するために、既存のマルチラベル特徴選択法では、複数のソースから大量のデータを集中化する必要があることが多い。
しかしながら、フェデレーション設定では、すべてのソースからデータを集中化し、それらを単一のデータセットにマージすることは不可能である。
本稿では,フェデレーション設定における因果多ラベル特徴選択の課題について検討し,フェデレーション因果多ラベル特徴選択(Federated Causal Multi-label Feature Selection, FedCMFS)アルゴリズムを3つの新しいサブルーチンで提案する。
具体的には、FedCMFSが最初にFedCFLサブルーチンを使用して、ラベルラベル、ラベル機能、機能機能間の相関を考慮し、各クラスラベルの関連する機能(候補の両親と子供)を学習し、データのプライバシを中央集権化せずに保持する。
第二に、FedCMFSはFedCFRサブルーチンを使用して、紛失した真の関連する機能を選択的に回収する。
最後に、FedCMFSはFedCFCサブルーチンを使用して、偽の関連機能を除去する。
8つのデータセットに対する広範な実験により、FedCMFSはフェデレーション環境での因果多ラベル特徴の選択に有効であることが示された。
Multi-label feature selection serves as an effective mean for dealing with high-dimensional multi-label data. To achieve satisfactory performance, existing methods for multi-label feature selection often require the centralization of substantial data from multiple sources. However, in Federated setting, centralizing data from all sources and merging them into a single dataset is not feasible. To tackle this issue, in this paper, we study a challenging problem of causal multi-label feature selection in federated setting and propose a Federated Causal Multi-label Feature Selection (FedCMFS) algorithm with three novel subroutines. Specifically, FedCMFS first uses the FedCFL subroutine that considers the correlations among label-label, label-feature, and feature-feature to learn the relevant features (candidate parents and children) of each class label while preserving data privacy without centralizing data. Second, FedCMFS employs the FedCFR subroutine to selectively recover the missed true relevant features. Finally, FedCMFS utilizes the FedCFC subroutine to remove false relevant features. The extensive experiments on 8 datasets have shown that FedCMFS is effect for causal multi-label feature selection in federated setting. | 翻訳日:2024-08-28 19:39:16 公開日:2024-08-26 |
# 拡散モデルによるモンテカルロレンダのノイズ化
Denoising Monte Carlo Renders with Diffusion Models ( http://arxiv.org/abs/2404.00491v2 ) ライセンス: Link先を確認 | Vaibhav Vavilala, Rahul Vasanth, David Forsyth, | (参考訳) 物理的にベースとしたレンダリングはモンテカルロノイズを含み、ピクセル当たりの光の数が減少するにつれてばらつきが増す。
このノイズは、良いモダンなレンダラーにはゼロ平均でありながら、重い尾(特にスペックや屈折性のある物体を含むシーン)を持つことができる。
低忠実度レンダリングを復元するための学習手法は、レンダリングノイズを抑えることは、計算を節約し、1ピクセルあたりの光量が少ない高速レンダリングを使用することを意味するため、高度に開発されている。
拡散モデルが低忠実度レンダリングをうまく認知できることを実証する。
さらに,本手法は様々な自然なレンダリング情報に対して条件付けが可能であり,この条件付けにより性能が向上する。
定量的実験により,本手法はサンプリングレートの範囲でSOTAと競合することが示された。
再現の質的な検証は、拡散法で事前に適用された画像は、実際の画像と同様の復元を強く好んでいることを示唆している。
Physically-based renderings contain Monte-Carlo noise, with variance that increases as the number of rays per pixel decreases. This noise, while zero-mean for good modern renderers, can have heavy tails (most notably, for scenes containing specular or refractive objects). Learned methods for restoring low fidelity renders are highly developed, because suppressing render noise means one can save compute and use fast renders with few rays per pixel. We demonstrate that a diffusion model can denoise low fidelity renders successfully. Furthermore, our method can be conditioned on a variety of natural render information, and this conditioning helps performance. Quantitative experiments show that our method is competitive with SOTA across a range of sampling rates. Qualitative examination of the reconstructions suggests that the image prior applied by a diffusion method strongly favors reconstructions that are like real images -- so have straight shadow boundaries, curved specularities and no fireflies. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-26 |
# CMAT: 小規模言語モデルの強化のためのマルチエージェントコラボレーションチューニングフレームワーク
CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models ( http://arxiv.org/abs/2404.01663v3 ) ライセンス: Link先を確認 | Xuechen Liang, Meiling Tao, Yinghui Xia, Tianyu Shi, Jun Wang, JingSong Yang, | (参考訳) オープンな大規模言語モデル(LLM)は、自然言語処理の分野を著しく進歩させ、様々なタスクにおいて印象的なパフォーマンスを示しているが、LLMの大幅な進歩にもかかわらず、その効果的な操作は、対話の流れを正確に導くために人間の入力に大きく依存している。
また,環境フィードバックに基づく適応重み更新による言語エージェントの能力向上を目的とした,協調型マルチエージェントチューニング(CMAT)フレームワークを提案する。
このフレームワークは、複数の知的エージェント間の協調学習とリアルタイム適応を促進し、コンテキスト認識と長期記憶を高める。
本研究では,マルチエージェントシステムと環境フィードバック機構を統合し,協調動作を探索するスケーラブルな手法を提供する通信エージェントフレームワークを提案する。
特に,我々のTinyAgent-7Bモデルは,パラメータが少ないにもかかわらず,GPT-3.5と同等の性能を示し,LCMの効率と有効性を大幅に向上させることを示す。
Open large language models (LLMs) have significantly advanced the field of natural language processing, showcasing impressive performance across various tasks.Despite the significant advancements in LLMs, their effective operation still relies heavily on human input to accurately guide the dialogue flow, with agent tuning being a crucial optimization technique that involves human adjustments to the model for better response to such guidance.Addressing this dependency, our work introduces the TinyAgent model, trained on a meticulously curated high-quality dataset. We also present the Collaborative Multi-Agent Tuning (CMAT) framework, an innovative system designed to augment language agent capabilities through adaptive weight updates based on environmental feedback. This framework fosters collaborative learning and real-time adaptation among multiple intelligent agents, enhancing their context-awareness and long-term memory. In this research, we propose a new communication agent framework that integrates multi-agent systems with environmental feedback mechanisms, offering a scalable method to explore cooperative behaviors. Notably, our TinyAgent-7B model exhibits performance on par with GPT-3.5, despite having fewer parameters, signifying a substantial improvement in the efficiency and effectiveness of LLMs. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-26 |
# アクティベーション規則化による言語モデル量子化における外部チャネルの影響の緩和
Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization ( http://arxiv.org/abs/2404.03605v2 ) ライセンス: Link先を確認 | Aniruddha Nrusimha, Mayank Mishra, Naigang Wang, Dan Alistarh, Rameswar Panda, Yoon Kim, | (参考訳) 重みとアクティベーションが一様にパラメータ毎に4ビットに量子化され、GPUハードウェアがネイティブにサポートしている最下位ビット幅フォーマットである言語モデルの正確な量子化の問題を考察する。
この文脈では、アクティベーション量子化が鍵となる課題である: 言語モデルには、平均値が他のチャネルよりも桁違いに高い外部チャネルが含まれていることが知られており、既知の技術による正確な低ビット幅量子化を防止する。
我々はこの現象を体系的に研究し、トレーニングの初期段階にこれらの異常チャネルが出現し、残留ストリームを持つ層でより頻繁に発生することを発見した。
そこで我々は,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する簡単な戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"することを防ぐために重要であり、これにより重みのポストトレーニング量子化(PTQ)がより困難になることを示す。
重み付きPTQと組み合わせることで,標準精度のW16A16ベースラインと競合するW4A4モデルが得られることを示す。
We consider the problem of accurate quantization for language models, where both the weights and activations are uniformly quantized to 4 bits per parameter, the lowest bitwidth format natively supported by GPU hardware. In this context, the key challenge is activation quantization: it is known that language models contain outlier channels whose values on average are orders of magnitude higher than than other channels, which prevents accurate low-bitwidth quantization with known techniques. We systematically study this phenomena and find that these outlier channels emerge early in training, and that they occur more frequently in layers with residual streams. We then propose a simple strategy which regularizes a layer's inputs via quantization-aware training (QAT) and its outputs via activation kurtosis regularization. We show that regularizing both the inputs and outputs is crucial for preventing a model's "migrating" the difficulty in input quantization to the weights, which makes post-training quantization (PTQ) of weights more difficult. When combined with weight PTQ, we show that our approach can obtain a W4A4 model that performs competitively to the standard-precision W16A16 baseline. | 翻訳日:2024-08-28 19:29:21 公開日:2024-08-26 |
# 量子力学の複素確率最適制御基礎
Complex Stochastic Optimal Control Foundation of Quantum Mechanics ( http://arxiv.org/abs/2404.15964v4 ) ライセンス: Link先を確認 | Vasil Yordanov, | (参考訳) 近年の研究は、量子力学方程式を導出するための複素変数を含む確率的ハミルトン・ヤコビ・ベルマン方程式(HJB)の使用を拡張している。
しかしながら、これらの研究は HJB 方程式を直接複素数に適用することは有効であると仮定することが多い。
本稿では,複素変数の文脈におけるHJB方程式の適用について検討する。
これは、確率的最適制御理論の枠組みにおける量子粒子の確率的運動に関する詳細な研究を提供する。
コーシー・リーマンの定理を用いて、運動の確率方程式における複素拡散係数を求め、粒子の確率運動は2つの完全に相関した実数および虚数的確率過程によって記述される。
HJB方程式の共変形式の開発において、2つの過程の時間的確率的増分が完全に相関している場合、空間的確率的増分は完全に反相関的でなければならないことを示す。
私たちが導いた拡散係数は、HJB方程式の線形化を可能にする形式を持つ。
HJB方程式を線形化する方法は、ディラック方程式のその後の導出とともに、我々の以前の研究(V. Yordanov, Scientific Reports 14 6507 (2024)]で開発されている。
これらの知見は量子力学の理解を深め、確率的最適制御理論の量子力学への応用を強化する。
Recent studies extend the use of the stochastic Hamilton-Jacobi-Bellman (HJB) equation to include complex variables for deriving quantum mechanical equations. However, these studies often assume that it is valid to apply the HJB equation directly to complex numbers, an approach that overlooks the fundamental problem of comparing complex numbers when finding optimal controls. This paper explores the application of the HJB equation in the context of complex variables. It provides an in-depth investigation of the stochastic movement of quantum particles within the framework of stochastic optimal control theory. We obtain the complex diffusion coefficient in the stochastic equation of motion using the Cauchy-Riemann theorem, considering that the particle's stochastic movement is described by two perfectly correlated real and imaginary stochastic processes. During the development of the covariant form of the HJB equation, we demonstrate that if the temporal stochastic increments of the two processes are perfectly correlated, then the spatial stochastic increments must be perfectly anti-correlated, and vice versa. The diffusion coefficient we derive has a form that enables the linearization of the HJB equation. The method for linearizing the HJB equation, along with the subsequent derivation of the Dirac equation, is developed in our previous work [V. Yordanov, Scientific Reports 14, 6507 (2024)]. These insights deepen our understanding of quantum dynamics and enhance the application of stochastic optimal control theory to quantum mechanics. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-26 |
# プロンプト回帰によるプロンプト探査
Prompt Exploration with Prompt Regression ( http://arxiv.org/abs/2405.11083v2 ) ライセンス: Link先を確認 | Michael Feffer, Ronald Xu, Yuekai Sun, Mikhail Yurochkin, | (参考訳) 大規模言語モデル (LLMs) の民主化利用の出現では、反復的試行錯誤を超えて、LCMの迅速な作成と選択プロセスを体系化したいという願望が高まっている。
先行研究は、プロンプト間の関係を考慮せずにプロンプトの空間の探索に重点を置いている。
本稿では,個別のプロンプト要素に対するプロンプト組み合わせの効果を予測するためのフレームワークであるPrompt Exploration with Prompt Regression(PEPR)と,与えられたユースケースに対して有効なプロンプトを選択する簡単な方法を提案する。
我々は,複数の異なるタスクに対して,異なるサイズのオープンソースLLMを用いてアプローチを評価した。
In the advent of democratized usage of large language models (LLMs), there is a growing desire to systematize LLM prompt creation and selection processes beyond iterative trial-and-error. Prior works majorly focus on searching the space of prompts without accounting for relations between prompt variations. Here we propose a framework, Prompt Exploration with Prompt Regression (PEPR), to predict the effect of prompt combinations given results for individual prompt elements as well as a simple method to select an effective prompt for a given use-case. We evaluate our approach with open-source LLMs of different sizes on several different tasks. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-26 |
# 量子重力の計測について
On the measurements in Quantum Gravity ( http://arxiv.org/abs/2405.16017v2 ) ライセンス: Link先を確認 | Juanca Carrasco-Martinez, | (参考訳) このエッセイでは、測定の特定の側面は量子重力の修正を必要とすると論じる。
エントロピックな議論を用いて、測定結果の数と測定精度(または範囲)は、観測者スケールに関連するブラックホールのエントロピーによって制限される。
これはまた、可観測物の有限表現を保証するために可換関係の代数を変更する必要があることを示し、この方法でハイゼンベルクの不確実性原理を変更する。
In this essay, we argue that certain aspects of the measurement require revision in Quantum Gravity. Using entropic arguments, we propose that the number of measurement outcomes and the accuracy (or the range) of the measurement are limited by the entropy of the black hole associated with the observer scale. This also implies the necessity of modifying the algebra of commutation relationships to ensure a finite representation of observables, changing the Heisenberg Uncertainty Principle in this manner. | 翻訳日:2024-08-28 19:19:38 公開日:2024-08-26 |
# 系列長によるデルタ則を用いた線形変換器の並列化
Parallelizing Linear Transformers with the Delta Rule over Sequence Length ( http://arxiv.org/abs/2406.06484v2 ) ライセンス: Link先を確認 | Songlin Yang, Bailin Wang, Yu Zhang, Yikang Shen, Yoon Kim, | (参考訳) 線形アテンションを持つ変圧器(リニアトランス)と状態空間モデル(英語版)は、近年、ソフトマックスアテンションを持つ変圧器の線形時間代替品として提案されている。
しかし、これらのモデルは、特にコンテキスト内検索を必要とするタスクにおいて、トランスフォーマーを過小評価している。
線形変圧器における付加的な外積更新をデルタ則に置き換えたより表現力のある線形変圧器は、連想的リコールにおいてより効果的であることが示されているが、そのようなモデルの既存の訓練アルゴリズムはシーケンス長を並列化せず、現代のハードウェアでトレーニングする非効率である。
本研究は,線形変圧器をデルタ則で訓練するハードウェア効率のアルゴリズムについて述べる。
このアルゴリズムにより、DeltaNetを標準言語モデリング設定にスケールアップできます。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、ダウンストリームタスク(リコールにフォーカスしたタスクを含む)におけるパープレキシティとゼロショットパフォーマンスの観点から、MambaやGLAといった最近の線形時間ベースラインよりも優れていることを発見した。
また,(1)スライドウインドウの注意層を他の層すべてに組み合わせた2つのハイブリッドモデルや(2)グローバルな注意層を試作し,これらのハイブリッドモデルが強いトランスフォーマーベースラインを上回っていることを見出した。
Transformers with linear attention (i.e., linear transformers) and state-space models have recently been suggested as a viable linear-time alternative to transformers with softmax attention. However, these models still underperform transformers especially on tasks that require in-context retrieval. While more expressive variants of linear transformers which replace the additive outer-product update in linear transformers with the delta rule have been found to be more effective at associative recall, existing algorithms for training such models do not parallelize over sequence length and are thus inefficient to train on modern hardware. This work describes a hardware-efficient algorithm for training linear transformers with the delta rule, which exploits a memory-efficient representation for computing products of Householder matrices. This algorithm allows us to scale up DeltaNet to standard language modeling settings. We train a 1.3B model for 100B tokens and find that it outperforms recent linear-time baselines such as Mamba and GLA in terms of perplexity and zero-shot performance on downstream tasks (including on tasks that focus on recall). We also experiment with two hybrid models which combine DeltaNet layers with (1) sliding-window attention layers every other layer or (2) two global attention layers, and find that these hybrid models outperform strong transformer baselines. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-26 |
# Quest: 長期LLMの効率的な推論のためのクエリ対応スポーサリティ
Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference ( http://arxiv.org/abs/2406.10774v2 ) ライセンス: Link先を確認 | Jiaming Tang, Yilong Zhao, Kan Zhu, Guangxuan Xiao, Baris Kasikci, Song Han, | (参考訳) 長文大言語モデル(LLM)の需要が増大するにつれて、最大128Kまたは1Mトークンのコンテキストウィンドウを持つモデルはますます広まりつつある。
しかし、長文LLM推論は、シーケンス長が大きくなるにつれて推論速度が大幅に低下するため、困難である。
このスローダウンは、主に自己アテンション中に大きなKVキャッシュをロードすることに起因する。
以前の研究では、重要なトークンのごく一部が注意結果を支配していることが示されている。
しかし,トークンの臨界度はクエリに大きく依存している。
そこで本研究では,クエリ対応のKVキャッシュ選択アルゴリズムであるQuestを提案する。
Questは、KVキャッシュページ内の最小かつ最大キー値を追跡し、クエリベクタを使用して、所定のページの臨界度を推定する。
注意のためにTop-KクリティカルなKVキャッシュページだけをロードすることで、Questは正確さを犠牲にすることなく、自己アテンションを大幅に高速化する。
Questは最大2.23倍のセルフアテンションスピードアップを実現でき、推論の遅延を7.03倍削減できると同時に、無視できる精度の損失のある長いタスクでも良好に動作可能であることを示す。
コードはhttp://github.com/mit-han-lab/Questで入手できる。
As the demand for long-context large language models (LLMs) increases, models with context windows of up to 128K or 1M tokens are becoming increasingly prevalent. However, long-context LLM inference is challenging since the inference speed decreases significantly as the sequence length grows. This slowdown is primarily caused by loading a large KV cache during self-attention. Previous works have shown that a small portion of critical tokens will dominate the attention outcomes. However, we observe the criticality of a token highly depends on the query. To this end, we propose Quest, a query-aware KV cache selection algorithm. Quest keeps track of the minimal and maximal Key values in KV cache pages and estimates the criticality of a given page using Query vectors. By only loading the Top-K critical KV cache pages for attention, Quest significantly speeds up self-attention without sacrificing accuracy. We show that Quest can achieve up to 2.23x self-attention speedup, which reduces inference latency by 7.03x while performing well on tasks with long dependencies with negligible accuracy loss. Code is available at http://github.com/mit-han-lab/Quest . | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-26 |
# 超伝導量子デバイスにおける非線形光学過程のシミュレーション
Simulating nonlinear optical processes on a superconducting quantum device ( http://arxiv.org/abs/2406.13003v2 ) ライセンス: Link先を確認 | Yuan Shi, Bram Evert, Amy F. Brown, Vinay Tripathi, Eyob A. Sete, Vasily Geyko, Yujin Cho, Jonathan L DuBois, Daniel Lidar, Ilon Joseph, Matt Reagor, | (参考訳) 量子コンピュータにおけるプラズマ物理のシミュレーションは、関心のほとんどの問題は非線形であるから難しいが、量子コンピュータは自然に非線形演算に適していない。
弱い非線形状態においては、プラズマ問題は波動-波動相互作用としてモデル化できる。
本稿では,非線形波動相互作用問題をハミルトンシミュレーション問題に変換する量子化手法を開発する。
超伝導デバイス上で2つの量子ビットを用いたアプローチを実証する。
フォトニックデバイスとは異なり、超伝導デバイスは自然界のハミルトニアンにおいて望まれる相互作用を持たない。
それでも、ハミルトニアンシミュレーションは、必要なユニタリ演算をネイティブゲートに分解することで実行することができる。
実験結果を改善するために,我々は様々な誤差軽減手法を採用した。
読み出し誤りの軽減とは別に、ランダム化されたコンパイルを用いて、未診断のコヒーレントなエラーをよく知られた確率的パウリチャネルに変換する。
さらに,確率的雑音を補償するために,サイクルベンチマークから測定した速度を用いて指数関数的に減衰する確率振幅を再スケールする。
製品形式アルゴリズムの異なる選択が全体的なエラーにどのように影響するかを慎重に検討し、限られた量子リソースを最大限に活用するために、トレードオフをどのように行うかを示す。
この研究は、プラズマが量子コンピューティングプラットフォーム上でどのように解決されるかの例を示す。
Simulating plasma physics on quantum computers is difficult because most problems of interest are nonlinear, but quantum computers are not naturally suitable for nonlinear operations. In weakly nonlinear regimes, plasma problems can be modeled as wave-wave interactions. In this paper, we develop a quantization approach to convert nonlinear wave-wave interaction problems to Hamiltonian simulation problems. We demonstrate our approach using two qubits on a superconducting device. Unlike a photonic device, a superconducting device does not naturally have the desired interactions in its native Hamiltonian. Nevertheless, Hamiltonian simulations can still be performed by decomposing required unitary operations into native gates. To improve experimental results, we employ a range of error mitigation techniques. Apart from readout error mitigation, we use randomized compilation to transform undiagnosed coherent errors into well-behaved stochastic Pauli channels. Moreover, to compensate for stochastic noise, we rescale exponentially decaying probability amplitudes using rates measured from cycle benchmarking. We carefully consider how different choices of product-formula algorithms affect the overall error and show how a trade-off can be made to best utilize limited quantum resources. This study provides an example of how plasma problems may be solved on near-term quantum computing platforms. | 翻訳日:2024-08-28 19:09:27 公開日:2024-08-26 |
# Image-to-Text Logic Jailbreak:イマジネーションは何でもできる
Image-to-Text Logic Jailbreak: Your Imagination can Help You Do Anything ( http://arxiv.org/abs/2407.02534v2 ) ライセンス: Link先を確認 | Xiaotian Zou, Ke Li, Yongkang Chen, | (参考訳) GPT-4Vのような大規模なビジュアル言語モデル\textbfs (VLM) は、包括的でニュアンスのある応答を生成することに成功している。
研究者は、VLMの能力を評価するための様々なベンチマークを提案している。
VLMへの視覚的入力とテキスト入力の統合により、悪意のある攻撃者が目的を達成するために複数のモダリティを活用できるため、新たなセキュリティ問題が発生する。
これにより、VLMのジェイルブレイクに対する脆弱性に対する関心が高まった。
既存の研究は、これらのモデルをジェイルブレイクするために、敵対的な画像や非感覚的な画像を生成することに重点を置いている。
しかし、フローチャートにおけるVLMの論理理解能力がジェイルブレイクに影響を及ぼすかどうかを研究者は評価していない。
そこで本研究では,このギャップを埋めるために,VLMの論理ベースのフローチャートジェイルブレイク機能を評価するために設計された,新しいデータセットFlow-JDを提案する。
我々は、GPT-4o、GPT-4V、その他の5つのSOTAオープンソースVLMに対して広範囲に評価を行い、ジェイルブレイク率は92.8%である。
我々の研究は、画像からテキストへのジェイルブレイクに関する現在のVLMの重大な脆弱性を明らかにし、これらの発見は、堅牢で効果的な将来の防衛を開発する上での緊急性を強調している。
Large Visual Language Model\textbfs (VLMs) such as GPT-4V have achieved remarkable success in generating comprehensive and nuanced responses. Researchers have proposed various benchmarks for evaluating the capabilities of VLMs. With the integration of visual and text inputs in VLMs, new security issues emerge, as malicious attackers can exploit multiple modalities to achieve their objectives. This has led to increasing attention on the vulnerabilities of VLMs to jailbreak. Most existing research focuses on generating adversarial images or nonsensical image to jailbreak these models. However, no researchers evaluate whether logic understanding capabilities of VLMs in flowchart can influence jailbreak. Therefore, to fill this gap, this paper first introduces a novel dataset Flow-JD specifically designed to evaluate the logic-based flowchart jailbreak capabilities of VLMs. We conduct an extensive evaluation on GPT-4o, GPT-4V, other 5 SOTA open source VLMs and the jailbreak rate is up to 92.8%. Our research reveals significant vulnerabilities in current VLMs concerning image-to-text jailbreak and these findings underscore the the urgency for the development of robust and effective future defenses. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-26 |
# 科学画像における大きなテンソルの扱いは
qlty: handling large tensors in scientific imaging ( http://arxiv.org/abs/2407.04920v2 ) ライセンス: Link先を確認 | Petrus Zwart, | (参考訳) 科学的イメージングにおいて、ディープラーニングは画像分析の重要なツールとなっている。
しかし、標準的なGPUのメモリ容量を超える大きなボリュームデータセットを扱うには、ディープラーニングの取り組みに従わなければならない。
本稿では、テンソル管理技術を用いてこれらの課題に対処するツールキットであるqltyを紹介する。
qltyは、大規模な空間データのサブサンプリング、クリーニング、縫合のための堅牢な方法を提供する。
In scientific imaging, deep learning has become a pivotal tool for image analytics. However, handling large volumetric datasets, which often exceed the memory capacity of standard GPUs, require special attention when subjected to deep learning efforts. This paper introduces qlty, a toolkit designed to address these challenges through tensor management techniques. qlty offers robust methods for subsampling, cleaning, and stitching of large-scale spatial data, enabling effective training and inference even in resource-limited environments. | 翻訳日:2024-08-28 18:59:20 公開日:2024-08-26 |
# VR運動の識別性に及ぼす時間と遅延の影響
Effect of Duration and Delay on the Identifiability of VR Motion ( http://arxiv.org/abs/2407.18380v2 ) ライセンス: Link先を確認 | Mark Roman Miller, Vivek Nair, Eugy Han, Cyan DeVeaux, Christian Rack, Rui Wang, Brandon Huang, Marc Erich Latoschik, James F. O'Brien, Jeremy N. Bailenson, | (参考訳) ソーシャルバーチャルリアリティーはコミュニケーションの新たなメディアだ。
ユーザのアバター(仮想表現)は、ユーザのヘッドセットとハンドコントローラの追跡動作によって制御される。
この追跡された動きは、リッチなデータストリームであり、ユーザの特徴を漏らしたり、事前に識別されたデータと効果的にマッチングしてユーザを特定することができる。
動作データの識別可能性の境界をよりよく理解するために,機械学習モデルが再識別を模擬する教師付き学習タスクにおいて,トレーニングデータの持続時間と試験遅れの変化がユーザの動作を正しく分類できる精度にどのように影響するかを検討する。
私たちが使用しているデータセットには、多数の参加者、セッションごとの長い期間、多数のセッション、セッションが実行される長い時間を組み合わせたユニークな組み合わせがあります。
トレーニングデータの持続時間と列車試験遅延が識別可能性に影響を与えること,列車試験遅延の最小化が極めて高い精度をもたらすこと,列車試験遅延を将来の実験で制御すること,などが判明した。
Social virtual reality is an emerging medium of communication. In this medium, a user's avatar (virtual representation) is controlled by the tracked motion of the user's headset and hand controllers. This tracked motion is a rich data stream that can leak characteristics of the user or can be effectively matched to previously-identified data to identify a user. To better understand the boundaries of motion data identifiability, we investigate how varying training data duration and train-test delay affects the accuracy at which a machine learning model can correctly classify user motion in a supervised learning task simulating re-identification. The dataset we use has a unique combination of a large number of participants, long duration per session, large number of sessions, and a long time span over which sessions were conducted. We find that training data duration and train-test delay affect identifiability; that minimal train-test delay leads to very high accuracy; and that train-test delay should be controlled in future experiments. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-26 |
# 消去量子ビットを用いた量子誤り訂正プロトコルの最適化
Optimizing quantum error correction protocols with erasure qubits ( http://arxiv.org/abs/2408.00829v2 ) ライセンス: Link先を確認 | Shouzhen Gu, Yotam Vaknin, Alex Retzker, Aleksander Kubica, | (参考訳) 消去量子ビットは量子エラー訂正(QEC)プロトコルのオーバーヘッドを減らすための有望な道を提供する。
しかし、消去チェックのような追加の操作が必要であるため、ノイズが増し、QECプロトコルのランタイムが増加する可能性がある。
量子ビットの消去によって得られる利点を評価するため,量子メモリとしての表面コードの性能に着目した。
特に, 種々の消去チェックスケジュールを分析し, 誤差パラメータの位相空間における補正可能な領域を見つけ, 論理誤差率のサブスレッショルドスケーリングを探索する。
次に、超伝導ハードウェアアーキテクチャにおける消去量子ビットをデュアルレール量子ビットで実現することを検討する。
性能ベンチマークとして、サーフェスコードの標準的なトランスモンベースの実装を使用します。
以上の結果から, 消去キュービットを用いたQECプロトコルは, 消去誤差の正確な情報がない場合でも, 最先端のトランスモンよりも優れていることが示唆された。
Erasure qubits offer a promising avenue toward reducing the overhead of quantum error correction (QEC) protocols. However, they require additional operations, such as erasure checks, that may add extra noise and increase runtime of QEC protocols. To assess the benefits provided by erasure qubits, we focus on the performance of the surface code as a quantum memory. In particular, we analyze various erasure check schedules, find the correctable regions in the phase space of error parameters and probe the subthreshold scaling of the logical error rate. We then consider a realization of erasure qubits in the superconducting hardware architectures via dual-rail qubits. We use the standard transmon-based implementation of the surface code as the performance benchmark. Our results indicate that QEC protocols with erasure qubits can outperform the ones with state-of-the-art transmons, even in the absence of precise information about the locations of erasure errors. | 翻訳日:2024-08-28 18:49:32 公開日:2024-08-26 |
# カラーコード記事における情報収集を支援する上で,どのようなカラースキームが有効か?
What Color Scheme is More Effective in Assisting Readers to Locate Information in a Color-Coded Article? ( http://arxiv.org/abs/2408.06494v2 ) ライセンス: Link先を確認 | Ho Yin Ng, Zeyu He, Ting-Hao 'Kenneth' Huang, | (参考訳) カラーコーディングは、特定の色をクラスタ情報タイプに割り当てる手法であり、人間の認知活動、特に読書と理解を支援する利点を証明している。
LLM(Large Language Models)の台頭により、文書のコーディングが合理化され、様々なスキームによる単純な自動テキストラベリングが可能になった。
これにより、カラーコーディングがよりアクセスしやすくなり、より多くのユーザに利益をもたらす可能性がある。
しかし,色選択が情報探索に与える影響について検討する。
コントラスト比を約5.55:1に標準化し,LLM符号化文書における色調の有効性を評価する。
参加者は、カラーコードされた学術論文のタイムド・インフォメーション・タスクを実行した。
結果,非異色および黄色非包括カラースキームでは性能が向上し,後者は参加者の好意も高まった。
これらの知見は、テキストアノテーションのカラースキームの選択方法を改善することができる。
LLMの文書符号化が進むにつれて、カラーコーディング技術の「色」的な側面に焦点をあてた研究がさらに進むことを提唱する。
Color coding, a technique assigning specific colors to cluster information types, has proven advantages in aiding human cognitive activities, especially reading and comprehension. The rise of Large Language Models (LLMs) has streamlined document coding, enabling simple automatic text labeling with various schemes. This has the potential to make color-coding more accessible and benefit more users. However, the impact of color choice on information seeking is understudied. We conducted a user study assessing various color schemes' effectiveness in LLM-coded text documents, standardizing contrast ratios to approximately 5.55:1 across schemes. Participants performed timed information-seeking tasks in color-coded scholarly abstracts. Results showed non-analogous and yellow-inclusive color schemes improved performance, with the latter also being more preferred by participants. These findings can inform better color scheme choices for text annotation. As LLMs advance document coding, we advocate for more research focusing on the "color" aspect of color-coding techniques. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-26 |
# 物理インフォームドオブザーバブル制御のための低騒音安定クープマン演算子の学習
Learning Noise-Robust Stable Koopman Operator for Control with Physics-Informed Observables ( http://arxiv.org/abs/2408.06607v3 ) ライセンス: Link先を確認 | Shahriar Akbar Sakib, Shaowu Pan, | (参考訳) 本稿では,非線形力学系のクープマン演算子に対する新しい学習フレームワークを提案する。
拡張動的モード分解(EDMD)において,アドホック・オブザーバブルあるいはブラックボックス・ニューラル・ネットワークを用いてオブザーバブルを構築する既存のフレームワークとは対照的に,我々のオブザーバブルはPolyflowを介して制御方程式によって通知される。
ノイズロバスト性の向上と長期安定性を保証するため,我々は,繰り返し損失をロールアウトする進行学習戦略とともに,クープマン演算子の安定パラメータ化を設計した。
位相空間におけるモデル性能をさらに向上させるために、データ拡張の簡単な反復戦略を開発した。
アブレーション法による古典非線形システムの予測と制御に関する数値実験により, 提案手法の有効性が示された。
We propose a novel learning framework for Koopman operator of nonlinear dynamical systems that is informed by the governing equation and guarantees long-time stability and robustness to noise. In contrast to existing frameworks where either ad-hoc observables or blackbox neural networks are used to construct observables in the extended dynamic mode decomposition (EDMD), our observables are informed by governing equations via Polyflow. To improve the noise robustness and guarantee long-term stability, we designed a stable parameterization of the Koopman operator together with a progressive learning strategy for roll-out recurrent loss. To further improve model performance in the phase space, a simple iterative strategy of data augmentation was developed. Numerical experiments of prediction and control of classic nonlinear systems with ablation study showed the effectiveness of the proposed techniques over several state-of-the-art practices. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-26 |
# $^{229}$Th$^{39+}$イオンにおける近接共鳴電子遷移による核励起
Nuclear Excitation by Near-Resonant Electron Transition in $^{229}$Th$^{39+}$ Ions ( http://arxiv.org/abs/2408.06815v2 ) ライセンス: Link先を確認 | Karol Kozioł, Jacek Rzadkiewicz, | (参考訳) 基底状態から8eV$^{229m}$Th異性体への核励起に関する理論的考察は、Sb型(q=39+$)トリウムイオンのほぼ共鳴電子遷移を通じて行われる。
最初の励起原子状態(J=7/2$)のエネルギーは、$^{229}$Th$^{39+}$ イオンは8.308$\pm$0.011 eVと推定され、これは$^{229m}$Th核異性体エネルギーの新たな基準値に非常に近い。
原子励起エネルギーと原子励起エネルギーの両方の不確実範囲において、電子遷移による核励起の速度は20桁以上変化することが判明した。
我々の結果は、$^{229m}$Th異性体励起速度の上限値が1.05\times10^{16}$ s$^{-1}$ at resonance$\Delta=0$ meVであることを示している。
さらに、電子ビームイオントラップ(EBIT)を用いて、$^{229}$Th異性体の製造は10thsから約6\times10^{19}$ s$^{-1}$に到達できることを示した。
したがって、EBIT実験は、$^{229}$Th核における異性体状態の励起エネルギーを独立に検証するための非常に敏感なツールとして機能する可能性がある。
Theoretical considerations are made for the nuclear excitation from the ground state to the 8 eV $^{229m}$Th isomer via near-resonant electron transitions in Sb-like ($q=39+$) thorium ions. The energy of the first excited atomic state ($J=7/2$) in the $^{229}$Th$^{39+}$ ion is estimated to be 8.308$\pm$0.011 eV, which is very close to the new reference value for the $^{229m}$Th nuclear isomer energy, 8.338$\pm$0.024 eV [Kraemer et al., Nature 617, 706 (2023)]. It was found that within the uncertainty range of both atomic and nuclear excitation energies, the rate of nuclear excitation by electron transition can vary by more than 20 orders of magnitude. Our results indicate that the upper theoretical limit for the $^{229m}$Th isomer excitation rate reaches an enormous value of $1.05\times10^{16}$ s$^{-1}$ at resonance ($\Delta=0$ meV). Additionally, it was shown that using an electron beam ion trap (EBIT), the production of the $^{229}$Th isomer can reach rates ranging from tenths to approximately $6\times10^{19}$ s$^{-1}$. Thus, EBIT experimental studies could serve as an extremely sensitive tool for the independent verification of the excitation energy of the isomeric state in the $^{229}$Th nucleus. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-26 |
# 非コンプライアンスによる治療効果変動に対するベイズ分類木アプローチ
A Bayesian Classification Trees Approach to Treatment Effect Variation with Noncompliance ( http://arxiv.org/abs/2408.07765v2 ) ライセンス: Link先を確認 | Jared D. Fisher, David W. Puelz, Sameer K. Deshpande, | (参考訳) 非コンプライアンスのランダム化試験において、異なる治療効果を推定することは、本質的に困難である。
この設定では、既存のフレキシブル機械学習手法は、コンプライアンス率が(局所的に)ゼロに近い弱い機器問題に非常に敏感である。
本研究の主な手法は,非準拠シナリオにおける2値応答変数に対するベイズカウサルフォレストモデルを提案することである。
コンプライアンスのタイプを繰り返すことで、順応者の不均一な治療効果を柔軟に推定することができる。
シミュレーション研究は、コンプライアンスと治療効果が不均一である場合のアプローチの有用性を実証する。
本研究では,イリノイワークプレースウェルネス研究における治療効果の不均一性の検出と解析に応用する。
我々は介入から1年後の3つの結果について方法論を実証した。
本研究は, 慢性疾患の有無に対する無効効果を確認し, 平均効果は古典的部分的効果推定では無効であるが, メタボリックパラメーターに対する介入の有意義な不均一性の影響を見出し, 健康と安全のマネジメント優先順位付けに対する個人個人の認識において, 実質的不均一性を見いだす。
Estimating varying treatment effects in randomized trials with noncompliance is inherently challenging since variation comes from two separate sources: variation in the impact itself and variation in the compliance rate. In this setting, existing flexible machine learning methods are highly sensitive to the weak instruments problem, in which the compliance rate is (locally) close to zero. Our main methodological contribution is to present a Bayesian Causal Forest model for binary response variables in scenarios with noncompliance. By repeatedly imputing individuals' compliance types, we can flexibly estimate heterogeneous treatment effects among compliers. Simulation studies demonstrate the usefulness of our approach when compliance and treatment effects are heterogeneous. We apply the method to detect and analyze heterogeneity in the treatment effects in the Illinois Workplace Wellness Study, which not only features heterogeneous and one-sided compliance but also several binary outcomes of interest. We demonstrate the methodology on three outcomes one year after intervention. We confirm a null effect on the presence of a chronic condition, discover meaningful heterogeneity impact of the intervention on metabolic parameters though the average effect is null in classical partial effect estimates, and find substantial heterogeneity in individuals' perception of management prioritization of health and safety. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-26 |
# 人物認証: 人工知能とプライバシ保護ツールの価値
Personhood credentials: Artificial intelligence and the value of privacy-preserving tools to distinguish who is real online ( http://arxiv.org/abs/2408.07892v3 ) ライセンス: Link先を確認 | Steven Adler, Zoë Hitzig, Shrey Jain, Catherine Brewer, Wayne Chang, Renée DiResta, Eddy Lazzarin, Sean McGregor, Wendy Seltzer, Divya Siddarth, Nouran Soliman, Tobin South, Connor Spelliscy, Manu Sporny, Varya Srivastava, John Bailey, Brian Christian, Andrew Critch, Ronnie Falcon, Heather Flanagan, Kim Hamilton Duffy, Eric Ho, Claire R. Leibowicz, Srikanth Nadhamuni, Alan Z. Rozenshtein, David Schnurr, Evan Shapiro, Lacey Strahm, Andrew Trask, Zoe Weinberg, Cedric Whitney, Tom Zick, | (参考訳) 匿名性はオンラインの重要な原則である。
しかし、悪質な俳優は長年、不正行為、偽情報拡散、その他の偽造行為に誤認した身元を使っていた。
ますます有能なAIの出現により、悪役は彼らの活動の潜在的な規模と効果を増幅し、オンラインで匿名性と信頼性のバランスをとるという課題を強化することができる。
本稿では,この課題に対処する新たなツールの価値を分析する。個人認証(PHC) – 個人情報を開示することなく,ユーザが実際の人間(AIではなく)であることをオンラインサービスに示すためのデジタル認証情報である。
このような資格は、様々な信頼できる機関、政府、その他の機関によって発行することができる。
我々の定義によれば、PHCシステムは局所的あるいはグローバル的であり、バイオメトリックスに基づくものではない。
AIのオンラインの人々(ライフライクなコンテンツやアバター、エージェント活動)からの差別化可能性の増加と、AIのスケーラビリティの増大(コスト効率、アクセシビリティ)である。
匿名認証と「人格保護」システムに関する長い研究の歴史に基づいて、人格認証は、オンラインプラットフォーム上での信頼感を示す手段を提供し、サービス提供者が悪役による誤用を減らすための新しいツールを提供する。
対照的に、CAPTCHAのような自動偽造に対する既存の対策は、高度なAIに対して不十分であり、厳格なアイデンティティ検証ソリューションは多くのユースケースで不十分にプライベートである。
人格認証のメリットを調査した後、デプロイメントのリスクや設計上の課題についても検討する。
我々は、政策立案者、技術者、および標準機関が一般との協議で検討すべき、実用的な次のステップで締めくくります。
Anonymity is an important principle online. However, malicious actors have long used misleading identities to conduct fraud, spread disinformation, and carry out other deceptive schemes. With the advent of increasingly capable AI, bad actors can amplify the potential scale and effectiveness of their operations, intensifying the challenge of balancing anonymity and trustworthiness online. In this paper, we analyze the value of a new tool to address this challenge: "personhood credentials" (PHCs), digital credentials that empower users to demonstrate that they are real people -- not AIs -- to online services, without disclosing any personal information. Such credentials can be issued by a range of trusted institutions -- governments or otherwise. A PHC system, according to our definition, could be local or global, and does not need to be biometrics-based. Two trends in AI contribute to the urgency of the challenge: AI's increasing indistinguishability from people online (i.e., lifelike content and avatars, agentic activity), and AI's increasing scalability (i.e., cost-effectiveness, accessibility). Drawing on a long history of research into anonymous credentials and "proof-of-personhood" systems, personhood credentials give people a way to signal their trustworthiness on online platforms, and offer service providers new tools for reducing misuse by bad actors. In contrast, existing countermeasures to automated deception -- such as CAPTCHAs -- are inadequate against sophisticated AI, while stringent identity verification solutions are insufficiently private for many use-cases. After surveying the benefits of personhood credentials, we also examine deployment risks and design challenges. We conclude with actionable next steps for policymakers, technologists, and standards bodies to consider in consultation with the public. | 翻訳日:2024-08-28 18:38:45 公開日:2024-08-26 |
# MergeRepair: 自動プログラム修復のためのコードLLMにおけるタスク特化アダプタの統合に関する探索的研究
MergeRepair: An Exploratory Study on Merging Task-Specific Adapters in Code LLMs for Automated Program Repair ( http://arxiv.org/abs/2408.09568v2 ) ライセンス: Link先を確認 | Meghdad Dehghan, Jie JW Wu, Fatemeh H. Fard, Ali Ouni, | (参考訳) [コンテキスト]大規模言語モデル(LLM)は、プログラムの修復、ドキュメント、コードリファクタリング、デバッグ、テストなど、いくつかのソフトウェア開発関連のタスクで優れたパフォーマンスを示しています。
アダプタは、特定のタスク、ドメイン、あるいはアプリケーションに対してLLMのパラメータ効率の良い微調整のために、モデル全体を広範囲に再トレーニングすることなく設計された、特殊な小さなモジュールである。
これらのアダプタは、大型モデルの既存の機能を活用して、特定のニーズに合わせてLLMをカスタマイズするより効率的な方法を提供する。
LLMとアダプタを組み合わせることで、さまざまな自然言語ドメインやタスクに対して有望な結果が得られ、学習したモデルやアダプタを新しいタスクのために追加のトレーニングなしで使用することが可能になった。
[目的]本研究は,APR(Automated Program repair)タスクにおいて,コードLLMにおけるマージアダプタの機能について,連続的なマージと実証的研究を提案する。
目標は、タスク固有のアダプタのマージがAPRのパフォーマンスに与える影響について、洞察を得ることである。
[方法]我々のフレームワークであるMergeRepairでは、3つの異なるマージ手法を用いて複数のタスク固有のアダプタをマージし、APRタスクのマージアダプタの性能を評価する計画を立てています。
特に、3つのテクニックすべてに2つの主要なマージシナリオを使用します。
一 すべてのアダプタが同じ重要性を持つ異なるアダプタのパラメータに適用された等重量平均によるマージ
i) 提案手法である継続マージでは,タスク固有のアダプタとマージしたアダプタの順序と重みを逐次マージする。
マージ手法の探索的研究により,APR用マージアダプタの改良と一般化性について検討する。
連続的なマージを通じて、実際のソフトウェアプロジェクトで発生するように、マージアダプタの能力とタスク順序の影響について検討する。
[Context] Large Language Models (LLMs) have shown good performance in several software development-related tasks such as program repair, documentation, code refactoring, debugging, and testing. Adapters are specialized, small modules designed for parameter efficient fine-tuning of LLMs for specific tasks, domains, or applications without requiring extensive retraining of the entire model. These adapters offer a more efficient way to customize LLMs for particular needs, leveraging the pre-existing capabilities of the large model. Merging LLMs and adapters has shown promising results for various natural language domains and tasks, enabling the use of the learned models and adapters without additional training for a new task. [Objective] This research proposes continual merging and empirically studies the capabilities of merged adapters in Code LLMs, specially for the Automated Program Repair (APR) task. The goal is to gain insights into whether and how merging task-specific adapters can affect the performance of APR. [Method] In our framework, MergeRepair, we plan to merge multiple task-specific adapters using three different merging methods and evaluate the performance of the merged adapter for the APR task. Particularly, we will employ two main merging scenarios for all three techniques, (i) merging using equal-weight averaging applied on parameters of different adapters, where all adapters are of equal importance; and (ii) our proposed approach, continual merging, in which we sequentially merge the task-specific adapters and the order and weight of merged adapters matter. By exploratory study of merging techniques, we will investigate the improvement and generalizability of merged adapters for APR. Through continual merging, we will explore the capability of merged adapters and the effect of task order, as it occurs in real-world software projects. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-26 |
# グラフ自己監視学習にニューラルスケーリング法は存在するか?
Do Neural Scaling Laws Exist on Graph Self-Supervised Learning? ( http://arxiv.org/abs/2408.11243v2 ) ライセンス: Link先を確認 | Qian Ma, Haitao Mao, Jingzhe Liu, Zhehua Zhang, Chunlin Feng, Yu Song, Yihan Shao, Yao Ma, | (参考訳) 自己教師付き学習~(SSL)は、大規模未ラベルデータの知識を効果的に活用することにより、NLPおよびCVドメインの基盤モデルを得るのに不可欠である。
その成功の理由は、適切なSSL設計がモデルがニューラルスケーリング法則に従うのに役立つためである。
しかし、グラフドメインの既存のSSLが、大規模な事前トレーニングでGraph Foundation Models~(GFMs)を構築するためのスケーリング動作に従うことができるかどうかはまだ謎のままである。
本研究では,既存のグラフSSL技術が,GFMの不可欠なコンポーネントとして機能する可能性を備えた,ニューラルネットワークのスケーリング動作に追従できるかどうかを検討する。
我々のベンチマークには、従来のSSL設定と他のドメインで採用されている多くの新しい設定の両方で分析された包括的なSSL技術実装が含まれている。
驚くべきことに、SSLの損失が継続的に減少しているにも関わらず、既存のグラフSSL技術は下流のパフォーマンスにおけるニューラルネットワークのスケーリング動作に従わない。
モデルパフォーマンスは、異なるデータスケールとモデルスケールでのみ変動する。
スケールの代わりに、パフォーマンスに影響を与える重要な要因は、モデルアーキテクチャとプレテキストタスク設計の選択である。
本稿では,GFM開発における既存のSSL技術の実現可能性について検討し,新しい評価試行でグラフSSL設計の新たな方向性を開拓する。
私たちのコード実装は、https://github.com/GraphSSLScaling/GraphSSLScalingの再現性を容易にするために、オンラインで公開されています。
Self-supervised learning~(SSL) is essential to obtain foundation models in NLP and CV domains via effectively leveraging knowledge in large-scale unlabeled data. The reason for its success is that a suitable SSL design can help the model to follow the neural scaling law, i.e., the performance consistently improves with increasing model and dataset sizes. However, it remains a mystery whether existing SSL in the graph domain can follow the scaling behavior toward building Graph Foundation Models~(GFMs) with large-scale pre-training. In this study, we examine whether existing graph SSL techniques can follow the neural scaling behavior with the potential to serve as the essential component for GFMs. Our benchmark includes comprehensive SSL technique implementations with analysis conducted on both the conventional SSL setting and many new settings adopted in other domains. Surprisingly, despite the SSL loss continuously decreasing, no existing graph SSL techniques follow the neural scaling behavior on the downstream performance. The model performance only merely fluctuates on different data scales and model scales. Instead of the scales, the key factors influencing the performance are the choices of model architecture and pretext task design. This paper examines existing SSL techniques for the feasibility of Graph SSL techniques in developing GFMs and opens a new direction for graph SSL design with the new evaluation prototype. Our code implementation is available online to ease reproducibility on https://github.com/GraphSSLScaling/GraphSSLScaling. | 翻訳日:2024-08-28 18:28:54 公開日:2024-08-26 |
# 群集モニタリングのための非構造高密度群集シーンの解析
Analysis of Unstructured High-Density Crowded Scenes for Crowd Monitoring ( http://arxiv.org/abs/2408.11836v3 ) ライセンス: Link先を確認 | Alexandre Matov, | (参考訳) 我々は,人群集の組織的動きを検出する自動システムの開発に興味がある。
コンピュータビジョンアルゴリズムは、混雑したシーンのビデオから情報を抽出し、紛争回避の文脈で異常な振る舞いを示す組織的な動きを行う個人のグループを自動的に検出し追跡する。
本システムでは,ランダムに移動する物体の背景に対する組織的コホートの検出が可能であり,CCTVで撮影された動きの開始から1秒未満の3~4コホート内で,組織的コホートにおける参加者数,動きの速度と方向をリアルタイムで推定することができる。
我々は,この状況下で,1フレームあたり最大4万個のオブジェクトを含む生体細胞データを用いて予備解析を行い,これを100倍まで数値的に拡張して公衆安全に適用する。
我々は、既存のビデオカメラのインフラを活用して、スポーツスタジアムなどの公共施設内外で撮影された画像シーケンスを分析し、重要なイベントを解析するための、画像データセットのオンザフライ取得と、使い易いデータ駆動ソフトウェアシステムの展開をめざす。
その他の有望なユーザは、政治集会、市民と野生生物の組織、セキュリティ会社、軍隊の組織である。
脅威を呈するアクティビティと、脅威を呈しないアクティビティを区別できる分類方法を実装することにより、ソフトウェアの性能を最適化する。
We are interested in developing an automated system for detection of organized movements in human crowds. Computer vision algorithms can extract information from videos of crowded scenes and automatically detect and track groups of individuals undergoing organized motion that represents an anomalous behavior in the context of conflict aversion. Our system can detect organized cohorts against the background of randomly moving objects and we can estimate the number of participants in an organized cohort, the speed and direction of motion in real time, within three to four video frames, which is less than one second from the onset of motion captured on a CCTV. We have performed preliminary analysis in this context in biological cell data containing up to four thousand objects per frame and will extend this numerically to a hundred-fold for public safety applications. We envisage using the existing infrastructure of video cameras for acquiring image datasets on-the-fly and deploying an easy-to-use data-driven software system for parsing of significant events by analyzing image sequences taken inside and outside of sports stadiums or other public venues. Other prospective users are organizers of political rallies, civic and wildlife organizations, security firms, and the military. We will optimize the performance of the software by implementing a classification method able to distinguish between activities posing a threat and those not posing a threat. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-26 |
# PolyRouter:マルチLLMクエリシステム
PolyRouter: A Multi-LLM Querying System ( http://arxiv.org/abs/2408.12320v2 ) ライセンス: Link先を確認 | Dimitris Stripelis, Zijian Hu, Jipeng Zhang, Zhaozhuo Xu, Alay Dilipbhai Shah, Han Jin, Yuhang Yao, Salman Avestimehr, Chaoyang He, | (参考訳) 様々なドメインにわたる大規模言語モデル(LLM)の急速な成長に伴い、多くの新しいLLMが出現し、それぞれがドメイン固有の専門知識を持っている。
この増殖は、高速で高品質で費用対効果の高いLCMクエリ応答方法の必要性を強調している。
しかし、このトリレンマを効率的にバランスさせるLLMは存在しない。
一部のモデルは強力だが非常に高価であり、他のモデルは高速で安価だが質的に劣る。
この課題に対処するために、PolyRouterを提案する。これはモノリシックなLLMクエリシステムで、様々なLLM専門家をシームレスに単一のクエリインターフェースに統合し、クエリの要求に基づいて入力クエリを最も高性能なエキスパートに動的にルーティングする。
大規模な実験を通じて,PolyRouterは,スタンドアロンのエキスパートモデルと比較して,クエリ効率を最大40%向上し,最大30%のコスト削減を実現するとともに,モデル性能を最大10%向上させることを示した。
With the rapid growth of Large Language Models (LLMs) across various domains, numerous new LLMs have emerged, each possessing domain-specific expertise. This proliferation has highlighted the need for quick, high-quality, and cost-effective LLM query response methods. Yet, no single LLM exists to efficiently balance this trilemma. Some models are powerful but extremely costly, while others are fast and inexpensive but qualitatively inferior. To address this challenge, we present PolyRouter, a non-monolithic LLM querying system that seamlessly integrates various LLM experts into a single query interface and dynamically routes incoming queries to the most high-performant expert based on query's requirements. Through extensive experiments, we demonstrate that when compared to standalone expert models, PolyRouter improves query efficiency by up to 40%, and leads to significant cost reductions of up to 30%, while maintaining or enhancing model performance by up to 10%. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-26 |
# SLAMにおける強化学習応用に関する調査研究
A Survey on Reinforcement Learning Applications in SLAM ( http://arxiv.org/abs/2408.14518v1 ) ライセンス: Link先を確認 | Mohammad Dehghani Tezerjani, Mohammad Khoshnazar, Mohammadhamed Tangestanizadeh, Qing Yang, | (参考訳) モバイルロボティクスの出現は、特に自動車産業において、豊かなユーザー体験と複雑なナビゲーション課題の適切な処理が期待できる時代をもたらした。
これらの進歩を実現するには、特にSLAM(同時局在マッピング)の重要な領域において、集中した技術的努力と多くの複雑なタスクの実行を成功させる必要がある。
ディープラーニングや強化学習などのさまざまな人工知能(AI)手法は、SLAMの課題に対処するための実行可能なソリューションを提供する。
本研究では,SLAMの文脈における強化学習の適用について検討する。
エージェント(ロボット)が環境からのフィードバックを反復的に受けられるようにすることで、強化学習はナビゲーションとマッピングのスキルの獲得を容易にし、ロボットの意思決定能力を高める。
このアプローチには,ナビゲーション能力の向上,レジリエンスの向上,センサ精度への依存の低減,意思決定プロセスの洗練など,いくつかのメリットがある。
本研究は, SLAMにおける強化学習の利用状況について概説した。
この調査はまた、これらの技術の進化と革新的な統合を強調している。
The emergence of mobile robotics, particularly in the automotive industry, introduces a promising era of enriched user experiences and adept handling of complex navigation challenges. The realization of these advancements necessitates a focused technological effort and the successful execution of numerous intricate tasks, particularly in the critical domain of Simultaneous Localization and Mapping (SLAM). Various artificial intelligence (AI) methodologies, such as deep learning and reinforcement learning, present viable solutions to address the challenges in SLAM. This study specifically explores the application of reinforcement learning in the context of SLAM. By enabling the agent (the robot) to iteratively interact with and receive feedback from its environment, reinforcement learning facilitates the acquisition of navigation and mapping skills, thereby enhancing the robot's decision-making capabilities. This approach offers several advantages, including improved navigation proficiency, increased resilience, reduced dependence on sensor precision, and refinement of the decision-making process. The findings of this study, which provide an overview of reinforcement learning's utilization in SLAM, reveal significant advancements in the field. The investigation also highlights the evolution and innovative integration of these techniques. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# 病的アウトブレイク予測のための多面的注意強化型ディープニューラルネットワーク : COVID-19を事例として
A Multilateral Attention-enhanced Deep Neural Network for Disease Outbreak Forecasting: A Case Study on COVID-19 ( http://arxiv.org/abs/2408.14519v1 ) ライセンス: Link先を確認 | Ashutosh Anshul, Jhalak Gupta, Mohammad Zia Ur Rehman, Nagendra Kumar, | (参考訳) 新型コロナウイルス(COVID-19)パンデミックの世界的な影響は深刻で、パンデミックの広がりと進行を予測するための正確な予測モデルの開発が必要である。
これまでの予測手法では,複数の入力源を利用せず,データの可用性に限界があるため,最適性能が得られなかった。
本研究では,感染症予測の課題に対処するための新しいアプローチを提案する。
本稿では,複数の情報源からの情報を活用し,パンデミックの広がりに影響を与える要因を包括的に分析する多面的注意強化型GRUモデルを提案する。
GRUフレームワークに注意機構を組み込むことで、データ内の複雑な関係や時間的依存を効果的に捉えることができ、予測性能が向上する。
さらに,近年のCOVID-19パンデミックに対するマルチソースデータセットを整理し,研究コミュニティが時系列予測の実験と分析を行うための優れたリソースとして利用できるようにした。
提案したモデルを私たちのCOVID-19データセット上で評価し,RMSEとMAEの両点からアウトプットを報告した。
実験結果から,提案手法が既存手法よりも性能的に優れていることを示す。
また,本データセットの性能向上と定性解析を行い,アテンションメカニズムの影響評価を行い,提案モデルがパンデミックの軌跡に密接に従っていることを示す。
The worldwide impact of the recent COVID-19 pandemic has been substantial, necessitating the development of accurate forecasting models to predict the spread and course of a pandemic. Previous methods for outbreak forecasting have faced limitations by not utilizing multiple sources of input and yielding suboptimal performance due to the limited availability of data. In this study, we propose a novel approach to address the challenges of infectious disease forecasting. We introduce a Multilateral Attention-enhanced GRU model that leverages information from multiple sources, thus enabling a comprehensive analysis of factors influencing the spread of a pandemic. By incorporating attention mechanisms within a GRU framework, our model can effectively capture complex relationships and temporal dependencies in the data, leading to improved forecasting performance. Further, we have curated a well-structured multi-source dataset for the recent COVID-19 pandemic that the research community can utilize as a great resource to conduct experiments and analysis on time-series forecasting. We evaluated the proposed model on our COVID-19 dataset and reported the output in terms of RMSE and MAE. The experimental results provide evidence that our proposed model surpasses existing techniques in terms of performance. We also performed performance gain and qualitative analysis on our dataset to evaluate the impact of the attention mechanism and show that the proposed model closely follows the trajectory of the pandemic. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# グラフのプロンプト学習に向けて - 調査とその先
Towards Graph Prompt Learning: A Survey and Beyond ( http://arxiv.org/abs/2408.14520v1 ) ライセンス: Link先を確認 | Qingqing Long, Yuchen Yan, Peiyan Zhang, Chen Fang, Wentao Cui, Zhiyuan Ning, Meng Xiao, Ning Cao, Xiao Luo, Lingjun Xu, Shiyue Jiang, Zheng Fang, Chong Chen, Xian-Sheng Hua, Yuanchun Zhou, | (参考訳) 大規模"事前訓練と迅速な学習"パラダイムは、質問応答、画像認識、マルチモーダル検索など、さまざまな領域にまたがる幅広い応用を可能にする、顕著な適応性を示している。
このアプローチは、大規模な事前訓練モデルの可能性を完全に活用し、ダウンストリームデータ要求と計算コストを削減し、様々なタスクにおけるモデル適用性を向上させる。
グラフは、エンティティ間の関係をキャプチャする汎用データ構造として、ソーシャルネットワーク分析、レコメンダシステム、生物学的グラフなどの分野で重要な役割を果たす。
自然言語処理(NLP)やコンピュータビジョン(CV)における事前学習および迅速な学習パラダイムの成功にもかかわらず、グラフ領域での応用はいまだに始まったばかりである。
グラフ構造データでは、ノードとエッジの特徴はしばしば異なる分布を持つだけでなく、位相構造も大きく異なる。
このグラフデータの多様性は、下流グラフの事前トレーニングと微調整の間に不整合パターンやギャップをもたらす可能性がある。
これらの格差を緩和する手法を要約することで、このギャップを埋めることを目指している。
これには、迅速な設計方法論、関連するテクニックの比較、アプリケーションシナリオとデータセットの評価、未解決の問題と課題の特定などが含まれる。
この調査は、この分野における100を超える関連する研究を分類し、一般的な設計原則と、テキスト対応グラフ、分子、タンパク質、レコメンデーションシステムを含む最新の応用を要約する。
この広範なレビューを通じて、グラフマイニングコミュニティだけでなく、より広範な人工知能(AGI)コミュニティにも影響を与えることを目的とした、グラフプロンプト学習の基本的な理解を提供する。
Large-scale "pre-train and prompt learning" paradigms have demonstrated remarkable adaptability, enabling broad applications across diverse domains such as question answering, image recognition, and multimodal retrieval. This approach fully leverages the potential of large-scale pre-trained models, reducing downstream data requirements and computational costs while enhancing model applicability across various tasks. Graphs, as versatile data structures that capture relationships between entities, play pivotal roles in fields such as social network analysis, recommender systems, and biological graphs. Despite the success of pre-train and prompt learning paradigms in Natural Language Processing (NLP) and Computer Vision (CV), their application in graph domains remains nascent. In graph-structured data, not only do the node and edge features often have disparate distributions, but the topological structures also differ significantly. This diversity in graph data can lead to incompatible patterns or gaps between pre-training and fine-tuning on downstream graphs. We aim to bridge this gap by summarizing methods for alleviating these disparities. This includes exploring prompt design methodologies, comparing related techniques, assessing application scenarios and datasets, and identifying unresolved problems and challenges. This survey categorizes over 100 relevant works in this field, summarizing general design principles and the latest applications, including text-attributed graphs, molecules, proteins, and recommendation systems. Through this extensive review, we provide a foundational understanding of graph prompt learning, aiming to impact not only the graph mining community but also the broader Artificial General Intelligence (AGI) community. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# 動的グラフモデリングのための検索拡張生成
Retrieval Augmented Generation for Dynamic Graph Modeling ( http://arxiv.org/abs/2408.14523v1 ) ライセンス: Link先を確認 | Yuxia Wu, Yuan Fang, Lizi Liao, | (参考訳) 動的グラフモデリングは、様々なアプリケーションで進化するパターンを分析するのに不可欠である。
既存のアプローチは、しばしばグラフニューラルネットワークと時間モジュールを統合するか、生成シーケンスタスクとして動的グラフモデリングを再定義する。
しかしながら、これらの手法は典型的には、狭い視点からターゲットノードの孤立した歴史的文脈に依存し、類似したパターンや他のノードに関連するケースの発生を無視する。
本研究では,動的グラフモデリング(RAG4DyG)フレームワークを紹介し,各ノードの視点を広げるために,文脈的および時間的に類似した例からのガイダンスを活用する。
このアプローチは2つの重要な課題を提示している: 1) 動的グラフサンプルと文脈的に、時間的に類似した高品質なデモを識別し、検索する方法?
(2) 動的グラフモデリングを改善するために、これらのデモを効果的に統合するにはどうすればよいのか?
これらの課題に対処するため,歴史的文脈の理解を深めるRAG4DyGを提案する。
具体的には、時間と文脈を意識したコントラスト学習モジュールを使用して、クエリシーケンス毎に関連するケースを特定し、検索する。
さらに,検索した事例を統合化するためのグラフ融合戦略を設計し,予測を改善するため,歴史的文脈を拡張した。
異なる領域にわたる実世界のデータセットに関する大規模な実験は、動的グラフモデリングにおけるRAG4DyGの有効性を実証している。
Dynamic graph modeling is crucial for analyzing evolving patterns in various applications. Existing approaches often integrate graph neural networks with temporal modules or redefine dynamic graph modeling as a generative sequence task. However, these methods typically rely on isolated historical contexts of the target nodes from a narrow perspective, neglecting occurrences of similar patterns or relevant cases associated with other nodes. In this work, we introduce the Retrieval-Augmented Generation for Dynamic Graph Modeling (RAG4DyG) framework, which leverages guidance from contextually and temporally analogous examples to broaden the perspective of each node. This approach presents two critical challenges: (1) How to identify and retrieve high-quality demonstrations that are contextually and temporally analogous to dynamic graph samples? (2) How can these demonstrations be effectively integrated to improve dynamic graph modeling? To address these challenges, we propose RAG4DyG, which enriches the understanding of historical contexts by retrieving and learning from contextually and temporally pertinent demonstrations. Specifically, we employ a time- and context-aware contrastive learning module to identify and retrieve relevant cases for each query sequence. Moreover, we design a graph fusion strategy to integrate the retrieved cases, thereby augmenting the inherent historical contexts for improved prediction. Extensive experiments on real-world datasets across different domains demonstrate the effectiveness of RAG4DyG for dynamic graph modeling. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# Inlicit Quantile Networkによる不確かさの推定
Estimating Uncertainty with Implicit Quantile Network ( http://arxiv.org/abs/2408.14525v1 ) ライセンス: Link先を確認 | Yi Hung Lim, | (参考訳) 不確かさの定量化は多くの性能クリティカルなアプリケーションにおいて重要な部分である。
本稿では,アンサンブル学習やベイズニューラルネットワークなど,既存のアプローチに対する簡単な代替手段を提供する。
Inlicit Quantile Networkで損失分布を直接モデル化することにより、モデルがどれだけ不確実であるかを推定する。
MNISTおよびCIFARデータセットを用いた実験では、推定損失分布の平均は誤った予測に対して2倍高い。
推定された不確実性の高いデータがテストデータセットから削除されると、モデルの精度は最大10%向上する。
この方法は実装が簡単で、ユーザがモデルがいつ間違っているかを知る必要があるアプリケーションに重要な情報を提供する(例えば、医療の深層学習)。
Uncertainty quantification is an important part of many performance critical applications. This paper provides a simple alternative to existing approaches such as ensemble learning and bayesian neural networks. By directly modeling the loss distribution with an Implicit Quantile Network, we get an estimate of how uncertain the model is of its predictions. For experiments with MNIST and CIFAR datasets, the mean of the estimated loss distribution is 2x higher for incorrect predictions. When data with high estimated uncertainty is removed from the test dataset, the accuracy of the model goes up as much as 10%. This method is simple to implement while offering important information to applications where the user has to know when the model could be wrong (e.g. deep learning for healthcare). | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# 自動倉庫におけるリアルロボットダイナミクスと相互依存課題を用いたマルチエージェント経路探索
Multi-Agent Path Finding with Real Robot Dynamics and Interdependent Tasks for Automated Warehouses ( http://arxiv.org/abs/2408.14527v1 ) ライセンス: Link先を確認 | Vassilissa Lehoux-Lebacque, Tomi Silander, Christelle Loiodice, Seungjoon Lee, Albert Wang, Sofia Michel, | (参考訳) MAPF(Multi-Agent Path Finding)は、自動倉庫や工場にロボットを配置する際の重要な最適化問題である。
この問題に関する多くの研究にもかかわらず、ほとんどのアプローチは環境とエージェントの両方で重い単純化を行い、結果としてアルゴリズムは現実のシナリオでは実用的ではない。
本稿では,倉庫におけるオンライン注文配送の現実的な問題について考察する。そこでは,ロボット群が各注文の商品を棚からワークステーションに運び出す。
これにより、相互依存型ピックアップおよびデリバリタスクのストリームが生成され、関連するMAPF問題は、これらのタスクを満たす現実的な衝突のないロボット軌道の計算によって構成される。
このMAPF問題を解決するために,相互依存型タスク(Interleaved Prioritized Planning)に対処する標準的な優先計画アルゴリズムと,移動障害を回避しつつ,最適なダイナミックス対応ロボット軌道を計算するための新しいVia-Point Star(VP*)アルゴリズムを提案する。
我々は,本手法の完全性を証明し,実倉庫と同様にシミュレーションで評価する。
Multi-Agent Path Finding (MAPF) is an important optimization problem underlying the deployment of robots in automated warehouses and factories. Despite the large body of work on this topic, most approaches make heavy simplifications, both on the environment and the agents, which make the resulting algorithms impractical for real-life scenarios. In this paper, we consider a realistic problem of online order delivery in a warehouse, where a fleet of robots bring the products belonging to each order from shelves to workstations. This creates a stream of inter-dependent pickup and delivery tasks and the associated MAPF problem consists of computing realistic collision-free robot trajectories fulfilling these tasks. To solve this MAPF problem, we propose an extension of the standard Prioritized Planning algorithm to deal with the inter-dependent tasks (Interleaved Prioritized Planning) and a novel Via-Point Star (VP*) algorithm to compute an optimal dynamics-compliant robot trajectory to visit a sequence of goal locations while avoiding moving obstacles. We prove the completeness of our approach and evaluate it in simulation as well as in a real warehouse. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# アダプティブ・レゾリューション・推論(ARI):モノのインターネットのためのエネルギー効率の良い機械学習
Adaptive Resolution Inference (ARI): Energy-Efficient Machine Learning for Internet of Things ( http://arxiv.org/abs/2408.14528v1 ) ライセンス: Link先を確認 | Ziheng Wang, Pedro Reviriego, Farzad Niknia, Javier Conde, Shanshan Liu, Fabrizio Lombardi, | (参考訳) Internet of Thingsデバイスにおける機械学習の実装は、限られたエネルギーと計算資源のために、重大な運用上の問題を引き起こす。
近年、ニューラルネットワークの重み付けやパラメータや算術演算の精度の低下など、計算とエネルギーの削減を図りつつ、合理的な性能を実現するため、単純化されたMLモデルの実装に多大な努力が払われている。
しかし、この種のアプローチはMLの実装の性能、すなわちモデルの単純化による精度の低下によって制限される。
本稿では,アダプティブ・レゾリューション・推論(ARI)を提案する。この手法により,ML実装におけるエネルギー散逸とモデル性能の新たなトレードオフを評価できる。
提案手法の主な原理は、精度の低下(量子化)で推論を実行し、決定しきい値よりもマージンを使い、結果が信頼できるか、あるいは推論が完全なモデルで実行されなければならないかを決定することである。
理論的には、量子化は推論スコアに小さな偏差しか導入せず、もしスコアが決定しきい値よりも十分なマージンを持つなら、完全なモデルが異なる結果をもたらす可能性は低い。
したがって、まず量子化モデルを実行することができ、スコアが十分なマージンを持っていない場合にのみ、完全なモデルを実行することができる。
これにより、ほとんどの推論は精度の低いモデルで実行でき、完全なモデルを必要とするのはごくわずかしかなく、モデルの性能に影響を与えることなく計算とエネルギーを著しく削減する。
提案手法は,浮動小数点および確率計算の実装のための異なるデータセットを用いて,より詳細に解析し,評価する。
その結果、ARIは40%から85%の節約率で異なる構成で推論のエネルギーを著しく削減できることがわかった。
The implementation of machine learning in Internet of Things devices poses significant operational challenges due to limited energy and computation resources. In recent years, significant efforts have been made to implement simplified ML models that can achieve reasonable performance while reducing computation and energy, for example by pruning weights in neural networks, or using reduced precision for the parameters and arithmetic operations. However, this type of approach is limited by the performance of the ML implementation, i.e., by the loss for example in accuracy due to the model simplification. In this article, we present adaptive resolution inference (ARI), a novel approach that enables to evaluate new tradeoffs between energy dissipation and model performance in ML implementations. The main principle of the proposed approach is to run inferences with reduced precision (quantization) and use the margin over the decision threshold to determine if either the result is reliable, or the inference must run with the full model. The rationale is that quantization only introduces small deviations in the inference scores, such that if the scores have a sufficient margin over the decision threshold, it is unlikely that the full model would have a different result. Therefore, we can run the quantized model first, and only when the scores do not have a sufficient margin, the full model is run. This enables most inferences to run with the reduced precision model and only a small fraction requires the full model, so significantly reducing computation and energy while not affecting model performance. The proposed ARI approach is presented, analyzed in detail, and evaluated using different data sets for floating-point and stochastic computing implementations. The results show that ARI can significantly reduce the energy for inference in different configurations with savings between 40% and 85%. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# 量子コンピューティングを用いた古典回路の等価チェックに向けて
Towards Equivalence Checking of Classical Circuits Using Quantum Computing ( http://arxiv.org/abs/2408.14539v1 ) ライセンス: Link先を確認 | Nils Quetschlich, Tobias Forster, Adrian Osterwind, Domenik Helms, Robert Wille, | (参考訳) 量子コンピュータと量子アルゴリズムは、ここ数年で大きな進歩を遂げ、特定のタスクに対する古典的なコンピューティングよりも改善することを約束している。
現在のハードウェアはまだ、執筆時点では本当のインパクトを与える準備ができていないが、今後数年で変わるだろう。
これに備えるためには、まだ表現されていないアプリケーション領域で量子コンピューティングの知識を共有することが重要である。
そのような応用の1つは古典回路、特に同値チェックの検証である。
この問題は、検証ギャップを克服するために何十年にもわたって研究されてきたが、量子コンピューティングを用いた潜在的な解決方法はまだ研究されていない。
本稿では,Groverのアルゴリズムを用いて,この問題に対処する。
しかし、これは明らかな選択かもしれないが、有意義な結果を得るために避けるべき落とし穴がいくつかあることも示している。
これにより、(近未来の)対応するソリューションの基礎を提供する等価なチェックのための量子コンピューティング方法論の動作コンセプトが提案される。
Quantum computers and quantum algorithms have made great strides in the last few years and promise improvements over classical computing for specific tasks. Although the current hardware is not yet ready to make real impacts at the time of writing, this will change over the coming years. To be ready for this, it is important to share knowledge of quantum computing in application domains where it is not yet represented. One such application is the verification of classical circuits, specifically, equivalence checking. Although this problem has been investigated over decades in an effort to overcome the verification gap, how it can potentially be solved using quantum computing has hardly been investigated yet. In this work, we address this question by considering a presumably straightforward approach: Using Grover's algorithm. However, we also show that, although this might be an obvious choice, there are several pitfalls to avoid in order to get meaningful results. This leads to the proposal of a working concept of a quantum computing methodology for equivalent checking providing the foundation for corresponding solutions in the (near) future. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# 量子コンピュータにおける強相関フェルミオン物質の局所シミュレーション法:2次元フェルミ-ハバードモデル
A recipe for local simulation of strongly-correlated fermionic matter on quantum computers: the 2D Fermi-Hubbard model ( http://arxiv.org/abs/2408.14543v1 ) ライセンス: Link先を確認 | Arash Jafarizadeh, Frank Pollmann, Adam Gammon-Smith, | (参考訳) 量子化学や凝縮物質物理学に関連する量子多体系のシミュレーションは、フォールトトレランス以前の量子コンピュータの最も有望な応用の1つである。
しかし、量子コンピューティング技術の大多数は、量子ビットと離散ゲートベースの演算を中心に構築されているため、物理問題のこのフレームワークへの変換は重要なステップである。
この翻訳はデバイス固有のものが多く、実際のデバイスでのエラーの指数的な合成によって最適化された実装が罰せられる。
効率的なマッピングの重要性は、2次元または3次元のスピンフルフェルミオンのモデルで既に明らかになっている。
最も直接的でよく知られた写像であるジョルダン・ウィグナー変換を用いて、局所的な自由度を非局所的に表現し、非局所ユニタリゲートをハードウェアでアクセス可能な局所ゲートの列に効率的に分解する必要がある。
本稿では,局所演算のみを用いた量子コンピュータ上での2次元Fermi-Hubbardモデルをシミュレーションするためのステップバイステップのレシピを提案する。
このようなレシピの材料として,最近出現した様々なアプローチを概観するが,議論を具体化するために,ダービー・クラッセンのコンパクトフェルミオンマッピングに焦点をあてる。
本稿では,物理デバイスへの埋め込み,基底状態などの初期状態の生成,一元的時間進化のシミュレーション,可観測物とスペクトル関数の測定など,エンド・ツー・エンドシミュレーションの詳細なレシピを提案する。
我々は、グローバル量子クエンチをシミュレートするためのリソース要件を明示的に計算し、量子コンピュータ上で強相関性フェルミオン物質をシミュレートするための課題と今後の方向性を議論することで結論付ける。
The simulation of quantum many-body systems, relevant for quantum chemistry and condensed matter physics, is one of the most promising applications of near-term quantum computers before fault-tolerance. However, since the vast majority of quantum computing technologies are built around qubits and discrete gate-based operations, the translation of the physical problem into this framework is a crucial step. This translation will often be device specific, and a suboptimal implementation will be punished by the exponential compounding of errors on real devices. The importance of an efficient mapping is already revealed for models of spinful fermions in two or three dimensions, which naturally arise when the relevant physics relates to electrons. Using the most direct and well-known mapping, the Jordan-Wigner transformation, leads to a non-local representation of local degrees of freedom, and necessities efficient decompositions of non-local unitary gates into a sequence of hardware accessible local gates. In this paper, we provide a step-by-step recipe for simulating the paradigmatic two-dimensional Fermi-Hubbard model on a quantum computer using only local operations. To provide the ingredients for such a recipe, we briefly review the plethora of different approaches that have emerged recently but focus on the Derby-Klassen compact fermion mapping in order to make our discussion concrete. We provide a detailed recipe for an end-to-end simulation including embedding on a physical device, preparing initial states such as ground states, simulation of unitary time evolution, and measurement of observables and spectral functions. We explicitly compute the resource requirements for simulating a global quantum quench and conclude by discussing the challenges and future directions for simulating strongly-correlated fermionic matter on quantum computers. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# 直接CLIPに基づく最適化によるイメージキャプション訓練パラダイムの再検討
Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization ( http://arxiv.org/abs/2408.14547v1 ) ライセンス: Link先を確認 | Nicholas Moratelli, Davide Caffagni, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, | (参考訳) 従来のイメージキャプションのトレーニング手法では,教師の強制力によるネットワークの事前トレーニングや,手作りキャプションの指標を最大化するための自己批判シーケンストレーニングによる微調整を行う。
しかし、CLIP-ScoreやPAC-Scoreのようなモダンで高品質なメトリクスを最適化しようとすると、このトレーニング手法は不安定な問題に遭遇し、流動的で情報的なキャプションを生成するために必要な真の記述能力を得ることができない。
本稿では,Direct CLIP-Based Optimization (DiCO)と呼ばれる新たなトレーニングパラダイムを提案する。
提案手法は,高い相関性を有する学習可能なキャプション評価器から抽出した報酬モデルを共同で学習し,最適化する。
これはキャプタ内で直接、重み付けされた分類問題を解くことで実現される。
同時に、DiCOはオリジナルのモデルからの逸脱を防止し、流用性を維持する。
DiCOは、生成されたキャプションの安定性と品質の向上を示すだけでなく、既存の方法、特に現代のメトリクスと比較して、人間の好みと密接に一致している。
さらに、従来のメトリクスにおける競合的なパフォーマンスも維持する。
ソースコードとトレーニングされたモデルはhttps://github.com/aimagelab/DiCO.comで公開されています。
The conventional training approach for image captioning involves pre-training a network using teacher forcing and subsequent fine-tuning with Self-Critical Sequence Training to maximize hand-crafted captioning metrics. However, when attempting to optimize modern and higher-quality metrics like CLIP-Score and PAC-Score, this training method often encounters instability and fails to acquire the genuine descriptive capabilities needed to produce fluent and informative captions. In this paper, we propose a new training paradigm termed Direct CLIP-Based Optimization (DiCO). Our approach jointly learns and optimizes a reward model that is distilled from a learnable captioning evaluator with high human correlation. This is done by solving a weighted classification problem directly inside the captioner. At the same time, DiCO prevents divergence from the original model, ensuring that fluency is maintained. DiCO not only exhibits improved stability and enhanced quality in the generated captions but also aligns more closely with human preferences compared to existing methods, especially in modern metrics. Additionally, it maintains competitive performance in traditional metrics. Our source code and trained models are publicly available at https://github.com/aimagelab/DiCO. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# 時計モデルのシミュレーションのためのジョセフソン接合チェーンの工学
Engineering a Josephson junction chain for the simulation of the clock model ( http://arxiv.org/abs/2408.14549v1 ) ライセンス: Link先を確認 | Matteo M. Wauters, Lorenzo Maffi, Michele Burrello, | (参考訳) 製造技術と高品質半導体-超伝導界面の継続的な改良により、ジョセフソン接合配列 (JJA) は前例のないチューニングが可能となり、多体現象のアナログ量子シミュレーションの候補となった。
これまでの実験では、2段階系のアンサンブルの量子シミュレーションに焦点が当てられているが、正弦波状態を超えた現在の位相関係を調整できることは、より大きい局所ヒルベルト空間を持つ統計物理学モデルの研究の道を開く。
ここでは、$\mathbb{Z}_3$クロックモデルにマッピングできる特定のJJAアーキテクチャについて検討する。
行列-積-状態シミュレーションとボゾン化解析により、実験的にアクセス可能な制御パラメータがほとんどなく、関連する低エネルギー場理論の豊富な位相図を探索できることが示される。
JJAを用いたアナログ量子シミュレーションは, 量子ビットアーキテクチャでは効率的に捕捉できないモデルに向けて, 水平線を拡大する。
The continuous improvement of fabrication techniques and high-quality semiconductor-superconductor interfaces allowed for unprecedented tunability of Josephson junction arrays (JJA), making them a promising candidate for analog quantum simulations of many-body phenomena. While most experimental proposals so far focused on quantum simulations of ensembles of two-level systems, the possibility of tuning the current-phase relation beyond the sinusoidal regime paves the way for studying statistical physics models with larger local Hilbert spaces. Here, we investigate a particular JJA architecture that can be mapped into a $\mathbb{Z}_3$ clock model. Through matrix-product-states simulations and bosonization analysis, we show that few experimentally accessible control parameters allow for the exploration of the rich phase diagrams of the associated low-energy field theories. Our results expand the horizon for analog quantum simulations with JJAs towards models that can not be efficiently captured with qubit architectures. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# ファイナンシャル・フラッド意思決定における人間支援--XAI-Visualization Frameworkを目指して
Aiding Humans in Financial Fraud Decision Making: Toward an XAI-Visualization Framework ( http://arxiv.org/abs/2408.14552v1 ) ライセンス: Link先を確認 | Angelos Chatzimparmpas, Evanthia Dimara, | (参考訳) AIは金融詐欺の検出と意思決定で優位である。
しかし、バイアスのある自動意思決定やプロファイリングに関する懸念のため、規制は人間による最終決定を義務付けている。
金融詐欺捜査員は、AIアラート、トランザクション履歴、ソーシャルメディアの洞察、政府法など、膨大な量の構造化されていない情報を手動で合成するという課題に直面している。
現在のVisual Analytics(VA)システムは、バイナリAIアラートの説明やトランザクションパターンの可視化など、このプロセスの分離された側面を主にサポートしている。
本研究では,データ収集,情報合成,人間基準の反復など,金融不正調査のあらゆる段階において,VAシステムが意思決定者を支援する枠組みを提案する。
VAがAI支援による意思決定における中心的な役割を主張し、潜在的なバイアスや労働集約的なタスクを最小限にしながら、人間の判断が制御されていることを確実にする方法について説明する。
AI prevails in financial fraud detection and decision making. Yet, due to concerns about biased automated decision making or profiling, regulations mandate that final decisions are made by humans. Financial fraud investigators face the challenge of manually synthesizing vast amounts of unstructured information, including AI alerts, transaction histories, social media insights, and governmental laws. Current Visual Analytics (VA) systems primarily support isolated aspects of this process, such as explaining binary AI alerts and visualizing transaction patterns, thus adding yet another layer of information to the overall complexity. In this work, we propose a framework where the VA system supports decision makers throughout all stages of financial fraud investigation, including data collection, information synthesis, and human criteria iteration. We illustrate how VA can claim a central role in AI-aided decision making, ensuring that human judgment remains in control while minimizing potential biases and labor-intensive tasks. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# GPUクリプトジャックの挙動に基づく検出
Behavior-Based Detection of GPU Cryptojacking ( http://arxiv.org/abs/2408.14554v1 ) ライセンス: Link先を確認 | Dmitry Tanana, | (参考訳) ブロックチェーンベースの暗号通貨の急増に伴い、暗号通貨の違法マイニングはサイバー脅威として人気を博している。
悪意のあるアクターが被害者のシステムを悪用して暗号通貨を無知でマイニングする、ホストベースの暗号鍵が増えている。
通常の暗号ジャックは比較的よく知られており、よく研究されている脅威だが、最近、攻撃者はGPUの暗号ジャックに切り替え始めた。
さらに、GPU暗号ジャッカーは、例えば修正されたグラフィックカードドライバを使って簡単に伝播できる。
本稿では,GPUによる暗号鍵検出の問題点について考察する。
まず、GPU暗号ジャックの簡単な履歴と定義と、そのような脅威に対する検出手法を設計する以前の試みについて議論する。
また,アプリケーションによるGPU負荷とグラフィックカードのRAM消費に基づく複雑な露光機構を提案する。
そして,本手法に基づく決定木検出プログラムの設計を行う。
制御された仮想マシン環境でテストされ、選択されたGPU暗号ジャッキングサンプルに対して80%成功率、選択された正規のGPU重量アプリケーションに対して20%偽陽性率でテストされた。
With the surge in blockchain-based cryptocurrencies, illegal mining for cryptocurrency has become a popular cyberthreat. Host-based cryptojacking, where malicious actors exploit victims systems to mine cryptocurrency without their knowledge, is on the rise. Regular cryptojacking is relatively well-known and well-studied threat, however, recently attackers started switching to GPU cryptojacking, which promises greater profits due to high GPU hash rates and lower detection chance. Additionally, GPU cryptojackers can easily propagate using, for example, modified graphic card drivers. This article considers question of GPU cryptojacking detection. First, we discuss brief history and definition of GPU cryptojacking as well as previous attempts to design a detection technique for such threats. We also propose complex exposure mechanism based on GPU load by an application and graphic card RAM consumption, which can be used to detect both browser-based and host-based cryptojacking samples. Then we design a prototype decision tree detection program based on our technique. It was tested in a controlled virtual machine environment with 80% successful detection rate against selected set of GPU cryptojacking samples and 20% false positive rate against selected number of legitimate GPU-heavy applications. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-26 |
# 実データを置き換えるための合成データの可能性を探る
Exploring the Potential of Synthetic Data to Replace Real Data ( http://arxiv.org/abs/2408.14559v1 ) ライセンス: Link先を確認 | Hyungtae Lee, Yan Zhang, Heesung Kwon, Shuvra S. Bhattacharrya, | (参考訳) 実際のデータを置き換える合成データの可能性は、データ不足のAIにおける合成データに対する大きな需要を生み出します。
このポテンシャルは、テストドメイン以外のドメインからの少数の実画像とともに、合成データがトレーニングに使用される場合にさらに大きい。
このポテンシャルは、多様である。
(i)クロスドメインな実画像の数、及び
(ii) 訓練されたモデルを評価するテストセット。
train2test 距離と $\text{AP}_\text{t2t}$ という2つの新しい指標を導入し、総合データを用いたクロスドメイントレーニングセットの有効性を評価して、テストインスタンスの特性をトレーニングパフォーマンスと関連づける。
これらの指標を用いて、合成データのポテンシャルに影響を与える要因を深く掘り下げ、合成データがトレーニングのパフォーマンスに与える影響に関する興味深いダイナミクスを明らかにする。
これらの発見によって、より広範な合成データの利用が促進されることを願っています。
The potential of synthetic data to replace real data creates a huge demand for synthetic data in data-hungry AI. This potential is even greater when synthetic data is used for training along with a small number of real images from domains other than the test domain. We find that this potential varies depending on (i) the number of cross-domain real images and (ii) the test set on which the trained model is evaluated. We introduce two new metrics, the train2test distance and $\text{AP}_\text{t2t}$, to evaluate the ability of a cross-domain training set using synthetic data to represent the characteristics of test instances in relation to training performance. Using these metrics, we delve deeper into the factors that influence the potential of synthetic data and uncover some interesting dynamics about how synthetic data impacts training performance. We hope these discoveries will encourage more widespread use of synthetic data. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# Mica: OCamlモジュールの自動微分テスト
Mica: Automated Differential Testing for OCaml Modules ( http://arxiv.org/abs/2408.14561v1 ) ライセンス: Link先を確認 | Ernest Ng, Harrison Goldstein, Benjamin C. Pierce, | (参考訳) 同じシグネチャを実装する2つのOCamlモジュールが与えられるとします。
それらが観察的に等価であること、つまりすべての入力で同じように振る舞うことをどうやって確認しますか?
確立されたテクニックのひとつは、QuickCheckのようなプロパティベースのテスト(PBT)ツールを使用することだ。
しかし現時点では、大量のボイラープレートコードとアドホックなテストハーネスが必要になる。
この問題に対処するため,OCamlモジュールの観測等価性をテストする自動ツールであるMicaを提案する。
MicaはPPXコンパイラ拡張として実装されており、ユーザーはモジュールシグネチャに最小限のアノテーションを供給できる。
これらのアノテーションは、ミカに観察等価性をチェックする特別なPBTコードを自動的に導出するように誘導する。
我々は,Micaの設計について論じ,実世界のOCamlライブラリから取得した様々なモジュールの試験ツールとしての有効性を実証する。
Suppose we are given two OCaml modules implementing the same signature. How do we check that they are observationally equivalent -- that is, that they behave the same on all inputs? One established technique is to use a property-based testing (PBT) tool such as QuickCheck. Currently, however, this can require significant amounts of boilerplate code and ad-hoc test harnesses. To address this issue, we present Mica, an automated tool for testing observational equivalence of OCaml modules. Mica is implemented as a PPX compiler extension, allowing users to supply minimal annotations to a module signature. These annotations guide Mica to automatically derive specialized PBT code that checks observational equivalence. We discuss the design of Mica and demonstrate its efficacy as a testing tool on various modules taken from real-world OCaml libraries. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# カモフラージュによる物体検出の実態調査
A Survey of Camouflaged Object Detection and Beyond ( http://arxiv.org/abs/2408.14562v1 ) ライセンス: Link先を確認 | Fengyang Xiao, Sujie Hu, Yuqi Shen, Chengyu Fang, Jinfa Huang, Chunming He, Longxiang Tang, Ziyun Yang, Xiu Li, | (参考訳) カモフラーゲ型物体検出(COD)は、周囲にシームレスに溶け込んだ物体を識別・分断する作業であり、コンピュータビジョンシステムにとって重要な課題である。
近年、CODは監視、野生生物保護、自律システムなどへの応用の可能性から、広く注目を集めている。
CODに関するいくつかの調査は存在するが、特に2023年半ば以降の分野における急速な進歩に関して、対象論文の数と範囲に制限があることが多い。
この空白に対処するために、我々は、理論的な枠組みと分野への実践的な貢献の両方を含む、これまでで最も包括的なCODのレビューを提示する。
本稿では,従来の学習手法と深層学習手法の観点から,画像レベルと映像レベルの両方のソリューションを含む4つの領域にわたるCOD手法について検討する。
我々は,CODと他のキャモフラージュシナリオ手法の相関関係を徹底的に検討し,その後の分析の理論的基礎を定めている。
オブジェクトレベルの検出以外にも、camouflagedインスタンスセグメンテーション、カウント、ランキングなど、インスタンスレベルのタスクの拡張メソッドを要約します。
さらに,CODタスクでよく使われるベンチマークと評価指標の概要を述べるとともに,画像領域とビデオ領域の両方において,定性および定量的性能を考慮したディープラーニング技術に関する総合的な評価を行う。
最後に,現在のCODモデルの限界について論じ,今後の研究に期待できる9つの方向を提案し,本質的な課題に対処し,新規で有意義な技術を探究する。
COD関連のテクニックやデータセット、その他のリソースのキュレートされたリストは、https://github.com/ChunmingHe/awesome-concealed-object-segmentationで見ることができる。
Camouflaged Object Detection (COD) refers to the task of identifying and segmenting objects that blend seamlessly into their surroundings, posing a significant challenge for computer vision systems. In recent years, COD has garnered widespread attention due to its potential applications in surveillance, wildlife conservation, autonomous systems, and more. While several surveys on COD exist, they often have limitations in terms of the number and scope of papers covered, particularly regarding the rapid advancements made in the field since mid-2023. To address this void, we present the most comprehensive review of COD to date, encompassing both theoretical frameworks and practical contributions to the field. This paper explores various COD methods across four domains, including both image-level and video-level solutions, from the perspectives of traditional and deep learning approaches. We thoroughly investigate the correlations between COD and other camouflaged scenario methods, thereby laying the theoretical foundation for subsequent analyses. Beyond object-level detection, we also summarize extended methods for instance-level tasks, including camouflaged instance segmentation, counting, and ranking. Additionally, we provide an overview of commonly used benchmarks and evaluation metrics in COD tasks, conducting a comprehensive evaluation of deep learning-based techniques in both image and video domains, considering both qualitative and quantitative performance. Finally, we discuss the limitations of current COD models and propose 9 promising directions for future research, focusing on addressing inherent challenges and exploring novel, meaningful technologies. For those interested, a curated list of COD-related techniques, datasets, and additional resources can be found at https://github.com/ChunmingHe/awesome-concealed-object-segmentation | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# Pythonスタイルガイドを評価する - 初心者開発者によるアイトラッキング調査
Assessing Python Style Guides: An Eye-Tracking Study with Novice Developers ( http://arxiv.org/abs/2408.14566v1 ) ライセンス: Link先を確認 | Pablo Roberto, Rohit Gheyi, José Aldo Silva da Costa, Márcio Ribeiro, | (参考訳) スタイルガイドの導入と適応は、コードのフォーマッティング、命名規則、可読性を高め、メンテナンスを簡素化する構造に影響を及ぼすソフトウェア開発において重要な役割を担っている。
しかしながら、これらのガイドの多くは、その勧告を検証するための実証的研究を欠いていることが多い。
以前の研究では、コードスタイルが開発者パフォーマンスに与える影響を調べ、いくつかのスタイルがコードの可読性に悪影響を及ぼすと結論付けている。
しかし、他の視点を評価し、これらの視点を実験を通じて共通のベースで組み合わせる研究がさらに必要となる。
この研究は、視線追跡を通じて、スタイルガイドにおけるガイドラインの影響を調査することを目的としており、特にPythonのPEP8ガイドがベストプラクティスとして認識されている。
我々は,32名のPython初心者を対象に,視線追跡,固定時間,固定数,回帰数を用いて,PEP8勧告の4項目について,時間,試行数,視覚的労力を計測し,制御実験を行った。
さらに,本プログラムの課題と嗜好を探るため,インタビューを行った。
結果は、オペレータガイドが適用すべきコードスニペットにおいて、PEP8ラインブレークに従わないことで、アイレグレッション数が70%増加したことを強調した。
ほとんどの被験者は、PEP8ガイドラインに準拠したバージョンを好んだ。
他の評価ガイドラインでは、他の興味深いニュアンス、例えばTrue Comparisonは、被験者はPEP8提案を好んだが、PEP8標準の眼球計測に悪影響を及ぼした。
実験的な評価によって支援されたガイドラインを選択することを推奨する。
The incorporation and adaptation of style guides play an essential role in software development, influencing code formatting, naming conventions, and structure to enhance readability and simplify maintenance. However, many of these guides often lack empirical studies to validate their recommendations. Previous studies have examined the impact of code styles on developer performance, concluding that some styles have a negative impact on code readability. However, there is a need for more studies that assess other perspectives and the combination of these perspectives on a common basis through experiments. This study aimed to investigate, through eye-tracking, the impact of guidelines in style guides, with a special focus on the PEP8 guide in Python, recognized for its best practices. We conducted a controlled experiment with 32 Python novices, measuring time, the number of attempts, and visual effort through eye-tracking, using fixation duration, fixation count, and regression count for four PEP8 recommendations. Additionally, we conducted interviews to explore the subjects' difficulties and preferences with the programs. The results highlighted that not following the PEP8 Line Break after an Operator guideline increased the eye regression count by 70% in the code snippet where the standard should have been applied. Most subjects preferred the version that adhered to the PEP8 guideline, and some found the left-aligned organization of operators easier to understand. The other evaluated guidelines revealed other interesting nuances, such as the True Comparison, which negatively impacted eye metrics for the PEP8 standard, although subjects preferred the PEP8 suggestion. We recommend practitioners selecting guidelines supported by experimental evaluations. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# 複雑な医師と患者との会話からの臨床ノート作成を改善する
Improving Clinical Note Generation from Complex Doctor-Patient Conversation ( http://arxiv.org/abs/2408.14568v1 ) ライセンス: Link先を確認 | Yizhan Li, Sifan Wu, Christopher Smith, Thomas Lo, Bang Liu, | (参考訳) 臨床ノートの作成と医療検査の文書化は、医療専門家にとって重要な課題であり、患者の医療文書の重要な構成要素である。
しかし、これらのメモを手作業で書くのは時間を要するため、臨床医が直接患者とのやりとりやその他の作業に費やす時間に影響を及ぼす可能性がある。
その結果、自動化された臨床ノート生成システムの開発が、健康のためのAIにおける臨床的に意味のある研究領域として浮上した。
本稿では,大言語モデル(LLM)を用いた臨床ノート作成の分野への3つの重要な貢献について述べる。
まず、CliniKnoteを紹介します。CliniKnoteは、1200の複雑な医師と患者との会話と、臨床ノートの完全な組み合わせからなる包括的データセットです。
このデータセットは、現代のニューラルネットワークの助けを借りて医療専門家によって作成、キュレーションされ、臨床ノート生成タスクにおけるモデルのトレーニングと評価のための貴重なリソースを提供する。
次に、従来のSOAP~\cite{podder2023soap} (Subjective, Objective, Assessment, and Plan) を上位にキーワードセクションを追加することで、必須情報の迅速な識別を可能にするK-SOAP(Keyword, Subjective, Objective, Assessment, and Plan) ノート形式を提案する。
第3に、医師と患者との会話からK-SOAPノートを生成する自動パイプラインを開発し、様々なメトリクスを用いて様々な近代LCMをベンチマークする。
その結果, LLMファインタニング法と比較して, 効率と性能が向上した。
Writing clinical notes and documenting medical exams is a critical task for healthcare professionals, serving as a vital component of patient care documentation. However, manually writing these notes is time-consuming and can impact the amount of time clinicians can spend on direct patient interaction and other tasks. Consequently, the development of automated clinical note generation systems has emerged as a clinically meaningful area of research within AI for health. In this paper, we present three key contributions to the field of clinical note generation using large language models (LLMs). First, we introduce CliniKnote, a comprehensive dataset consisting of 1,200 complex doctor-patient conversations paired with their full clinical notes. This dataset, created and curated by medical experts with the help of modern neural networks, provides a valuable resource for training and evaluating models in clinical note generation tasks. Second, we propose the K-SOAP (Keyword, Subjective, Objective, Assessment, and Plan) note format, which enhances traditional SOAP~\cite{podder2023soap} (Subjective, Objective, Assessment, and Plan) notes by adding a keyword section at the top, allowing for quick identification of essential information. Third, we develop an automatic pipeline to generate K-SOAP notes from doctor-patient conversations and benchmark various modern LLMs using various metrics. Our results demonstrate significant improvements in efficiency and performance compared to standard LLM finetuning methods. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# 微視的画像におけるトンネルの半減期
Tunneling half-lives in macroscopic-microscopic picture ( http://arxiv.org/abs/2408.14570v1 ) ライセンス: Link先を確認 | Samyak Jain, A. Bhagwat, | (参考訳) トンネルの半減期は、核崩壊の最小限の変形像で得られる。
他の変形モデルで広く記録されているように、核の有効質量は変形パラメータによって変化する。
しかし、文献で用いられるアプローチとは対照的に、位置依存質量は、核寿命を推定するためにWKBトンネルの確率を信頼できないものにする可能性がある。
代わりに、トンネルの確率を推定するために、Transmission MatrixとWKBメソッドを組み合わせた新しいアプローチを使う。
モデルの単純性のため、計算された寿命は正確ではないが、個々の核の同位体の寿命の相対的な傾向は一致している。
これを用いて、実際の半減期を得るための経験的スケーリングを開発し、考慮された全ての核に対して、顕著に一貫した値を持つ主スケーリングパラメータを求める。
ここで提案される新しいトンネル法は、通常のWKB法と比較して非常に異なる確率を生じさせるが、この研究のもう一つの重要な結果であり、任意のポテンシャルや質量変動に利用することができる。
Tunneling half lives are obtained in a minimalistic deformation picture of nuclear decays. As widely documented in other deformation models, one finds that the effective mass of the nucleus changes with the deformation parameter. However, contrary to the approach used in literature, a position-dependant mass potentially makes using WKB tunneling probabilities unreliable for estimating nuclear lifetimes. We instead use a new approach, a combination of the Transmission Matrix and WKB methods, to estimate tunneling probabilities. Because of the simplistic nature of the model, the calculated lifetimes are not accurate, however, the relative trends in the lifetimes of isotopes of individual nuclei are found to be consistent. Using this, we develop an empirical scaling to obtain the actual half-lives, and find the primary scaling parameter to have remarkably consistent values for all nuclei considered. The new tunneling method proposed here, which produces very different probabilities as compared to the usual WKB approach, is another key result of this work, and can be utilized for arbitrary potentials and mass variations. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# CURLoRA: 安定したLCM連続微調整と破滅的埋立抑制
CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation ( http://arxiv.org/abs/2408.14572v1 ) ライセンス: Link先を確認 | Muhammad Fawi, | (参考訳) 本稿では,Low-Rank Adaptation (LoRA) の文脈で CUR 行列分解を利用した CURLoRA を提案する。
LLMの微調整における2つの重要な課題に対処する。連続学習における破滅的忘れの軽減と、トレーニング可能なパラメータの削減である。
カラム選択と行選択の逆確率を暗黙の正規化として利用し、U$行列をゼロ行列として初期化し、それを微調整する。
我々は、CURLoRAが破滅的な忘れを緩和するために標準のLoRAより優れている複数のデータセットの実験を通して実証する。
モデルの安定性とタスク間のパフォーマンスを維持しながら、トレーニング可能なパラメータの数を著しく削減します。
この結果から, CURLoRAは, 連続的な微調整において, 特にデータ制限のあるシナリオにおいて, 基礎モデルの難易度スコアをLoRAと比較しながら, 極めて良好で安定したタスク精度を達成できることが示唆された。
This paper introduces CURLoRA, a novel approach to fine-tuning large language models (LLMs) that leverages CUR matrix decomposition in the context of Low-Rank Adaptation (LoRA). Our method addresses two critical challenges in LLM fine-tuning: mitigating catastrophic forgetting during continual learning and reducing the number of trainable parameters. We propose a unique modification to the CUR decomposition process, utilizing inverted probabilities for column and row selection which acts as an implicit regularization, and initializing the $U$ matrix as a zero matrix, and only fine-tuning it. We demonstrate through experiments on multiple datasets that CURLoRA outperforms standard LoRA in mitigating catastrophic forgetting. It maintains model stability and performance across tasks while significantly reducing the number of trainable parameters. Our results show that CURLoRA achieves very good and stable task accuracy while maintaining base model's perplexity scores fixed compared to LoRA upon continual fine-tuning, particularly in scenarios with limited data. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# EVINCE:条件統計と情報理論による逆LLM対話の最適化
EVINCE: Optimizing Adversarial LLM Dialogues via Conditional Statistics and Information Theory ( http://arxiv.org/abs/2408.14575v1 ) ライセンス: Link先を確認 | Edward Y. Chang, | (参考訳) 本稿では,大規模言語モデル(LLM)における汎用性,適応性,推論を向上し,人工知能(AGI)を進化させる対話フレームワークであるEVINCE(Entropy and Variation in Conditional Exchanges)を紹介する。
対立論と新しい双対エントロピー理論を取り入れたEVINCEは、統計的モデリング、情報理論、機械学習を統合することにより、LLMの予測精度、堅牢性、安定性を改善し、多様な視点探索と強力な事前利用とのバランスをとる。
このフレームワークの有効性は、情報理論メトリクスの一貫性のある収束、特に相互情報の改善、生産的LLMコラボレーションの促進を通じて実証される。
我々は、EVINCEを医療に適用し、疾患診断の改善を示し、ドメイン間の意思決定におけるその広範な影響について議論する。
この研究は、EVINCEの理論的基礎と実証的な検証を提供し、LLMコラボレーションとAGI開発における進歩の道を開く。
This paper introduces EVINCE (Entropy and Variation IN Conditional Exchanges), a dialogue framework advancing Artificial General Intelligence (AGI) by enhancing versatility, adaptivity, and reasoning in large language models (LLMs). Leveraging adversarial debate and a novel dual entropy theory, EVINCE improves prediction accuracy, robustness, and stability in LLMs by integrating statistical modeling, information theory, and machine learning to balance diverse perspective exploration with strong prior exploitation. The framework's effectiveness is demonstrated through consistent convergence of information-theoretic metrics, particularly improved mutual information, fostering productive LLM collaboration. We apply EVINCE to healthcare, showing improved disease diagnosis, and discuss its broader implications for decision-making across domains. This work provides theoretical foundations and empirical validation for EVINCE, paving the way for advancements in LLM collaboration and AGI development. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# WIP:学際的学習環境におけるチュートリアルの精度の同定
WIP: Identifying Tutorial Affordances for Interdisciplinary Learning Environments ( http://arxiv.org/abs/2408.14576v1 ) ライセンス: Link先を確認 | Hannah Kim, Sergei L. Kosakovsky Pond, Stephen MacNeil, | (参考訳) このワーク・イン・プログレッシブ・リサーチ・ペーパーは、学際的な学習環境におけるチュートリアルの有効性を探求し、特にバイオインフォマティクスに焦点を当てた。
チュートリアルは通常、単一のオーディエンス向けに設計されているが、本研究では、学習者がさまざまなバックグラウンドを持つ状況下でどのように機能するかを明らかにすることを目的としている。
学際的学習の台頭に伴い、多様な学習者のニーズを満たす学習教材の重要性が明らかになってきた。
バイオインフォマティクスは,少なくとも2つの異なるユーザグループ – 計算的背景を持つグループと生物学的背景を持つグループ – を含むため,私たちのコンテキストとして選択した。
本研究の目的は,現在のバイオインフォマティクスソフトウェアチュートリアルの設計をよりよく理解し,学際性の概念的枠組みで評価することである。
設計パターンを識別し,その強度と限界を理解するため,22の代表的なバイオインフォマティクスソフトウェアチュートリアルの内容分析を行った。
代表的なチュートリアルで共通コードを見つけ、それらを10のテーマに合成しました。
我々の評価は、現在のバイオインフォマティクスソフトウェアチュートリアルが学際性を満たす度合いを示している。
This work-in-progress research paper explores the effectiveness of tutorials in interdisciplinary learning environments, specifically focusing on bioinformatics. Tutorials are typically designed for a single audience, but our study aims to uncover how they function in contexts where learners have diverse backgrounds. With the rise of interdisciplinary learning, the importance of learning materials that accommodate diverse learner needs has become evident. We chose bioinformatics as our context because it involves at least two distinct user groups: those with computational backgrounds and those with biological backgrounds. The goal of our research is to better understand current bioinformatics software tutorial designs and assess them in the conceptual framework of interdisciplinarity. We conducted a content analysis of 22 representative bioinformatics software tutorials to identify design patterns and understand their strengths and limitations. We found common codes in the representative tutorials and synthesized them into ten themes. Our assessment shows degrees to which current bioinformatics software tutorials fulfill interdisciplinarity. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# DIAGen: 生成モデルによる横画像拡張
DIAGen: Diverse Image Augmentation with Generative Models ( http://arxiv.org/abs/2408.14584v1 ) ライセンス: Link先を確認 | Tobias Lingenberg, Markus Reuter, Gopika Sudhakaran, Dominik Gojny, Stefan Roth, Simone Schaub-Meyer, | (参考訳) 回転やフリップなどの単純なデータ拡張技術は、コンピュータビジョンモデルの一般化能力を高めるために広く用いられている。
しかしながら、これらのテクニックは、しばしばクラスの高レベルなセマンティック属性を変更することに失敗する。
この制限に対処するため、研究者は最近提案されたDA-Fusionのような生成的拡張法を調査した。
若干の進歩にもかかわらず、変種は依然としてテクスチャ的変化に限られており、様々な視点、環境、気象条件、さらにはクラスレベルの意味的属性(例えば犬の品種の変種)といった側面では不足している。
この課題を克服するため,DA-Fusionを基盤としたDIAGenを提案する。
まず,テキスト・インバージョンで学習した物体の埋め込みにガウス雑音を適用し,事前学習した拡散モデルの知識を用いて世代を多様化する。
第二に、テキストからテキストへの生成モデルの一般的な知識を利用して、クラス固有のプロンプトで拡散モデルの画像生成を誘導する。
最後に, 未生成試料の影響を軽減するため, 重み付け機構を導入する。
様々なデータセットにわたる実験結果から、DIAGenは意味的多様性を向上するだけでなく、その後の分類器の性能も向上することが示された。
標準拡張とDA-Fusionベースラインに対するDIAGenの利点は、特にアウト・オブ・ディストリビューション・サンプルで顕著である。
Simple data augmentation techniques, such as rotations and flips, are widely used to enhance the generalization power of computer vision models. However, these techniques often fail to modify high-level semantic attributes of a class. To address this limitation, researchers have explored generative augmentation methods like the recently proposed DA-Fusion. Despite some progress, the variations are still largely limited to textural changes, thus falling short on aspects like varied viewpoints, environment, weather conditions, or even class-level semantic attributes (eg, variations in a dog's breed). To overcome this challenge, we propose DIAGen, building upon DA-Fusion. First, we apply Gaussian noise to the embeddings of an object learned with Textual Inversion to diversify generations using a pre-trained diffusion model's knowledge. Second, we exploit the general knowledge of a text-to-text generative model to guide the image generation of the diffusion model with varied class-specific prompts. Finally, we introduce a weighting mechanism to mitigate the impact of poorly generated samples. Experimental results across various datasets show that DIAGen not only enhances semantic diversity but also improves the performance of subsequent classifiers. The advantages of DIAGen over standard augmentations and the DA-Fusion baseline are particularly pronounced with out-of-distribution samples. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# 不完全モダリティを用いたグローバルローカル蒸留ネットワークによる話者追跡
Global-Local Distillation Network-Based Audio-Visual Speaker Tracking with Incomplete Modalities ( http://arxiv.org/abs/2408.14585v1 ) ライセンス: Link先を確認 | Yidi Li, Yihan Li, Yixin Guo, Bin Ren, Zhenhuan Xu, Hao Guo, Hong Liu, Nicu Sebe, | (参考訳) 話者追跡研究において、マルチモーダルデータの統合と補完は、トラッキングシステムの正確性と堅牢性を改善するための重要な戦略である。
しかし, 閉塞音, 音響ノイズ, センサ故障などのノイズが原因で, 不完全性による追跡が困難な問題となっている。
特に、複数のモードでデータ不足が発生した場合、既存のマルチモーダル融合法の性能は低下する傾向にある。
そこで本稿では,ロバストな音声・視覚的話者追跡のためのGLDTracker(Global-Local Distillation-based Tracker)を提案する。
GLDTrackerは教師による蒸留モデルによって駆動され、各モードから不完全情報の柔軟な融合を可能にする。
教師ネットワークは、カメラおよびマイクロフォンアレイによって捕捉されたグローバル信号を処理する。
教師から生徒へ知識を伝達することで、学生ネットワークは不完全な観察を伴う複雑なダイナミックなシーンに適応することができる。
学生ネットワークにおいて、生成的対角ネットワークに基づくグローバルな特徴再構成モジュールを構築し、グローバルな特徴をローカル情報を欠く特徴埋め込みから再構築する。
さらに、不完全機能と再構成機能を統合するために、マルチモーダルなマルチレベルフュージョンアテンションを導入し、オーディオ視覚的特徴とグローバルローカル特徴の相補性と一貫性を活用する。
AV16.3データセットの実験的結果は、提案されたGLDTrackerが既存の最先端オーディオ視覚トラッカーより優れ、標準および不完全なモダリティデータセットの両方でリードパフォーマンスを達成し、複雑な条件におけるその優位性と堅牢性を強調していることを示している。
コードとモデルは利用可能になる。
In speaker tracking research, integrating and complementing multi-modal data is a crucial strategy for improving the accuracy and robustness of tracking systems. However, tracking with incomplete modalities remains a challenging issue due to noisy observations caused by occlusion, acoustic noise, and sensor failures. Especially when there is missing data in multiple modalities, the performance of existing multi-modal fusion methods tends to decrease. To this end, we propose a Global-Local Distillation-based Tracker (GLDTracker) for robust audio-visual speaker tracking. GLDTracker is driven by a teacher-student distillation model, enabling the flexible fusion of incomplete information from each modality. The teacher network processes global signals captured by camera and microphone arrays, and the student network handles local information subject to visual occlusion and missing audio channels. By transferring knowledge from teacher to student, the student network can better adapt to complex dynamic scenes with incomplete observations. In the student network, a global feature reconstruction module based on the generative adversarial network is constructed to reconstruct global features from feature embedding with missing local information. Furthermore, a multi-modal multi-level fusion attention is introduced to integrate the incomplete feature and the reconstructed feature, leveraging the complementarity and consistency of audio-visual and global-local features. Experimental results on the AV16.3 dataset demonstrate that the proposed GLDTracker outperforms existing state-of-the-art audio-visual trackers and achieves leading performance on both standard and incomplete modalities datasets, highlighting its superiority and robustness in complex conditions. The code and models will be available. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# カナダのグローバル決定論的分析による37レベルグラフCastの効率的な微調整
Efficient fine-tuning of 37-level GraphCast with the Canadian global deterministic analysis ( http://arxiv.org/abs/2408.14587v1 ) ライセンス: Link先を確認 | Christopher Subich, | (参考訳) 本研究は, 別の分析システムをシミュレートするために, GraphCastデータ駆動予測モデルを効率的に微調整するプロセスについて述べる。
2年間のトレーニングデータ(2019年7月~2021年12月)と37GPU日の計算データを使って、37レベルの4分の1のGraphCastをチューニングし、結果として得られたモデルは、修正されていないGraphCastと運用予測の両方を著しく上回り、1日から10日間のリードタイムにおける対流圏のかなりの予測スキルを示している。
この微調整は、DeepMindによるGraphCastのトレーニングカリキュラムを省略し、短い単一ステップの予測ステージを使用して、適応作業の大部分を達成し、自動回帰ステージを12hr、1d、2d、3dステージに集約することで実現される。
さらに、3d予測のトレーニングを2つのサブステップに分割してホストメモリを保存し、フル期間のトレーニングと強い相関を維持する。
This work describes a process for efficiently fine-tuning the GraphCast data-driven forecast model to simulate another analysis system, here the Global Deterministic Prediction System (GDPS) of Environment and Climate Change Canada (ECCC). Using two years of training data (July 2019 -- December 2021) and 37 GPU-days of computation to tune the 37-level, quarter-degree version of GraphCast, the resulting model significantly outperforms both the unmodified GraphCast and operational forecast, showing significant forecast skill in the troposphere over lead times from 1 to 10 days. This fine-tuning is accomplished through abbreviating DeepMind's original training curriculum for GraphCast, relying on a shorter single-step forecast stage to accomplish the bulk of the adaptation work and consolidating the autoregressive stages into separate 12hr, 1d, 2d, and 3d stages with larger learning rates. Additionally, training over 3d forecasts is split into two sub-steps to conserve host memory while maintaining a strong correlation with training over the full period. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# 具体的であいまいな財務問題に対するジェネレーティブAIによる回答の信頼構築方法
How to build trust in answers given by Generative AI for specific, and vague, financial questions ( http://arxiv.org/abs/2408.14593v1 ) ライセンス: Link先を確認 | Alex Zarifis, Xusen Cheng, | (参考訳) 目的: 生成人工知能(GenAI)はその能力が進歩し、採用が爆発的に増加した。
しかし、消費者の、特に金融アドバイスのような特定のシナリオにおける利用に対する視点は不明確である。
本研究は、経済的な疑問に答える際に、GenAIのアドバイスを信頼する方法のモデルを開発する。
設計・方法論・アプローチ: 構造方程式モデリング(SEM)と多群解析(MGA)を用いて調査データを用いて実験する。
MGAは、コンシューマが特定の質問を行うシナリオと、あいまいな質問を行うシナリオの2つを比較します。
Findings: この研究は、消費者に対する信頼の構築が、あいまいな質問と比べて、特定の金銭的質問をするときに異なることを特定します。
人間性は2つのシナリオで異なる効果を持つ。
金銭的な質問が具体的であれば、人間のようなインタラクションは信頼を強化しないが、(1)質問が曖昧な場合、人間性は信頼を構築する。
両方のシナリオで信頼を構築するための4つの方法は、(2)人間の監視とループ内の状態、(3)透明性とコントロール、(4)正確性と有用性、そして(5)使いやすさとサポートである。
原点/価値: この研究は、金融問題にGenAIを使用する際の消費者の視点をよりよく理解することに貢献し、特定の利害関係者からの特定の文脈におけるGenAIを理解することの重要性を強調します。
Purpose: Generative artificial intelligence (GenAI) has progressed in its ability and has seen explosive growth in adoption. However, the consumer's perspective on its use, particularly in specific scenarios such as financial advice, is unclear. This research develops a model of how to build trust in the advice given by GenAI when answering financial questions. Design/methodology/approach: The model is tested with survey data using structural equation modelling (SEM) and multi-group analysis (MGA). The MGA compares two scenarios, one where the consumer makes a specific question and one where a vague question is made. Findings: This research identifies that building trust for consumers is different when they ask a specific financial question in comparison to a vague one. Humanness has a different effect in the two scenarios. When a financial question is specific, human-like interaction does not strengthen trust, while (1) when a question is vague, humanness builds trust. The four ways to build trust in both scenarios are (2) human oversight and being in the loop, (3) transparency and control, (4) accuracy and usefulness and finally (5) ease of use and support. Originality/value: This research contributes to a better understanding of the consumer's perspective when using GenAI for financial questions and highlights the importance of understanding GenAI in specific contexts from specific stakeholders. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# MMR:大規模マルチモーダルモデルの読解能力の評価
MMR: Evaluating Reading Ability of Large Multimodal Models ( http://arxiv.org/abs/2408.14594v1 ) ライセンス: Link先を確認 | Jian Chen, Ruiyi Zhang, Yufan Zhou, Ryan Rossi, Jiuxiang Gu, Changyou Chen, | (参考訳) 大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
既存のテキストリッチ画像ベンチマークの多くは単純な抽出に基づく質問応答であり、多くのLMMは高いスコアを容易に得る。
これは、現在のベンチマークが、異なるモデルのパフォーマンスを正確に反映できないことを意味しており、自然な考え方は、それらの複雑な推論と空間的理解能力を評価するために、新しいベンチマークを構築することである。
本研究では,テキストに富んだ画像理解のためのLMMを評価するために,11のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
MMRは、言語モデルの助けを借りて人間のアノテーション上に構築された最初のテキストリッチイメージベンチマークである。
GPT-4oを含むいくつかの最先端のLMMを評価することで、既存のLMMがベンチマークの価値を裏付ける能力に限界があることを明らかにする。
Large multimodal models (LMMs) have demonstrated impressive capabilities in understanding various types of image, including text-rich images. Most existing text-rich image benchmarks are simple extraction-based question answering, and many LMMs now easily achieve high scores. This means that current benchmarks fail to accurately reflect performance of different models, and a natural idea is to build a new benchmark to evaluate their complex reasoning and spatial understanding abilities. In this work, we propose the Multi-Modal Reading (MMR) benchmark in 11 diverse tasks to evaluate LMMs for text-rich image understanding. MMR is the first text-rich image benchmark built on human annotations with the help of language models. By evaluating several state-of-the-art LMMs, including GPT-4o, it reveals the limited capabilities of existing LMMs underscoring the value of our benchmark. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# 驚くべきことに、マルチモーダルファンデーションモデルにおける急激な不安定性の評価と対処
Surprisingly Fragile: Assessing and Addressing Prompt Instability in Multimodal Foundation Models ( http://arxiv.org/abs/2408.14595v1 ) ライセンス: Link先を確認 | Ian Stewart, Sameera Horawalavithana, Brendan Kennedy, Sai Munikoti, Karl Pazdernik, | (参考訳) OFASysのようなマルチモーダル基礎モデル(MFM)は、画像、ビデオ、音声データなどの複雑なデータをテキストプロンプトのみでアンロックする可能性を示している。
しかし、それらの性能は、テキスト入力の「接地」にモダリティ特化データを用いることを考えると、トレーニング分布と若干異なるテキスト入力に直面している可能性がある。
本研究は,MFMの急激な不安定性が大きな関心事であり,全てのモダリティに対して一貫した性能低下をもたらすが,拡張データによる追加トレーニングにより不安定性を軽減することができることを示した。
そこで本研究では,テキストやモダリティデータと類似性に基づいて摂動とフィルタを生成する。
拡張データ上でモデルの再トレーニングを行った結果,摂動条件に関わらず,摂動テストデータ上での精度の向上と安定性の向上が得られた。
エラー解析では、ドメイン間での性能改善が一貫したパターンを見いだし、急激な摂動による再トレーニングは、MFMの一般的な推論機能に役立つ傾向があることを示唆している。
Multimodal foundation models (MFMs) such as OFASys show the potential to unlock analysis of complex data such as images, videos, and audio data via text prompts alone. However, their performance may suffer in the face of text input that differs even slightly from their training distribution, which is surprising considering the use of modality-specific data to "ground" the text input. This study demonstrates that prompt instability is a major concern for MFMs, leading to a consistent drop in performance across all modalities, but that instability can be mitigated with additional training with augmented data. We evaluate several methods for grounded prompt perturbation, where we generate perturbations and filter based on similarity to text and/or modality data. After re-training the models on the augmented data, we find improved accuracy and more stable performance on the perturbed test data regardless of perturbation condition, suggesting that the data augmentation strategy helps the models handle domain shifts more effectively. In error analysis, we find consistent patterns of performance improvement across domains, suggesting that retraining on prompt perturbations tends to help general reasoning capabilities in MFMs. | 翻訳日:2024-08-28 17:40:47 公開日:2024-08-26 |
# マルチエージェント強化学習における集中的批判について
On Centralized Critics in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2408.14597v1 ) ライセンス: Link先を確認 | Xueguang Lyu, Andrea Baisero, Yuchen Xiao, Brett Daley, Christopher Amato, | (参考訳) エージェントを集中的にオフラインで訓練し、分散的にオンラインに実行する分散実行のための集中訓練は、マルチエージェント強化学習(MARL)において一般的なアプローチとなっている。
特に、中央集権的な批評家が真のシステム状態を含むシステム全体のグローバル情報にアクセスできるようにするような、分散化されたアクターを訓練するアクター批判手法の開発が盛んになっている。
このような中央集権的な批評家はオフライン情報を与えることが可能であり、オンライン実行には使用されない。
これらの手法は多くの領域でよく機能し、MARLではデファクトスタンダードとなっているが、この文脈における集中的な批評家の使用は理論上あるいは経験上十分な分析がなされていない。
そこで本稿では,中央集権的・非集権的な批評家のアプローチを形式的に分析し,部分的に観察可能な環境における州ベースの批評家の活用の効果を分析する。
批判的中央集権化は厳密には有益ではなく、国家価値の使用は有害である。
さらに我々は、特に州ベースの批評家が、歴史ベースの批評家と比べて予期せぬ偏見と分散をもたらすことを証明している。
最後に、この理論が実際にどのように当てはまるかを、幅広いマルチエージェントベンチマークで異なる形式の批評家を比較して示す。
この実験は、部分的に可観測性を持つ表現学習の困難さなどの実践的な問題を示し、なぜ理論的な問題が文献でしばしば見過ごされるのかを浮き彫りにしている。
Centralized Training for Decentralized Execution where agents are trained offline in a centralized fashion and execute online in a decentralized manner, has become a popular approach in Multi-Agent Reinforcement Learning (MARL). In particular, it has become popular to develop actor-critic methods that train decentralized actors with a centralized critic where the centralized critic is allowed access global information of the entire system, including the true system state. Such centralized critics are possible given offline information and are not used for online execution. While these methods perform well in a number of domains and have become a de facto standard in MARL, using a centralized critic in this context has yet to be sufficiently analyzed theoretically or empirically. In this paper, we therefore formally analyze centralized and decentralized critic approaches, and analyze the effect of using state-based critics in partially observable environments. We derive theories contrary to the common intuition: critic centralization is not strictly beneficial, and using state values can be harmful. We further prove that, in particular, state-based critics can introduce unexpected bias and variance compared to history-based critics. Finally, we demonstrate how the theory applies in practice by comparing different forms of critics on a wide range of common multi-agent benchmarks. The experiments show practical issues such as the difficulty of representation learning with partial observability, which highlights why the theoretical problems are often overlooked in the literature. | 翻訳日:2024-08-28 15:44:06 公開日:2024-08-26 |
# PVAFN:3次元物体検出のためのマルチプールエンハンス付きポイント・ボクセルアテンションフュージョンネットワーク
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection ( http://arxiv.org/abs/2408.14600v1 ) ライセンス: Link先を確認 | Yidi Li, Jiahao Wen, Bin Ren, Wenhao Li, Zhenhuan Xu, Hao Guo, Hong Liu, Nicu Sebe, | (参考訳) 点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
しかし、この組み合わせは意味情報を効果的に捉えることに苦戦することが多い。
さらに、関心領域内の点特徴のみに依存すると、局所的特徴表現における情報損失や制限につながる可能性がある。
これらの課題に対処するために, PVAFN (Point-Voxel Attention Fusion Network) と呼ばれる新しい2段階の3次元物体検出器を提案する。
PVAFNは、特徴抽出フェーズにおけるマルチモーダル特徴融合を改善するためにアテンション機構を利用する。
改良段階では、マルチプール戦略を利用して、マルチスケール情報とリージョン固有情報の両方を効果的に統合する。
ポイントボクセルアテンションメカニズムは、ポイントクラウドとボクセルベースのBird's-Eye-View(BEV)機能を適応的に組み合わせ、よりリッチなオブジェクト表現が偽検出を減らすのに役立つ。
さらに、モデルの知覚能力を高めるために、マルチプール拡張モジュールが導入された。
このモジュールは、クラスタプーリングとピラミッドプーリング技術を使用して、鍵となる幾何学的詳細ときめ細かい形状構造を効率的に捕捉し、局所的特徴とグローバルな特徴の統合を強化する。
KITTIとWaymoのデータセットに関する大規模な実験は、提案されたPVAFNが競争力を発揮することを示した。
コードとモデルは利用可能になる。
The integration of point and voxel representations is becoming more common in LiDAR-based 3D object detection. However, this combination often struggles with capturing semantic information effectively. Moreover, relying solely on point features within regions of interest can lead to information loss and limitations in local feature representation. To tackle these challenges, we propose a novel two-stage 3D object detector, called Point-Voxel Attention Fusion Network (PVAFN). PVAFN leverages an attention mechanism to improve multi-modal feature fusion during the feature extraction phase. In the refinement stage, it utilizes a multi-pooling strategy to integrate both multi-scale and region-specific information effectively. The point-voxel attention mechanism adaptively combines point cloud and voxel-based Bird's-Eye-View (BEV) features, resulting in richer object representations that help to reduce false detections. Additionally, a multi-pooling enhancement module is introduced to boost the model's perception capabilities. This module employs cluster pooling and pyramid pooling techniques to efficiently capture key geometric details and fine-grained shape structures, thereby enhancing the integration of local and global features. Extensive experiments on the KITTI and Waymo datasets demonstrate that the proposed PVAFN achieves competitive performance. The code and models will be available. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# 3Dポイント・クラウド・ネットワーク・プルーニング:ある重みが重要でないとき
3D Point Cloud Network Pruning: When Some Weights Do not Matter ( http://arxiv.org/abs/2408.14601v1 ) ライセンス: Link先を確認 | Amrijit Biswas, Md. Ismail Hossain, M M Lutfe Elahi, Ali Cheraghian, Fuad Rahman, Nabeel Mohammed, Shafin Rahman, | (参考訳) 点雲は、多くのアプリケーションで利用される重要な幾何学的データ構造である。
3Dポイントクラウドを処理するために、ポイントクラウドニューラルネットワーク(PC-NN)と呼ばれるディープニューラルネットワークが採用されている。
ニューラルネットワークモデルと3Dポイントクラウドの両方のサイズを拡張することで、計算とメモリ要件の最小化において、大きな課題がもたらされる。
これは、最小限のエネルギー消費と低レイテンシを優先する現実世界のアプリケーションの要求を満たすために不可欠である。
そのため,PCNNにおける冗長性の調査は,パラメータに対する感受性のため,極めて困難である。
さらに、従来のプルーニング手法は、これらのネットワークが重みと点に大きく依存するため、困難に直面している。
それでも、我々の研究は、標準のPCNNプルーニング技術を洗練できる有望な現象を明らかにしている。
以上の結果から,最高級重量の最上位p%しか保存していないことが,精度の維持に重要であることが示唆された。
例えば、PointNetモデルの重量の99%を刈り取ると、ベースレベルに近い精度が得られる。
具体的には、ModelNet40データセットにおいて、PointNetモデルのベース精度は87。
重量の1%しか保存していないため、86.8%の精度が保たれている。
https://github.com/apurba-nsu-rnd-lab/PCNN_Pruning
A point cloud is a crucial geometric data structure utilized in numerous applications. The adoption of deep neural networks referred to as Point Cloud Neural Networks (PC- NNs), for processing 3D point clouds, has significantly advanced fields that rely on 3D geometric data to enhance the efficiency of tasks. Expanding the size of both neural network models and 3D point clouds introduces significant challenges in minimizing computational and memory requirements. This is essential for meeting the demanding requirements of real-world applications, which prioritize minimal energy consumption and low latency. Therefore, investigating redundancy in PCNNs is crucial yet challenging due to their sensitivity to parameters. Additionally, traditional pruning methods face difficulties as these networks rely heavily on weights and points. Nonetheless, our research reveals a promising phenomenon that could refine standard PCNN pruning techniques. Our findings suggest that preserving only the top p% of the highest magnitude weights is crucial for accuracy preservation. For example, pruning 99% of the weights from the PointNet model still results in accuracy close to the base level. Specifically, in the ModelNet40 dataset, where the base accuracy with the PointNet model was 87. 5%, preserving only 1% of the weights still achieves an accuracy of 86.8%. Codes are available in: https://github.com/apurba-nsu-rnd-lab/PCNN_Pruning | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# 確率遅延フィードバックを用いたバイアスデュエルバンド
Biased Dueling Bandits with Stochastic Delayed Feedback ( http://arxiv.org/abs/2408.14603v1 ) ライセンス: Link先を確認 | Bongsoo Yi, Yue Kang, Yao Li, | (参考訳) 近年、オンライン広告、レコメンデーションシステム、情報検索などの幅広い応用により、従来のマルチアームバンディット問題の本質的な変化であるデュエルバンディット問題が顕著になっている。
しかし、現実世界の多くのアプリケーションでは、アクションに対するフィードバックは避けられない遅延を伴い、エージェントはすぐには利用できない。
この部分的に観察可能な問題は、エージェントがいかに素早く正確にポリシーを更新できるかに大きく影響するため、既存のデュエル・バンディット文学にとって大きな課題となる。
本稿では,確率的遅延フィードバックによるバイアスド・デュリング・バンディット問題の導入と検討を行い,この新たな実践的問題は,選択間の優先バイアスを含むより現実的で興味深いシナリオに発展することを明らかにした。
遅延を伴う状況に対処するアルゴリズムを2つ提案する。
完全遅延分布情報を必要とする第1のアルゴリズムは,遅延のない場合の遅延帯域問題に対する最適後悔境界を達成できる。
第2のアルゴリズムは、分布が不明な状況に最適化されるが、遅延の期待値のみが利用可能である。
提案した2つのアルゴリズムに対して総合的後悔分析を行い、合成データセットと実データセットの両方で実験性能を評価する。
The dueling bandit problem, an essential variation of the traditional multi-armed bandit problem, has become significantly prominent recently due to its broad applications in online advertising, recommendation systems, information retrieval, and more. However, in many real-world applications, the feedback for actions is often subject to unavoidable delays and is not immediately available to the agent. This partially observable issue poses a significant challenge to existing dueling bandit literature, as it significantly affects how quickly and accurately the agent can update their policy on the fly. In this paper, we introduce and examine the biased dueling bandit problem with stochastic delayed feedback, revealing that this new practical problem will delve into a more realistic and intriguing scenario involving a preference bias between the selections. We present two algorithms designed to handle situations involving delay. Our first algorithm, requiring complete delay distribution information, achieves the optimal regret bound for the dueling bandit problem when there is no delay. The second algorithm is tailored for situations where the distribution is unknown, but only the expected value of delay is available. We provide a comprehensive regret analysis for the two proposed algorithms and then evaluate their empirical performance on both synthetic and real datasets. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# BreakNet: 網膜層の非連続弾性多スケール変圧器セグメンテーション
BreakNet: Discontinuity-Resilient Multi-Scale Transformer Segmentation of Retinal Layers ( http://arxiv.org/abs/2408.14606v1 ) ライセンス: Link先を確認 | Razieh Ganjee, Bingjie Wang, Lingyun Wang, Chengcheng Zhao, José-Alain Sahel, Shaohua Pi, | (参考訳) 可視光コヒーレンストモグラフィー (vis-OCT) は高分解能と機能的機能のために網膜イメージングの牽引力が高まっている。
しかし、可視光域におけるヘモグロビンの顕著な吸収は、網膜血管からのシャドーアーティファクトを顕著に示し、正確な層分割の課題を提起する。
本研究では,これらのシャドウアーティファクトによる境界の不連続性に対処するために,マルチスケールのトランスフォーマーベースセグメンテーションモデルであるBreakNetを提案する。
BreakNetは階層型トランスフォーマーと畳み込みブロックを使用して、マルチスケールのグローバルおよびローカルな特徴マップを抽出し、必須のコンテキスト、テクスチャ、エッジの特徴をキャプチャする。
このモデルは、パスワプロスを拡張するデコーダブロックを組み込んで、細部や意味情報の抽出を強化し、正確なセグメンテーションを保証する。
プロトタイプのvis-OCTで取得した象牙質網膜画像から評価したところ,TCT-BPやU-Netのような最先端のセグメンテーションモデルよりも優れた性能を示した。
以上の結果から,BreakNetは網膜の定量化と解析を大幅に改善する可能性が示唆された。
Visible light optical coherence tomography (vis-OCT) is gaining traction for retinal imaging due to its high resolution and functional capabilities. However, the significant absorption of hemoglobin in the visible light range leads to pronounced shadow artifacts from retinal blood vessels, posing challenges for accurate layer segmentation. In this study, we present BreakNet, a multi-scale Transformer-based segmentation model designed to address boundary discontinuities caused by these shadow artifacts. BreakNet utilizes hierarchical Transformer and convolutional blocks to extract multi-scale global and local feature maps, capturing essential contextual, textural, and edge characteristics. The model incorporates decoder blocks that expand pathwaproys to enhance the extraction of fine details and semantic information, ensuring precise segmentation. Evaluated on rodent retinal images acquired with prototype vis-OCT, BreakNet demonstrated superior performance over state-of-the-art segmentation models, such as TCCT-BP and U-Net, even when faced with limited-quality ground truth data. Our findings indicate that BreakNet has the potential to significantly improve retinal quantification and analysis. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# メタフローマッチング:ワッサーシュタイン多様体上のベクトル場の統合
Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold ( http://arxiv.org/abs/2408.14608v1 ) ライセンス: Link先を確認 | Lazar Atanackovic, Xi Zhang, Brandon Amos, Mathieu Blanchette, Leo J. Lee, Yoshua Bengio, Alexander Tong, Kirill Neklyudov, | (参考訳) 多くの生物学的および物理的プロセスは、通信セルや物理粒子の力学のように、時間とともに連続的に進化する相互作用する実体のシステムとしてモデル化することができる。
このようなシステムのダイナミクスを学習することは、新しいサンプルや目に見えない環境における個体群の時間的進化を予測するのに不可欠である。
フローベースのモデルは、これらのダイナミクスを集団レベルで学習し、サンプル全体の分布の進化をモデル化します。
しかし、現在のフローベースモデルは、単一の初期集団と、異なるダイナミクスを記述する事前定義された条件のセットに限られている。
自然科学における複数の過程は、確率密度のワッサーシュタイン多様体上のベクトル場として表さなければならない。
つまり、どの時点の個体群の変化も、標本間の相互作用によって個体群自体に依存する。
特に、疾患の発生とその治療反応が患者固有の細胞の微小環境に依存するパーソナライズド医療において重要である。
本稿では,初期個体群上の流れモデルを改善することで,ワッサーシュタイン多様体上のこれらのベクトル場と統合する実践的手法であるメタフローマッチング(MFM)を提案する。
すなわち、グラフニューラルネットワーク(GNN)を用いてサンプルの集団を埋め込み、これらの埋め込みを用いてフローマッチングモデルを訓練する。
これにより、MFMは以前に提案された方法とは異なり、初期分布を一般化することができる。
MFMは, 大規模マルチ患者単細胞ドラッグスクリーンデータセットにおいて, 個々の治療反応の予測を改善する能力を示す。
Numerous biological and physical processes can be modeled as systems of interacting entities evolving continuously over time, e.g. the dynamics of communicating cells or physical particles. Learning the dynamics of such systems is essential for predicting the temporal evolution of populations across novel samples and unseen environments. Flow-based models allow for learning these dynamics at the population level - they model the evolution of the entire distribution of samples. However, current flow-based models are limited to a single initial population and a set of predefined conditions which describe different dynamics. We argue that multiple processes in natural sciences have to be represented as vector fields on the Wasserstein manifold of probability densities. That is, the change of the population at any moment in time depends on the population itself due to the interactions between samples. In particular, this is crucial for personalized medicine where the development of diseases and their respective treatment response depends on the microenvironment of cells specific to each patient. We propose Meta Flow Matching (MFM), a practical approach to integrating along these vector fields on the Wasserstein manifold by amortizing the flow model over the initial populations. Namely, we embed the population of samples using a Graph Neural Network (GNN) and use these embeddings to train a Flow Matching model. This gives MFM the ability to generalize over the initial distributions unlike previously proposed methods. We demonstrate the ability of MFM to improve prediction of individual treatment responses on a large scale multi-patient single-cell drug screen dataset. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# 生体情報保護:マルチモーダルアイリスにおける完全同型暗号化と顔認識
Securing Biometric Data: Fully Homomorphic Encryption in Multimodal Iris and Face Recognition ( http://arxiv.org/abs/2408.14609v1 ) ライセンス: Link先を確認 | Surendra Singh, Lambert Igene, Stephanie Schuckers, | (参考訳) マルチモーダルバイオメトリックシステムは、認識精度の向上と、スプーフィングのような攻撃に対する抵抗で人気を博している。
本研究は,アイリスと顔特徴ベクトルを融合させる手法について検討し,完全同型暗号(FHE)を用いて,融合データベースを保護し,暗号化テンプレート上でマッチング処理を行うための堅牢なセキュリティ対策を実装した。
QFIRE-Iデータベースを用いた評価では,高い精度を維持しつつユーザのプライバシーと精度を効果的にバランスさせることが示されている。
実験により, テンプレート保護と暗号化領域内でのマッチングにFHEを用いることの有効性を実証し, 虹彩認識に96.41%のTrue Acceptance Rate (TAR) , 顔認識に81.19%のTAR, 虹彩融合(左右)に98.81%のTAR, 顔と虹彩融合に0.1%の偽受容率(FAR)で100%のTARを達成した。
FHEのアプリケーションは、ユーザのプライバシを保護し、情報の漏洩を軽減しつつ、正確なテンプレートマッチングを保証するための有望なソリューションを提供する。
Multimodal biometric systems have gained popularity for their enhanced recognition accuracy and resistance to attacks like spoofing. This research explores methods for fusing iris and face feature vectors and implements robust security measures to protect fused databases and conduct matching operations on encrypted templates using fully homomorphic encryption (FHE). Evaluations on the QFIRE-I database demonstrate that our method effectively balances user privacy and accuracy while maintaining a high level of precision. Through experimentation, we demonstrate the effectiveness of employing FHE for template protection and matching within the encrypted domain, achieving notable results: a 96.41% True Acceptance Rate (TAR) for iris recognition, 81.19% TAR for face recognition, 98.81% TAR for iris fusion (left and right), and achieving a 100% TAR at 0.1% false acceptance rate (FAR) for face and iris fusion. The application of FHE presents a promising solution for ensuring accurate template matching while safeguarding user privacy and mitigating information leakage. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# グループディスカッションと形成が学生のパフォーマンスに及ぼす影響:CS1大規模講座での体験報告
The Impact of Group Discussion and Formation on Student Performance: An Experience Report in a Large CS1 Course ( http://arxiv.org/abs/2408.14610v1 ) ライセンス: Link先を確認 | Tong Wu, Xiaohang Tang, Sam Wong, Xi Chen, Clifford A. Shaffer, Yan Chen, | (参考訳) プログラミングインストラクターは、学生のモチベーション、エンゲージメント、学習の利益を高めるために、ピアインストラクター(PI)のような協調的な学習活動を行うことが多い。
しかし,グループディスカッションと形成機構が学生の成績に及ぼす影響はいまだ不明である。
そこで我々は大規模なCS1コースで11セッション実験を行った。
ランダムと専門性バランスの両方法を用いて,異なるグループメカニズムの有効性と,専門家が協調学習に果たす影響について検討した。
その結果,協調学習環境における複雑なダイナミクスが明らかになった。
255グループのうち146グループは活発に議論を行い、96グループは成績の悪い学生に改善を示した。
分析の結果,異なるグループ化手法(専門バランスやランダム)が議論の関与や成績の悪い生徒の改善に有意な影響を与えないことが判明した。
より深い質的な分析では、苦労している学生は専門家との相互作用から利益を得ることが多いが、この肯定的な効果はすべてのグループで一致しなかった。
専門家の学生がピア・インストラクション・インタラクションで直面する課題を特定し,グループディスカッションにおける専門知識の活用の複雑さを強調した。
Programming instructors often conduct collaborative learning activities, such as Peer Instruction (PI), to enhance student motivation, engagement, and learning gains. However, the impact of group discussion and formation mechanisms on student performance remains unclear. To investigate this, we conducted an 11-session experiment in a large, in-person CS1 course. We employed both random and expertise-balanced grouping methods to examine the efficacy of different group mechanisms and the impact of expert students' presence on collaborative learning. Our observations revealed complex dynamics within the collaborative learning environment. Among 255 groups, 146 actively engaged in discussions, with 96 of these groups demonstrating improvement for poor-performing students. Interestingly, our analysis revealed that different grouping methods (expertise-balanced or random) did not significantly influence discussion engagement or poor-performing students' improvement. In our deeper qualitative analysis, we found that struggling students often derived benefits from interactions with expert peers, but this positive effect was not consistent across all groups. We identified challenges that expert students face in peer instruction interactions, highlighting the complexity of leveraging expertise within group discussions. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# IoTライトバーブのセキュリティに関する懸念 - カバーチャネルの調査
Security Concerns in IoT Light Bulbs: Investigating Covert Channels ( http://arxiv.org/abs/2408.14613v1 ) ライセンス: Link先を確認 | Ravisha Rohilla, Janvi Panwar, | (参考訳) IoT(Internet of Things)デバイスの普及は,セキュリティ上の脆弱性に関する重大な懸念を提起している。
本稿では、隠れ通信チャネルに着目し、スマートライトシステムに関連するセキュリティリスクについて検討する。
この研究は、通信プロトコルの脆弱性と暗号化の欠陥を強調した以前の再調査に基づいて、隠蔽データ伝送にスマートライトシステムを利用する可能性を調査した。
具体的には、Philips Hue White照明システムを用いて、可視光通信(VLC)による隠蔽チャネルを作成するRonenとShamirによって導入された攻撃手法を再現し分析する。
実験的な再調査は、スマート電球の性質的機能を活用し、明るさの微妙な変化を通じてデータを秘密裏に送信する可能性を示している。
制限はあるが。
この研究は、デバイス制約と通信プロトコルによって課される、IoT環境における認識とセキュリティ対策の強化の必要性を浮き彫りにしている。
最終的には、堅牢なセキュリティプラクティスを実装することの重要性を強調し、ネットワーク化されたIoTデバイスをセンシティブな環境にデプロイする際の注意を喚起する。
The proliferation of Internet of Things (IoT) devices has raised significant concerns regarding their security vulnerabilities. This paper explores the security risks associated with smart light systems, focusing on covert communication channels. Drawing upon previous re-search highlighting vulnerabilities in communication protocols and en-cryption flaws, the study investigates the potential for exploiting smart light systems for covert data transmission. Specifically, the paper repli-cates and analyzes an attack method introduced by Ronen and Shamir, which utilizes the Philips Hue White lighting system to create a covert channel through visible light communication (VLC). Experimental re-sults demonstrate the feasibility of transmitting data covertly through subtle variations in brightness levels, leveraging the inherent functional-ity of smart light bulbs. Despite limit. ations imposed by device constraints and communication protocols, the study underscores the need for heightened awareness and security measures in IoT environment. Ultimately, the findings emphasize the importance of implementing robust security practices and exercising caution when deploying networked IoT devices in sensitive environment. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# 現代因果媒介分析のための汎用機械学習
General targeted machine learning for modern causal mediation analysis ( http://arxiv.org/abs/2408.14620v1 ) ライセンス: Link先を確認 | Richard Liu, Nicholas T. Williams, Kara E. Rudolph, Iván Díaz, | (参考訳) 因果仲裁は、原因となるメカニズムを解明し、科学的な進歩の中心となる。
厳密な因果モデルにおける非パラメトリックな定義と媒介効果の同定に関する文献は近年顕著に増加しており、そのような効果の解釈と同定の課題に対処する上で重要な進歩がある。
因果推論の分野では大きな進歩があったが、非パラメトリック推定のための統計的方法論は遅れており、多重、連続、高次元メディエータの存在下で非パラメトリック推定に取り組む方法はほとんど、あるいは全くない。
本稿では,近年提案されている媒介分析に対する6つの一般的な非パラメトリック手法の同定式を2つの統計的推定値から復元できることを示す。
この発見を活用して、この6つのメディエーション定義のいずれかを使用する任意のメディエーション研究において、機械学習と結合可能な、汎用的なワンステップ推定アルゴリズムを提案する。
推定子は$\sqrt{n}$-収束や漸近正規性のような望ましい性質を持つ。
一段階推定器の1次補正を推定するには、潜在的に高次元メディエータ上の複素密度比を推定する必要がある。
シミュレーション研究で本手法の特性を概説し, 実際のデータを用いて, 慢性痛覚障害がオピオイド使用障害に与える影響について検討した。
Causal mediation analyses investigate the mechanisms through which causes exert their effects, and are therefore central to scientific progress. The literature on the non-parametric definition and identification of mediational effects in rigourous causal models has grown significantly in recent years, and there has been important progress to address challenges in the interpretation and identification of such effects. Despite great progress in the causal inference front, statistical methodology for non-parametric estimation has lagged behind, with few or no methods available for tackling non-parametric estimation in the presence of multiple, continuous, or high-dimensional mediators. In this paper we show that the identification formulas for six popular non-parametric approaches to mediation analysis proposed in recent years can be recovered from just two statistical estimands. We leverage this finding to propose an all-purpose one-step estimation algorithm that can be coupled with machine learning in any mediation study that uses any of these six definitions of mediation. The estimators have desirable properties, such as $\sqrt{n}$-convergence and asymptotic normality. Estimating the first-order correction for the one-step estimator requires estimation of complex density ratios on the potentially high-dimensional mediators, a challenge that is solved using recent advancements in so-called Riesz learning. We illustrate the properties of our methods in a simulation study and illustrate its use on real data to estimate the extent to which pain management practices mediate the total effect of having a chronic pain disorder on opioid use disorder. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# スマートコントラクトにおけるトランザクショントレース特性の計測:リアルタイムセキュリティのためのEVMの拡張
Instrumenting Transaction Trace Properties in Smart Contracts: Extending the EVM for Real-Time Security ( http://arxiv.org/abs/2408.14621v1 ) ライセンス: Link先を確認 | Zhiyang Chen, Jan Gorzny, Martin Derka, | (参考訳) スマートコントラクトセキュリティの分野では、トランザクションの不正検出は、トランザクショントレースの特性を活用して、高い精度でハックを特定することができる。
しかし、これらの手法は悪意のあるトランザクションをリバースするためにリアルタイムで適用することはできない。
代わりに、スマートコントラクトは、セキュリティを強化するために、いくつかの安全性特性を備えていることが多い。
しかしながら、これらの測定可能な安全性特性は制限されており、読み取り専用再実行を悪用するハックなど、ある種のハックをブロックすることができない。
この制限は主に、スマートコントラクトがリアルタイムにトランザクショントレースを読み取ることができないEthereum仮想マシン(EVM)に起因している。
さらに、これらの測定可能な安全特性はガス集約性があり、オンザフライの検証には実用的ではない。
これらの課題に対処するために、EVMクライアントとEthereumクライアントの両方の変更を提案し、従来のEVM実行に影響を与えることなく、スマートコントラクトがこれらのトランザクショントレースプロパティをリアルタイムで検証できるようにします。
また、過去の線形時間論理(PLTL)を用いてトランザクショントレース特性を定式化し、既存の検出指標のほとんどをPLTLを用いて表現できることを示す。
また、スマートコントラクトのセキュリティを大幅に向上させる能力を強調しながら、提案した修正の潜在的影響についても検討する。
In the realm of smart contract security, transaction malice detection has been able to leverage properties of transaction traces to identify hacks with high accuracy. However, these methods cannot be applied in real-time to revert malicious transactions. Instead, smart contracts are often instrumented with some safety properties to enhance their security. However, these instrumentable safety properties are limited and fail to block certain types of hacks such as those which exploit read-only re-entrancy. This limitation primarily stems from the Ethereum Virtual Machine's (EVM) inability to allow a smart contract to read transaction traces in real-time. Additionally, these instrumentable safety properties can be gas-intensive, rendering them impractical for on-the-fly validation. To address these challenges, we propose modifications to both the EVM and Ethereum clients, enabling smart contracts to validate these transaction trace properties in real-time without affecting traditional EVM execution. We also use past-time linear temporal logic (PLTL) to formalize transaction trace properties, showcasing that most existing detection metrics can be expressed using PLTL. We also discuss the potential implications of our proposed modifications, emphasizing their capacity to significantly enhance smart contract security. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# 良いストーリーを作るものは何か、どうやって測ることができるのか? ストーリー評価に関する総合的な調査
What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation ( http://arxiv.org/abs/2408.14622v1 ) ライセンス: Link先を確認 | Dingyi Yang, Qin Jin, | (参考訳) 人工知能の発展、特にLarge Language Models(LLMs)の成功により、自動生成されたストーリーの量と品質が大幅に向上した。
これにより、コンピュータシステムの生成能力を評価し、自動生成ストーリーと人文ストーリーの両方の品質を分析するための自動ストーリ評価の必要性が高まっている。
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合がある。
機械翻訳のようなタスクは、主に流布と正確さの側面を評価することに焦点を当てているが、ストーリー評価は、全体的な一貫性、キャラクタ開発、面白さなど、複雑な追加措置を必要とする。
これには、関連する研究の徹底的なレビューが必要である。
本稿ではまず,テキスト・トゥ・テキスト,ビジュアル・トゥ・テキスト,テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクについて要約する。
評価課題を強調し、ストーリーを測定するためのさまざまな人的基準を特定し、既存のベンチマークデータセットを提示する。
そこで本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
また、これらのメトリクスの説明や、それらのメリットや制限に関する議論も提供します。
その後、ストーリー評価と生成のための人間とAIのコラボレーションについて論じる。
最後に,物語評価から一般的な評価まで,将来的な研究の方向性を提案する。
With the development of artificial intelligence, particularly the success of Large Language Models (LLMs), the quantity and quality of automatically generated stories have significantly increased. This has led to the need for automatic story evaluation to assess the generative capabilities of computing systems and analyze the quality of both automatic-generated and human-written stories. Evaluating a story can be more challenging than other generation evaluation tasks. While tasks like machine translation primarily focus on assessing the aspects of fluency and accuracy, story evaluation demands complex additional measures such as overall coherence, character development, interestingness, etc. This requires a thorough review of relevant research. In this survey, we first summarize existing storytelling tasks, including text-to-text, visual-to-text, and text-to-visual. We highlight their evaluation challenges, identify various human criteria to measure stories, and present existing benchmark datasets. Then, we propose a taxonomy to organize evaluation metrics that have been developed or can be adopted for story evaluation. We also provide descriptions of these metrics, along with the discussion of their merits and limitations. Later, we discuss the human-AI collaboration for story evaluation and generation. Finally, we suggest potential future research directions, extending from story evaluation to general evaluations. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# MODOC: テキスト検索とテキスト生成関数のフレキシブルなインターリンクのためのモジュールインタフェース
MODOC: A Modular Interface for Flexible Interlinking of Text Retrieval and Text Generation Functions ( http://arxiv.org/abs/2408.14623v1 ) ライセンス: Link先を確認 | Yingqiang Gao, Jhony Prada, Nianlong Gu, Jessica Lam, Richard H. R. Hahnloser, | (参考訳) 大きな言語モデル(LLM)は雄弁なテキストを生成するが、しばしばそれらが生成するコンテンツを検証する必要がある。
従来の情報検索システムは、このタスクを補助するが、ほとんどのシステムはLLM生成クエリを念頭に設計されていない。
そのため、単一のユーザインタフェース内で検索機能と生成機能の両方を提供する統合システムには、魅力的なニーズがある。
本稿は, LLMの能力を活用し, コミュニケーションの検出, 科学的文章の完全性向上を支援するモジュール型ユーザインタフェースMODOCを提案する。
MODOCは科学的な執筆支援において重要な一歩である。
モジュラーアーキテクチャは、情報を取得し、単一のユーザフレンドリーなインターフェースでテキストを書き、生成するための柔軟な機能をサポートする。
Large Language Models (LLMs) produce eloquent texts but often the content they generate needs to be verified. Traditional information retrieval systems can assist with this task, but most systems have not been designed with LLM-generated queries in mind. As such, there is a compelling need for integrated systems that provide both retrieval and generation functionality within a single user interface. We present MODOC, a modular user interface that leverages the capabilities of LLMs and provides assistance with detecting their confabulations, promoting integrity in scientific writing. MODOC represents a significant step forward in scientific writing assistance. Its modular architecture supports flexible functions for retrieving information and for writing and generating text in a single, user-friendly interface. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# オートエンコーダと拡張データを組み合わせたハイブリッド深層畳み込みニューラルネットワークによるルックアップテーブル2006の予測
Hybrid Deep Convolutional Neural Networks Combined with Autoencoders And Augmented Data To Predict The Look-Up Table 2006 ( http://arxiv.org/abs/2408.14626v1 ) ライセンス: Link先を確認 | Messaoud Djeddou, Aouatef Hellal, Ibrahim A. Hameed, Xingang Zhao, Djehad Al Dallal, | (参考訳) 本研究では、自己エンコーダとデータ拡張技術により強化されたハイブリッドディープ畳み込みニューラルネットワーク(DCNN)モデルを開発し、高い精度で臨界熱流束(CHF)を予測する。
オリジナルの入力機能を3つの異なるオートエンコーダ構成で拡張することにより、モデルの予測能力は大幅に改善された。
ハイブリッドモデルは7225サンプルのデータセットを用いて,決定係数(R2),ナッシュ・サトクリフ効率(NSE),平均絶対誤差(MAE),正規化根平均二乗誤差(NRMSE)などの性能指標を用いて訓練および試験を行った。
試験されたモデルの中で、DCNN_3F-A2の構成が最も正確であることが示され、訓練中に0.9908、試験中に0.9826のR2が達成され、ベースモデルと他の改良版よりも優れていた。
これらの結果は、ディープラーニングと特徴拡張を組み合わせたハイブリッドアプローチがCHF予測の堅牢なソリューションであり、より広い範囲の条件で一般化できる可能性を示唆している。
This study explores the development of a hybrid deep convolutional neural network (DCNN) model enhanced by autoencoders and data augmentation techniques to predict critical heat flux (CHF) with high accuracy. By augmenting the original input features using three different autoencoder configurations, the model's predictive capabilities were significantly improved. The hybrid models were trained and tested on a dataset of 7225 samples, with performance metrics including the coefficient of determination (R2), Nash-Sutcliffe efficiency (NSE), mean absolute error (MAE), and normalized root-mean-squared error (NRMSE) used for evaluation. Among the tested models, the DCNN_3F-A2 configuration demonstrated the highest accuracy, achieving an R2 of 0.9908 during training and 0.9826 during testing, outperforming the base model and other augmented versions. These results suggest that the proposed hybrid approach, combining deep learning with feature augmentation, offers a robust solution for CHF prediction, with the potential to generalize across a wider range of conditions. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# 持続可能なデータ民主化: 平等な未来のための多面的な投資
Sustainable Data Democratization: A Multifaceted Investment for an Equitable Future ( http://arxiv.org/abs/2408.14627v1 ) ライセンス: Link先を確認 | Michela Taufer, Valerio Pascucci, Christine R. Kirkpatric, Ian T. Foster, | (参考訳) 科学研究におけるデータの民主化の緊急の必要性は、2023年11月12日から17日までコロラド州デンバーで開催されたSC23のパネルディスカッションの焦点であった。
この記事では、その議論の結果とその後の会話について要約する。
持続可能なデータ民主化のための金融・人・技術資源への戦略的投資を提唱する。
データは科学的な発見とAIの展開の中心であることを強調し、アクセス制限、クロスドメインコラボレーションのための金銭的インセンティブの不十分、労働開発イニシアチブの不足といった障壁を強調します。
我々の勧告は、包括的研究コミュニティの育成、研究サイロの解体、科学的発見を促進するための熟練した労働力の育成に意思決定者を導くことを目的としている。
The urgent need for data democratization in scientific research was the focal point of a panel discussion at SC23 in Denver, Colorado, from November 12 to 17, 2023. This article summarizes the outcomes of that discussion and subsequent conversations. We advocate for strategic investments in financial, human, and technological resources for sustainable data democratization. Emphasizing that data is central to scientific discovery and AI deployment, we highlight barriers such as limited access, inadequate financial incentives for cross-domain collaboration, and a shortage of workforce development initiatives. Our recommendations aim to guide decision-makers in fostering an inclusive research community, breaking down research silos, and developing a skilled workforce to advance scientific discovery. | 翻訳日:2024-08-28 15:44:05 公開日:2024-08-26 |
# Scalar Gravitational Aharonov-Bohm効果: Gravitational Redshiftの一般化
Scalar Gravitational Aharonov-Bohm Effect: Generalization of the Gravitational Redshift ( http://arxiv.org/abs/2408.14629v1 ) ライセンス: Link先を確認 | Michael E Tobar, Michael T Hatzon, Graeme R Flower, Maxim Goryachev, | (参考訳) アハロノフ・ボーム効果(英: Aharonov-Bohm effect)は、ポテンシャルがそれらのポテンシャルに付随する古典的な場が欠如している場合でも、どのように観測可能な効果を持つかを示す量子力学的現象である。
当初、電磁相互作用について提案されたが、この効果は長年にわたって実験的に確認され、広く研究されてきた。
最近では、原子干渉計を用いて重力相互作用の文脈でこの効果が観測されている。
さらに、最近の予測では、電子波関数の位相の時間変化は、時間変化のスカラー重力ポテンシャル [1] によってのみ駆動される原子時計のエネルギー準位における変調サイドバンドを誘導することを示唆している。
本研究では、原子時計を、電子の基底と励起状態の間の連続的なラビ振動を受ける2レベル系とみなす。
遷移を駆動する光子は、遷移に一致するように正確に周波数安定化され、正確なクロック比較を可能にすると仮定する。
我々の分析は、原子が基底状態から励起状態に遷移すると、エネルギーを吸収し、質量エネルギー同値原理に従って質量を増大させることを考慮に入れている。
2つのエネルギーレベルの質量差により、偏心軌道の原子時計は、軌道の平均重力赤方偏移に対応する地上時計に対して一定の周波数シフトを示すと予測する。
The Aharonov-Bohm effect is a quantum mechanical phenomenon that demonstrates how potentials can have observable effects even when the classical fields associated with those potentials are absent. Initially proposed for electromagnetic interactions, this effect has been experimentally confirmed and extensively studied over the years. More recently, the effect has been observed in the context of gravitational interactions using atom interferometry. Additionally, recent predictions suggest that temporal variations in the phase of an electron wave function will induce modulation sidebands in the energy levels of an atomic clock, solely driven by a time-varying scalar gravitational potential [1]. In this study, we consider the atomic clock as a two-level system undergoing continuous Rabi oscillations between the electron's ground and excited state. We assume the photons driving the transition are precisely frequency-stabilized to match the transition, enabling accurate clock comparisons. Our analysis takes into account, that when an atom transitions from its ground state to an excited state, it absorbs energy, increasing its mass according to the mass-energy equivalence principle. Due to the mass difference between the two energy levels, we predict that an atomic clock in an eccentric orbit will exhibit a constant frequency shift relative to a ground clock corresponding to the orbit's average gravitational redshift, with additional modulation sidebands due to the time-varying gravitational potential. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# 関係が複雑になる! Web 上のデータセット間の関係の分析
Relationships are Complicated! An Analysis of Relationships Between Datasets on the Web ( http://arxiv.org/abs/2408.14636v1 ) ライセンス: Link先を確認 | Kate Lin, Tarfah Alrashed, Natasha Noy, | (参考訳) 現在Webには数百万のデータセットがあり、データセットの数は急速に増え続けている。
これらのデータセットはスタンドアロンのエンティティではなく、複雑な関係を通じて複雑に結びついている。
データセット間のセマンティックな関係は、研究と意思決定プロセスに重要な洞察を与える。
本稿では,Web上のデータセットを発見し,利用し,共有するユーザの視点から,データセットの関係について検討する。
ユーザが知りたいコンテキスト情報は何か?
まず、Web上のデータセット間の関係を包括的に分類し、これらの関係をデータセット発見中に実行されるユーザタスクにマッピングする。
我々はこれらの関係を識別する一連の手法を開発し、Webページから生成されたデータセットの大規模なコーパスとschema.orgマークアップを比較した。
データセットメタデータを用いた機械学習に基づく手法が,多クラス分類精度の90%を達成できることを実証した。
最後に、データセットの利用可能なセマンティックマークアップのギャップを強調し、包括的セマンティックスを組み込むことによってデータセット関係の識別が容易になる方法について論じる。
本論文は,大規模データセット関係の包括的概要を提供することで,今後の研究のベンチマークを定めている。
The Web today has millions of datasets, and the number of datasets continues to grow at a rapid pace. These datasets are not standalone entities; rather, they are intricately connected through complex relationships. Semantic relationships between datasets provide critical insights for research and decision-making processes. In this paper, we study dataset relationships from the perspective of users who discover, use, and share datasets on the Web: what relationships are important for different tasks? What contextual information might users want to know? We first present a comprehensive taxonomy of relationships between datasets on the Web and map these relationships to user tasks performed during dataset discovery. We develop a series of methods to identify these relationships and compare their performance on a large corpus of datasets generated from Web pages with schema.org markup. We demonstrate that machine-learning based methods that use dataset metadata achieve multi-class classification accuracy of 90%. Finally, we highlight gaps in available semantic markup for datasets and discuss how incorporating comprehensive semantics can facilitate the identification of dataset relationships. By providing a comprehensive overview of dataset relationships at scale, this paper sets a benchmark for future research. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# エルミート行列のブロック対角化のための摂動力級数
Perturbative power series for block diagonalisation of Hermitian matrices ( http://arxiv.org/abs/2408.14637v1 ) ライセンス: Link先を確認 | Ishan N. H. Mankodi, David P. DiVincenzo, | (参考訳) 正準変換による行列のブロック対角化は物理学の様々な分野において重要である。
このような対角化は現在、凝縮物質物理学、超伝導回路におけるゲートのモデリング、および孤立量子多体系の研究に関心がある。
特定のエルミート行列のブロック対角化は一意ではないが、ある種の補助条件で一意にできる。
最近の文献では、これら2つの条件、すなわち、ジェネレータのブロックオフ対角性は、同じ変換をもたらすと仮定されている。我々は、これはそうではなく、これら2つのアプローチが、小さなパラメータにおいて3次に発散することを示している。我々は、"'Last Action'の摂動パワーシリーズを導出し、ブロックオフ対角性の喪失を明確に示している。
Block diagonalisation of matrices by canonical transformation is important in various fields of physics. Such diagonalization is currently of interest in condensed matter physics, for modelling of gates in superconducting circuits and for studying isolated quantum many-body systems. While the block diagonalisation of a particular Hermitian matrix is not unique, it can be made unique with certain auxiliary conditions. It has been assumed in some recent literature that two of these conditions, ``least action" vs. block-off-diagonality of the generator, lead to identical transformations. We show that this is not the case, and that these two approaches diverge at third order in the small parameter. We derive the perturbative power series of the ``least action", exhibiting explicitly the loss of block-off-diagnoality. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# 人間-AIインタラクションゲームにおける適応率とコスト表示の効果
Effect of Adaptation Rate and Cost Display in a Human-AI Interaction Game ( http://arxiv.org/abs/2408.14640v1 ) ライセンス: Link先を確認 | Jason T. Isa, Bohan Wu, Qirui Wang, Yilin Zhang, Samuel A. Burden, Lillian J. Ratliff, Benjamin J. Chasnov, | (参考訳) 人間とAIの相互作用がより一般的になるにつれて、これらの相互作用における人間の振る舞いをより正確に予測することが重要である。
我々は,AIの適応アルゴリズムの変化が2プレイヤー連続ゲームにおける行動予測に与える影響について検討した。
我々の実験では、AIは異なる適応率で勾配降下アルゴリズムを用いて行動に適応し、人間の参加者はコストフィードバックを提供した。
コストフィードバックは2種類の視覚ディスプレイのうちの1つによって提供された。
(a)現在の共同行動ベクトルのコスト、又は
(b)現在の関節動作ベクトルの局所的な近傍におけるコスト
実験の結果,AI適応率は人間の行動に大きく影響し,ゲーム理論の平衡を2つに分けた結果が得られた。
適応速度の遅さはナッシュ均衡に移行し, 高速速度は人間主導のスタッケルベルク均衡に移行した。
局所的なコスト情報の追加は、現在の共同行動ベクトルのみのコスト情報から得られる結果と比較して、結果をナッシュにシフトさせる効果があった。
今後の研究は、勾配降下ゲームの収束に影響を与える他の効果について検討する。
As interactions between humans and AI become more prevalent, it is critical to have better predictors of human behavior in these interactions. We investigated how changes in the AI's adaptive algorithm impact behavior predictions in two-player continuous games. In our experiments, the AI adapted its actions using a gradient descent algorithm under different adaptation rates while human participants were provided cost feedback. The cost feedback was provided by one of two types of visual displays: (a) cost at the current joint action vector, or (b) cost in a local neighborhood of the current joint action vector. Our results demonstrate that AI adaptation rate can significantly affect human behavior, having the ability to shift the outcome between two game theoretic equilibrium. We observed that slow adaptation rates shift the outcome towards the Nash equilibrium, while fast rates shift the outcome towards the human-led Stackelberg equilibrium. The addition of localized cost information had the effect of shifting outcomes towards Nash, compared to the outcomes from cost information at only the current joint action vector. Future work will investigate other effects that influence the convergence of gradient descent games. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# 破壊のビジョン:インタラクティブアートにおける生成AIの可能性を探る
Visions of Destruction: Exploring a Potential of Generative AI in Interactive Art ( http://arxiv.org/abs/2408.14644v1 ) ライセンス: Link先を確認 | Mar Canet Sola, Varvara Guljajeva, | (参考訳) 本稿では,対話型アートにおける生成AIの可能性について,実践に基づく研究手法を用いて検討する。
インタラクティブなアートワーク "Visions of Destruction" を詳細なケーススタディとして紹介し、動的でオーディエンス対応のエクスペリエンスを作り出すために、生成AIの革新的な利用を強調している。
このアートワークは、視線に基づくインタラクションを適用して、デジタルランドスケープを動的に変更し、AIで作成された現代のコラージュを生成し、自然に対する人間のダメージに関するデータに基づいてトレーニングし、聴衆のインタラクションによってガイドされることによって、人間の活動が環境に与える影響を象徴する。
自然景観の人間造・工業化された景観への転換は、視聴者の交流を通じて環境劣化を思い起こさせるのに役立つ。
この論文は、このようなインタラクティブなアートインスタレーションを作成する上での技術的課題と芸術的革新を徹底的に探求し、芸術的表現、オーディエンスエンゲージメント、特にインタラクティブなアート分野の機会に革命をもたらす生成AIの可能性を強調している。
これは、人類新世と人為的な気候変動に関する深い理解と考察を喚起することを目的として、アートワークの背後にある概念的枠組みに関する洞察を提供する。
この研究は、創造的なAIとインタラクティブアートの分野に大きく貢献し、テクノロジーと環境意識を説得力があり、思い起こさせる方法でブレンドする。
This paper explores the potential of generative AI within interactive art, employing a practice-based research approach. It presents the interactive artwork "Visions of Destruction" as a detailed case study, highlighting its innovative use of generative AI to create a dynamic, audience-responsive experience. This artwork applies gaze-based interaction to dynamically alter digital landscapes, symbolizing the impact of human activities on the environment by generating contemporary collages created with AI, trained on data about human damage to nature, and guided by audience interaction. The transformation of pristine natural scenes into human-made and industrialized landscapes through viewer interaction serves as a stark reminder of environmental degradation. The paper thoroughly explores the technical challenges and artistic innovations involved in creating such an interactive art installation, emphasizing the potential of generative AI to revolutionize artistic expression, audience engagement, and especially the opportunities for the interactive art field. It offers insights into the conceptual framework behind the artwork, aiming to evoke a deeper understanding and reflection on the Anthropocene era and human-induced climate change. This study contributes significantly to the field of creative AI and interactive art, blending technology and environmental consciousness in a compelling, thought-provoking manner. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# ParTEETor: Tor内のTEEの一部をデプロイするシステム
ParTEETor: A System for Partial Deployments of TEEs within Tor ( http://arxiv.org/abs/2408.14646v1 ) ライセンス: Link先を確認 | Rachel King, Quinn Burke, Yohan Beugin, Blaine Hoak, Kunyang Li, Eric Pauley, Ryan Sheatsley, Patrick McDaniel, | (参考訳) Torの匿名ネットワークは、政治活動家や抑圧的な政府下にある人々が、インターネット上で通信する際にプライバシーを保護することができる。
同時に、Torは、ユーザの振る舞いやアイデンティティを暴露する匿名化攻撃のいくつかのクラスに脆弱性があることが示されている。
以前の研究では、信頼された実行環境(TEE)を活用することで、これらの脅威を軽減できることが示されている。
しかし、以前の提案では、ネットワーク内のリレーはすべてTEEベースのものであり、実際は非現実的であると仮定していた。
本稿では,Tor-variantシステムであるParTEETorを紹介する。
非政治と政策の2つの方法を研究する。
非政治モードは、既存のTorリレー選択アルゴリズムを使用して、ユーザのインシデントセキュリティを提供する。
ポリシーモードは、特定のTEE回路構成を強制することにより、攻撃のクラスに対処するためにリレー選択アルゴリズムを拡張する。
セキュリティ,パフォーマンス,プライバシについてParTEETorを評価した。
我々の評価は、たとえ小さなTEE侵入でも(例:リレーの10%がTEEベースである)、ユーザはTorのパフォーマンスに到達し、少なくとも2つの攻撃からの保護を保証するためのセキュリティポリシーを実施できることを示している。
全体として、Torの部分的なデプロイは、パフォーマンスやプライバシに大きな影響を及ぼすことなく、Torのセキュリティを大幅に改善することができる。
The Tor anonymity network allows users such as political activists and those under repressive governments to protect their privacy when communicating over the internet. At the same time, Tor has been demonstrated to be vulnerable to several classes of deanonymizing attacks that expose user behavior and identities. Prior work has shown that these threats can be mitigated by leveraging trusted execution environments (TEEs). However, previous proposals assume that all relays in the network will be TEE-based-which as a practical matter is unrealistic. In this work, we introduce ParTEETor, a Tor-variant system, which leverages partial deployments of TEEs to thwart known attacks. We study two modes of operation: non-policy and policy. Non-policy mode uses the existing Tor relay selection algorithm to provide users incident security. Policy mode extends the relay selection algorithm to address the classes of attacks by enforcing a specific TEE circuit configuration. We evaluate ParTEETor for security, performance, and privacy. Our evaluation demonstrates that at even a small TEE penetration (e.g., 10% of relays are TEE-based), users can reach performance of Tor today while enforcing a security policy to guarantee protection from at least two classes of attacks. Overall, we find that partial deployments of TEEs can substantially improve the security of Tor, without a significant impact on performance or privacy. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# オープンエンド環境における創発言語
Emergent Language in Open-Ended Environments ( http://arxiv.org/abs/2408.14649v1 ) ライセンス: Link先を確認 | Cornelius Wolff, Julius Mayer, Elia Bruni, Xenia Ohmer, | (参考訳) 創発的な言語研究は近年大きな進歩を遂げているが、コミュニケーションがより複雑で位置のあるマルチエージェントシステムでどのように現れるかはいまだに解明されていない。
既存の設定では、エージェント間の単一の純粋に言語ベースの相互作用からなるため、学習可能な言語の出現現象の範囲を制限する参照ゲームが用いられる。
本稿では,これらの制約に対処し,複数段階にわたる移動・通信を通じてエージェントが環境と対話するオープンエンドマルチエージェント環境におけるトークンベースのコミュニケーションの出現と有用性を検討する。
具体的には,マルチエージェントポンとコレクターの2つの新しい協調環境を紹介する。
これらの環境は、最適な性能は通信プロトコルの出現を必要とするため興味深いが、適度な成功はそれなしで達成できる。
サリエンシマップ、摂動、診断分類器などの説明可能なAI研究の様々な方法を利用することで、エージェントの言語チャネルの使用を時間とともに追跡し、解釈することができる。
エージェントは意味のあるメッセージのみを生成し、調整なしでは成功できない状態の受信メッセージに作用する。
Emergent language research has made significant progress in recent years, but still largely fails to explore how communication emerges in more complex and situated multi-agent systems. Existing setups often employ a reference game, which limits the range of language emergence phenomena that can be studied, as the game consists of a single, purely language-based interaction between the agents. In this paper, we address these limitations and explore the emergence and utility of token-based communication in open-ended multi-agent environments, where situated agents interact with the environment through movement and communication over multiple time-steps. Specifically, we introduce two novel cooperative environments: Multi-Agent Pong and Collectors. These environments are interesting because optimal performance requires the emergence of a communication protocol, but moderate success can be achieved without one. By employing various methods from explainable AI research, such as saliency maps, perturbation, and diagnostic classifiers, we are able to track and interpret the agents' language channel use over time. We find that the emerging communication is sparse, with the agents only generating meaningful messages and acting upon incoming messages in states where they cannot succeed without coordination. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# 固体中の原子集合型回折光学のモデリング
Modeling Atomistically Assembled Diffractive Optics in Solids ( http://arxiv.org/abs/2408.14651v1 ) ライセンス: Link先を確認 | Trevor Kling, Dong-yeop Na, Mahdi Hosseini, | (参考訳) 固体ホスト材料中の光中心の2次元周期格子および非周期格子における長距離原子-原子相互作用を記述するモデルを構築した。
周波数や位置の拡充など,現実的な環境・技術条件について検討する。
アンサンブル(約300GHz)における有意な周波数拡大を考慮した場合であっても,システム内の共振格子からの指向性散乱の最大3倍の増大が観測される。
このモデルは、例えば量子レンズのような量子光学素子を、材料中の集合相互作用の原子工学(例えばイオン注入)を活用して、量子特性を高めるために、シャープに設計することができる。
We develop a model describing long-range atom-atom interactions in a two-dimensional periodic or aperiodic lattice of optical centers inside a solid-state host material. We consider realistic environmental and technical conditions such as frequency and position broadening. Even when considering a significant frequency broadening in the ensemble (approximately 300 GHz), we observe up to a three-fold increase in directional scattering from the resonant lattice in a system. The model can be used to scalably design quantum optical elements, e.g. a quantum lens, harnessing atomistic engineering (e.g. via ion implantation) of collective interactions in materials to enhance quantum properties. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# KGPrune: Wikidataから関心のサブグラフを抽出するWebアプリケーション
KGPrune: a Web Application to Extract Subgraphs of Interest from Wikidata with Analogical Pruning ( http://arxiv.org/abs/2408.14658v1 ) ライセンス: Link先を確認 | Pierre Monnin, Cherif-Hassan Nousradine, Lucas Jarnac, Laurel Zuckerman, Miguel Couceiro, | (参考訳) 知識グラフ(KG)は、広く公開されている知識ソースとなり、現在、ますます増加する領域をカバーしている。
しかし、新しいアプリケーションや特定のタスクを考える際に、表されるすべての知識が有用または関連しているわけではない。
また、そのサイズが大きくなるため、全体において大きなKGを扱うにはスケーラビリティの問題が伴う。
これら2つの側面は、既存のKGから興味のある部分グラフを抽出する効率的な方法を求める。
この目的のために、KGPruneは、興味とプロパティのシードエンティティをトラバースに与え、Wikidataから近隣のサブグラフを抽出するWebアプリケーションである。
局所的ドリフトを避けるため、KGPruneは類似の推論に基づくフラガルプルーニングアルゴリズムを頼りに、関係のないものをプルーニングしながら、関連する隣人をのみ保持する。
KGPruneの関心は、企業KGのブートストラップと、略奪された美術品に関する知識の抽出という、2つの具体的な応用によって示される。
Knowledge graphs (KGs) have become ubiquitous publicly available knowledge sources, and are nowadays covering an ever increasing array of domains. However, not all knowledge represented is useful or pertaining when considering a new application or specific task. Also, due to their increasing size, handling large KGs in their entirety entails scalability issues. These two aspects asks for efficient methods to extract subgraphs of interest from existing KGs. To this aim, we introduce KGPrune, a Web Application that, given seed entities of interest and properties to traverse, extracts their neighboring subgraphs from Wikidata. To avoid topical drift, KGPrune relies on a frugal pruning algorithm based on analogical reasoning to only keep relevant neighbors while pruning irrelevant ones. The interest of KGPrune is illustrated by two concrete applications, namely, bootstrapping an enterprise KG and extracting knowledge related to looted artworks. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# 比較分析:トランスファーラーニングを用いたビデオからの暴力認識
Comparative Analysis: Violence Recognition from Videos using Transfer Learning ( http://arxiv.org/abs/2408.14659v1 ) ライセンス: Link先を確認 | Dursun Dashdamirov, | (参考訳) 行動認識はコンピュータビジョンにおいてホットな話題となっている。
しかし、ビデオ処理におけるコンピュータビジョンの主な応用は、比較的単純なアクションの検出に焦点が当てられ、暴力検出のような複雑な事象は比較的研究されていない。
本研究では,複雑なデータセット上での様々な深層学習手法のベンチマークに焦点をあてる。
次に、より大きなデータセットを使用して、データ量の増加によるアップリフトをテストする。
データセットのサイズは500から1600に増加し、4つのモデルの平均精度が6%向上した。
Action recognition has become a hot topic in computer vision. However, the main applications of computer vision in video processing have focused on detection of relatively simple actions while complex events such as violence detection have been comparatively less investigated. This study focuses on the benchmarking of various deep learning techniques on a complex dataset. Next, a larger dataset is utilized to test the uplift from increasing volume of data. The dataset size increase from 500 to 1,600 videos resulted in a notable average accuracy improvement of 6% across four models. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# ロシアによるサイバー攻撃はウクライナのサイバー抵抗によって破壊され、単なるセキュリティではない
Russian Cyber Onslaught was Blunted by Ukrainian Cyber Resilience, not Merely Security ( http://arxiv.org/abs/2408.14667v1 ) ライセンス: Link先を確認 | Alexander Kott, George, Dubynskyi, Andrii Paziuk, Stephanie E. Galaitsi, Benjamin D. Trump, Igor Linkov, | (参考訳) ロシアによるウクライナへのサイバー攻撃は、ウクライナの堅牢なサイバー防衛のためだけでなく、ウクライナの効果的なサイバー弾力性の結果としても有意義な結果をもたらすことができなかった。
Russian cyberattacks on Ukraine largely failed to produce meaningful outcomes not merely due to robust Ukrainian cyber defenses but were instead primarily a result of Ukraine's effective cyber resilience. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# 物理的に可能なセマンティックセマンティックセグメンテーション
Physically Feasible Semantic Segmentation ( http://arxiv.org/abs/2408.14672v1 ) ライセンス: Link先を確認 | Shamik Basu, Christos Sakaridis, Luc Van Gool, | (参考訳) 最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。
この純粋にデータ駆動のパラダイムは、特にトレーニング中に遭遇した領域から入力画像の領域がシフトした場合、しばしば不条理なセグメンテーションにつながる。
例えば、最先端のモデルでは、'road'というラベルを、それぞれ‘sky'とラベル付けされたセグメントの上に位置するセグメントに割り当てることができます。
提案手法であるPhyFeaは,意味セグメンテーションデータセットのトレーニングセットから空間クラス関係を規定する明示的な物理的制約を抽出し,これらの制約の違反をペナルティ化し,予測可能性を促進する。
PhyFeaは、ADE20K、Cityscapes、ACDCでベースラインとして使用している各最先端ネットワークに対してmIoUを大幅に改善します。
State-of-the-art semantic segmentation models are typically optimized in a data-driven fashion, minimizing solely per-pixel classification objectives on their training data. This purely data-driven paradigm often leads to absurd segmentations, especially when the domain of input images is shifted from the one encountered during training. For instance, state-of-the-art models may assign the label ``road'' to a segment which is located above a segment that is respectively labeled as ``sky'', although our knowledge of the physical world dictates that such a configuration is not feasible for images captured by forward-facing upright cameras. Our method, Physically Feasible Semantic Segmentation (PhyFea), extracts explicit physical constraints that govern spatial class relations from the training sets of semantic segmentation datasets and enforces a differentiable loss function that penalizes violations of these constraints to promote prediction feasibility. PhyFea yields significant performance improvements in mIoU over each state-of-the-art network we use as baseline across ADE20K, Cityscapes and ACDC, notably a $1.5\%$ improvement on ADE20K and a $2.1\%$ improvement on ACDC. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# gWaveNet:カスタムカーネル統合ディープラーニング法を用いたノイズ衛星データからの重力波の分類
gWaveNet: Classification of Gravity Waves from Noisy Satellite Data using Custom Kernel Integrated Deep Learning Method ( http://arxiv.org/abs/2408.14674v1 ) ライセンス: Link先を確認 | Seraj Al Mahmud Mostafa, Omar Faruque, Chenxi Wang, Jia Yue, Sanjay Purushotham, Jianwu Wang, | (参考訳) 大気重力波は、重力と浮力の間の相互作用によって地球大気中に発生する。
これらの波は、降水パターン、雲の形成、オゾンの分布、エアロゾル、汚染物質分散など、大気の様々な側面に大きな影響を与える。
したがって、重力波を理解することは、幅広い大気の挙動の変化を理解し、監視するために不可欠である。
機械学習技術を用いて衛星データから重力波を識別するための限定的な研究がなされている。
特に、ノイズ除去技術を適用することなく、未調査の研究領域として残されている。
本研究では,衛星画像中の重力波の同定を目的とした新しいカーネル設計を提案する。
提案するカーネルは,gWaveNetと呼ばれる深層畳み込みニューラルネットワークにシームレスに統合される。
提案モデルでは,ノイズの多い衛星データから重力波を含む画像を検出するのに,特徴工学的手法を使わずに優れた精度を示す。
実験結果から, 重力波検出において, 98%以上のトレーニング精度と94%以上のテスト精度を達成し, 関連手法よりも優れた結果が得られた。
ソースコードはhttps://rb.gy/qn68ku.comで公開しています。
Atmospheric gravity waves occur in the Earths atmosphere caused by an interplay between gravity and buoyancy forces. These waves have profound impacts on various aspects of the atmosphere, including the patterns of precipitation, cloud formation, ozone distribution, aerosols, and pollutant dispersion. Therefore, understanding gravity waves is essential to comprehend and monitor changes in a wide range of atmospheric behaviors. Limited studies have been conducted to identify gravity waves from satellite data using machine learning techniques. Particularly, without applying noise removal techniques, it remains an underexplored area of research. This study presents a novel kernel design aimed at identifying gravity waves within satellite images. The proposed kernel is seamlessly integrated into a deep convolutional neural network, denoted as gWaveNet. Our proposed model exhibits impressive proficiency in detecting images containing gravity waves from noisy satellite data without any feature engineering. The empirical results show our model outperforms related approaches by achieving over 98% training accuracy and over 94% test accuracy which is known to be the best result for gravity waves detection up to the time of this work. We open sourced our code at https://rb.gy/qn68ku. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# 最適化トラジェクトリはマルチタスク転送を説明できるか?
Can Optimization Trajectories Explain Multi-Task Transfer? ( http://arxiv.org/abs/2408.14677v1 ) ライセンス: Link先を確認 | David Mueller, Mark Dredze, Nicholas Andrews, | (参考訳) 深層学習におけるマルチタスクトレーニングの普及にもかかわらず、マルチタスク学習(MTL)が一般化に与える影響についてはほとんど理解されていない。
従来の研究では、MTLの負の効果は訓練中に発生する最適化の問題によるものと推測されており、マルチタスク性能を改善するために多くの最適化手法が提案されている。
しかし、近年の研究により、これらの手法はマルチタスクの一般化を一貫して改善することができないことが示されている。
本研究は,MTLがタスクの最適化にどのように影響するかを実証的に研究し,この影響が一般化にMTLが与える影響を説明できるかどうかを考察することによって,これらの失敗に対する理解を深めることを目的とする。
MTLは, 単タスクと多タスクのトラジェクトリ間での訓練の早期に比較して, 一般化のギャップを生じさせることを示す。
しかし, 単一タスク設定における一般化ギャップを説明するために提案された最適化軌道の因子は, 単一タスクモデルとマルチタスクモデルの間の一般化ギャップを説明できない。
さらに,タスク間の勾配衝突の量は,タスク最適化に対する負の効果と相関するが,一般化の予測はできないことを示す。
我々の研究は、MTLにおける障害の原因について光を当て、そして重要なことは、汎用マルチタスク最適化アルゴリズムの役割に関する疑問を提起する。
Despite the widespread adoption of multi-task training in deep learning, little is understood about how multi-task learning (MTL) affects generalization. Prior work has conjectured that the negative effects of MTL are due to optimization challenges that arise during training, and many optimization methods have been proposed to improve multi-task performance. However, recent work has shown that these methods fail to consistently improve multi-task generalization. In this work, we seek to improve our understanding of these failures by empirically studying how MTL impacts the optimization of tasks, and whether this impact can explain the effects of MTL on generalization. We show that MTL results in a generalization gap-a gap in generalization at comparable training loss-between single-task and multi-task trajectories early into training. However, we find that factors of the optimization trajectory previously proposed to explain generalization gaps in single-task settings cannot explain the generalization gaps between single-task and multi-task models. Moreover, we show that the amount of gradient conflict between tasks is correlated with negative effects to task optimization, but is not predictive of generalization. Our work sheds light on the underlying causes for failures in MTL and, importantly, raises questions about the role of general purpose multi-task optimization algorithms. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# ギャップを埋める - オンラインランキングシステムの知識蒸留における隠れた挑戦を解き放つ
Bridging the Gap: Unpacking the Hidden Challenges in Knowledge Distillation for Online Ranking Systems ( http://arxiv.org/abs/2408.14678v1 ) ライセンス: Link先を確認 | Nikhil Khani, Shuo Yang, Aniruddh Nath, Yang Liu, Pendo Abbo, Li Wei, Shawn Andrews, Maciej Kula, Jarrod Kahn, Zhe Zhao, Lichan Hong, Ed Chi, | (参考訳) 知識蒸留(KD)は、大規模モデルをより小さく、より効率的なモデルに圧縮するための強力なアプローチである。
しかしながら、現在のKD研究は、主にコンピュータビジョン(CV)とNLPタスクに焦点を当てており、レコメンデーターシステムに固有の独自のデータ特性と課題を見下ろしている。
本稿では,(1)教師モデルと学生モデル間のデータ分散シフトの緩和,(2)時間的制約と予算的制約の中で最適な教師構成を効率的に同定すること,(3)教師ラベルの計算的かつ迅速な共有を可能にすること,といった課題に対処する。
本稿では,Google内の複数の大規模パーソナライズされたビデオレコメンデーションシステム上で,堅牢なKDシステムを構築し,厳密に評価する。
実験の結果,データストリームから高品質な教師ラベルを連続的に生成し,信頼性を確保しつつ,学生モデルの性能を著しく向上させることができた。
Knowledge Distillation (KD) is a powerful approach for compressing a large model into a smaller, more efficient model, particularly beneficial for latency-sensitive applications like recommender systems. However, current KD research predominantly focuses on Computer Vision (CV) and NLP tasks, overlooking unique data characteristics and challenges inherent to recommender systems. This paper addresses these overlooked challenges, specifically: (1) mitigating data distribution shifts between teacher and student models, (2) efficiently identifying optimal teacher configurations within time and budgetary constraints, and (3) enabling computationally efficient and rapid sharing of teacher labels to support multiple students. We present a robust KD system developed and rigorously evaluated on multiple large-scale personalized video recommendation systems within Google. Our live experiment results demonstrate significant improvements in student model performance while ensuring consistent and reliable generation of high quality teacher labels from a continuous data stream of data. | 翻訳日:2024-08-28 15:34:19 公開日:2024-08-26 |
# Memristor-based Neural Networksを用いたオンチップ学習:デバイス変動、コンダクタンスエラー、入力ノイズによる精度と効率の評価
On-Chip Learning with Memristor-Based Neural Networks: Assessing Accuracy and Efficiency Under Device Variations, Conductance Errors, and Input Noise ( http://arxiv.org/abs/2408.14680v1 ) ライセンス: Link先を確認 | M. Reza Eslami, Dhiman Biswas, Soheib Takhtardeshir, Sarah S. Sharif, Yaser M. Banad, | (参考訳) 本稿では,デバイス変動,コンダクタンス誤差,入力雑音に対する精度と効率性に着目した,オンチップトレーニングと推論のためのメモリメモリ・ハードウェア・アクセラレータを提案する。
市販の銀系自己指向チャネル(M-SDC)メムリスタの現実的なSPICEモデルを用いて、回路シミュレーションに固有の非イデオロギーを取り入れた。
30メムリスタと4つのニューロンからなるこのハードウェアは、タングステン、クロム、炭素媒体を持つ3つの異なるM-SDC構造を用いてバイナリ画像分類タスクを実行する。
オンチップトレーニングアルゴリズムは、目標重量を達成するためにメムリスタコンダクタンスを正確に調整する。
その結果、トレーニング中に中等音(15%)を取り入れることで、コンダクタンス変動や入力ノイズにもかかわらず最大97%の精度でデバイス変動やノイズ入力データに対する堅牢性が向上することがわかった。
ネットワークは10%のコンダクタンス誤差をかなりの精度の損失なく許容する。
特に、トレーニング中の初期メムリスタリセットパルスを省略することは、トレーニング時間とエネルギー消費を著しく減少させる。
クロムベースのメムリスタで設計されたハードウェアは優れた性能を示し、2.4秒のトレーニング時間と18.9mJのエネルギー消費を実現している。
この研究は、エッジアプリケーションにおけるオンチップ学習のための堅牢でエネルギー効率のよいmemristorベースのニューラルネットワークを開発するための洞察を提供する。
This paper presents a memristor-based compute-in-memory hardware accelerator for on-chip training and inference, focusing on its accuracy and efficiency against device variations, conductance errors, and input noise. Utilizing realistic SPICE models of commercially available silver-based metal self-directed channel (M-SDC) memristors, the study incorporates inherent device non-idealities into the circuit simulations. The hardware, consisting of 30 memristors and 4 neurons, utilizes three different M-SDC structures with tungsten, chromium, and carbon media to perform binary image classification tasks. An on-chip training algorithm precisely tunes memristor conductance to achieve target weights. Results show that incorporating moderate noise (<15%) during training enhances robustness to device variations and noisy input data, achieving up to 97% accuracy despite conductance variations and input noises. The network tolerates a 10% conductance error without significant accuracy loss. Notably, omitting the initial memristor reset pulse during training considerably reduces training time and energy consumption. The hardware designed with chromium-based memristors exhibits superior performance, achieving a training time of 2.4 seconds and an energy consumption of 18.9 mJ. This research provides insights for developing robust and energy-efficient memristor-based neural networks for on-chip learning in edge applications. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-26 |
# コンダクタンスに基づく情報平面解析によるニューラルネットワークの解釈性向上
Enhancing Neural Network Interpretability Through Conductance-Based Information Plane Analysis ( http://arxiv.org/abs/2408.14681v1 ) ライセンス: Link先を確認 | Jaouad Dabounou, Amine Baazzouz, | (参考訳) インフォメーションプレーン(Information Plane)は、ニューラルネットワーク内の情報の流れを分析するために使用される概念的なフレームワークであるが、アクティベーションに基づく従来の手法では、情報処理のダイナミクスを完全に把握できない可能性がある。
本稿では,入力特徴に対する感度尺度であるレイヤコンダクタンスを用いて情報平面解析を強化する手法を提案する。
勾配に基づくコントリビューションを取り入れることで、ネットワーク内の情報力学をより正確に評価することができる。
The proposed conductance-based Information Plane and a new Information Transformation efficiency (ITE) metric on pretrained ResNet50 and VGG16 model using the ImageNet dataset。
以上の結果から,レイヤ間の情報圧縮,保存,利用に関する知見を提供するとともに,モデルの性能と解釈可能性に大きく寄与する重要な隠蔽層を識別する能力を示す。
コンダクタンスベースのアプローチは、特徴属性に関する詳細な視点を提供し、ニューラルネットワーク内の意思決定プロセスの理解を深めます。
さらに、実世界のデータシナリオにおける情報力学の複雑さを浮き彫りにして、Information Bottleneck理論のある種の理論的予測に挑戦した。
提案手法は、ニューラルネットワークにおける情報力学の理解を深めるだけでなく、より解釈可能で効率的で堅牢なモデルの開発を可能にすることによって、人工知能の幅広い分野に大きな影響を与える可能性がある。
The Information Plane is a conceptual framework used to analyze the flow of information in neural networks, but traditional methods based on activations may not fully capture the dynamics of information processing. This paper introduces a new approach that uses layer conductance, a measure of sensitivity to input features, to enhance the Information Plane analysis. By incorporating gradient-based contributions, we provide a more precise characterization of information dynamics within the network. The proposed conductance-based Information Plane and a new Information Transformation Efficiency (ITE) metric are evaluated on pretrained ResNet50 and VGG16 models using the ImageNet dataset. Our results demonstrate the ability to identify critical hidden layers that contribute significantly to model performance and interpretability, giving insights into information compression, preservation, and utilization across layers. The conductance-based approach offers a granular perspective on feature attribution, enhancing our understanding of the decision-making processes within neural networks. Furthermore, our empirical findings challenge certain theoretical predictions of the Information Bottleneck theory, highlighting the complexities of information dynamics in real-world data scenarios. The proposed method not only advances our understanding of information dynamics in neural networks but also has the potential to significantly impact the broader field of Artificial Intelligence by enabling the development of more interpretable, efficient, and robust models. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-26 |
# 解釈可能なサブグループドリフトの検出
Detecting Interpretable Subgroup Drifts ( http://arxiv.org/abs/2408.14682v1 ) ライセンス: Link先を確認 | Flavio Giobergia, Eliana Pastor, Luca de Alfaro, Elena Baralis, | (参考訳) データ分散の変化を検出し、適応する能力は、機械学習モデルの正確性と信頼性を維持するために不可欠である。
検出は一般的に,グローバルな視点からモデル性能のドリフトを観察することによって行われる。
しかし、(きめ細かい)データサブグループで発生するドリフトは、グローバルドリフトを監視する際には気づかないかもしれない。
異なる視点を採り、サブグループのより微細な粒度で漂流を観察する手法を導入する。
関連するデータサブグループはトレーニング中に識別され、モデルの生涯を通して効率的に監視される。
任意のサブグループの性能ドリフトを検出し、定量化し、時間とともにモデル動作の解釈可能な要約を提供するように特徴付ける。
実験結果から,我々のサブグループレベルのドリフト解析では,(粗い)グローバルデータセットレベルでは示さないドリフトが検出された。
提案されたアプローチは、動的現実世界のアプリケーションにおけるモデルパフォーマンスを監視し、進化するデータの性質に関する洞察を提供し、最終的にはより堅牢で適応的なモデルに寄与する、貴重なツールを提供する。
The ability to detect and adapt to changes in data distributions is crucial to maintain the accuracy and reliability of machine learning models. Detection is generally approached by observing the drift of model performance from a global point of view. However, drifts occurring in (fine-grained) data subgroups may go unnoticed when monitoring global drift. We take a different perspective, and introduce methods for observing drift at the finer granularity of subgroups. Relevant data subgroups are identified during training and monitored efficiently throughout the model's life. Performance drifts in any subgroup are detected, quantified and characterized so as to provide an interpretable summary of the model behavior over time. Experimental results confirm that our subgroup-level drift analysis identifies drifts that do not show at the (coarser) global dataset level. The proposed approach provides a valuable tool for monitoring model performance in dynamic real-world applications, offering insights into the evolving nature of data and ultimately contributing to more robust and adaptive models. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-26 |
# 工学的量子ウォークを用いた角運動量固有状態の調製
Preparing angular momentum eigenstates using engineered quantum walks ( http://arxiv.org/abs/2408.14684v1 ) ライセンス: Link先を確認 | Yuan Shi, Kristin M. Beck, Veronika Anneliese Kruse, Stephen B. Libby, | (参考訳) 結合した角運動量固有状態は原子物理学や原子物理学の計算で広く使われ、スピンネットワークやシュア変換のためのブロックが構築されている。
2つの角運動量 $\mathbf{J}_1$ と $\mathbf{J}_2$ を組み合わせて、それらの全角運動量 $\mathbf{J}=\mathbf{J}_1+\mathbf{J}_2$ の固有状態を形成するため、古典的に$O(j^3) を入力しない量子ウォークスキームを開発する。
実際、我々のスキームは、典型的な複雑性が$O(j)$、最悪の複雑性が$O(j^3)$である量子コンピュータ上のCG係数を計算するためのユニタリな方法とみなすことができる。
等しく,本手法は高密度CGユニタリをスペーサーユニタリ演算に分解する。
我々のスキームは、ハミルトニアン列を用いて角運動量固有状態を作成し、初期状態を決定論的に所望の最終状態に移動させる。
ハミルトニアンが処方される通常の量子ウォークとは対照的に、磁気共鳴と双極子相互作用を管理するハミルトニアンから着想を得た、$\mathfrak{su}(2)\times \mathfrak{su}(2)$でハミルトニアンを設計する。
ケケット状態とブラ状態の両方を決定論的に調製するために、プロジェクションと破壊干渉を用いて量子ウォークをダブルピンチし、各ステップが2レベルシステム内の単位確率人口移動となるようにした。
我々は、CG係数を再現した古典的コンピュータ上で、状態準備方式をテストする。
また、現在の量子ハードウェア上での小さなテスト問題も実装している。
Coupled angular momentum eigenstates are widely used in atomic and nuclear physics calculations, and are building blocks for spin networks and the Schur transform. To combine two angular momenta $\mathbf{J}_1$ and $\mathbf{J}_2$, forming eigenstates of their total angular momentum $\mathbf{J}=\mathbf{J}_1+\mathbf{J}_2$, we develop a quantum-walk scheme that does not require inputting $O(j^3)$ nonzero Clebsch-Gordan (CG) coefficients classically. In fact, our scheme may be regarded as a unitary method for computing CG coefficients on quantum computers with a typical complexity of $O(j)$ and a worst-case complexity of $O(j^3)$. Equivalently, our scheme provides decompositions of the dense CG unitary into sparser unitary operations. Our scheme prepares angular momentum eigenstates using a sequence of Hamiltonians to move an initial state deterministically to desired final states, which are usually highly entangled states in the computational basis. In contrast to usual quantum walks, whose Hamiltonians are prescribed, we engineer the Hamiltonians in $\mathfrak{su}(2)\times \mathfrak{su}(2)$, which are inspired by, but different from, Hamiltonians that govern magnetic resonances and dipole interactions. To achieve a deterministic preparation of both ket and bra states, we use projection and destructive interference to double pinch the quantum walks, such that each step is a unit-probability population transfer within a two-level system. We test our state preparation scheme on classical computers, reproducing CG coefficients. We also implement small test problems on current quantum hardware. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-26 |
# 強変形非定常空力流の制御のためのモデルベース強化学習
Model-Based Reinforcement Learning for Control of Strongly-Disturbed Unsteady Aerodynamic Flows ( http://arxiv.org/abs/2408.14685v1 ) ライセンス: Link先を確認 | Zhecheng Liu, Diederik Beckers, Jeff D. Eldredge, | (参考訳) 流体力学の本質的な高次元は空気力学の制御に固有の課題であり、強い乱れに対する流れの非線形応答によりさらに複雑である。
強化学習(RL)の探索的側面と深層ニューラルネットワークのリッチ非線形性を活用する深層強化学習は、実現可能な制御戦略を発見するための有望なアプローチを提供する。
しかし、強化学習に対する典型的なモデルフリーアプローチは、トレーニング中にフロー環境とRLエージェントとの間のかなりの量の相互作用を必要とし、この高いトレーニングコストは、その開発と応用を妨げる。
本研究では,モデルに基づく強化学習(MBRL)手法を提案する。
このモデルは、高次元CFDフローフィールドスナッソスを3次元潜在空間に圧縮する物理拡張オートエンコーダと、動作シーケンスに応じて潜在空間における軌道の長時間のダイナミクスを正確に予測するために訓練された潜在ダイナミクスモデルとから構成される。
このモデルのロバスト性および一般化性は、2つの異なる流れ環境, 非常に乱れた環境での投球翼, 乱れのない環境での垂直軸風力タービンで示される。
第一問題における訓練モデルに基づいて、ガスト翼衝突時の昇降変動を緩和するMBRL戦略を実現する。
そこで本研究では,低次環境下で学んだ政策が,フルCFD環境における効果的な制御戦略に変換されることを実証する。
The intrinsic high dimension of fluid dynamics is an inherent challenge to control of aerodynamic flows, and this is further complicated by a flow's nonlinear response to strong disturbances. Deep reinforcement learning, which takes advantage of the exploratory aspects of reinforcement learning (RL) and the rich nonlinearity of a deep neural network, provides a promising approach to discover feasible control strategies. However, the typical model-free approach to reinforcement learning requires a significant amount of interaction between the flow environment and the RL agent during training, and this high training cost impedes its development and application. In this work, we propose a model-based reinforcement learning (MBRL) approach by incorporating a novel reduced-order model as a surrogate for the full environment. The model consists of a physics-augmented autoencoder, which compresses high-dimensional CFD flow field snaphsots into a three-dimensional latent space, and a latent dynamics model that is trained to accurately predict the long-time dynamics of trajectories in the latent space in response to action sequences. The robustness and generalizability of the model is demonstrated in two distinct flow environments, a pitching airfoil in a highly disturbed environment and a vertical-axis wind turbine in a disturbance-free environment. Based on the trained model in the first problem, we realize an MBRL strategy to mitigate lift variation during gust-airfoil encounters. We demonstrate that the policy learned in the reduced-order environment translates to an effective control strategy in the full CFD environment. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-26 |
# 局所ドリフト検出限界探索のための合成ベンチマーク
A Synthetic Benchmark to Explore Limitations of Localized Drift Detections ( http://arxiv.org/abs/2408.14687v1 ) ライセンス: Link先を確認 | Flavio Giobergia, Eliana Pastor, Luca de Alfaro, Elena Baralis, | (参考訳) 概念ドリフトは、対象変数の統計的性質が時間とともに変化するデータストリームにおいて一般的な現象である。
伝統的に、ドリフトは全世界で発生し、データセット全体に一様に影響を与えると仮定される。
しかし、この仮定は、データ内の特定のサブポピュレーションだけがドリフトを経験する現実世界のシナリオでは必ずしも当てはまらない。
本稿では,局所的ドリフトの概念を考察し,そのような局所的変化を特定するために,複数のドリフト検出技術の性能を評価する。
ランダムに選択されたサブグループでドリフトが誘導されるAgrawalジェネレータに基づく合成データセットを提案する。
本実験により, 小型個体群に制限された場合, ドリフト検出法はドリフト検出に失敗する可能性が示唆された。
本研究では,この局所的なドリフトシナリオにおけるドリフト検出手法の有効性を定量化するために,様々なドリフト検出手法を提案する。
合成ベンチマーク生成のソースコードはhttps://github.com/fgiobergia/subgroup-agrawal-drift.comで公開しています。
Concept drift is a common phenomenon in data streams where the statistical properties of the target variable change over time. Traditionally, drift is assumed to occur globally, affecting the entire dataset uniformly. However, this assumption does not always hold true in real-world scenarios where only specific subpopulations within the data may experience drift. This paper explores the concept of localized drift and evaluates the performance of several drift detection techniques in identifying such localized changes. We introduce a synthetic dataset based on the Agrawal generator, where drift is induced in a randomly chosen subgroup. Our experiments demonstrate that commonly adopted drift detection methods may fail to detect drift when it is confined to a small subpopulation. We propose and test various drift detection approaches to quantify their effectiveness in this localized drift scenario. We make the source code for the generation of the synthetic benchmark available at https://github.com/fgiobergia/subgroup-agrawal-drift. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-26 |
# 大規模言語モデルにおける学習自由なアクティベーション空間
Training-Free Activation Sparsity in Large Language Models ( http://arxiv.org/abs/2408.14690v1 ) ライセンス: Link先を確認 | James Liu, Pragaash Ponnusamy, Tianle Cai, Han Guo, Yoon Kim, Ben Athiwaratkun, | (参考訳) アクティベーションスパシティは、前方通過時の行列乗算に必要な計算量とメモリ移動量を削減し、大規模言語モデル(LLM)における実用的な推論スピードアップを可能にする。
しかし、既存の手法は広く普及を阻害する限界に直面している。
いくつかのアプローチは、ReLUベースのスパーシリティを持つ古いモデル向けに調整されているが、数千億のトークンに対して、広範な事前トレーニングを必要とするものもある。
本稿では,TEALについて述べる。TEALは,モデル全体にわたって,大域的なアクティベーション間隔を隠蔽状態に適用する,単純なトレーニング不要な手法である。
TEALは、Llama-2、Llama-3、Mistralファミリ間の性能劣化を最小限に抑えながら、40-50%のモデル幅を実現し、サイズは7Bから70Bまで様々である。
既存のスパースカーネルを改善し、最大1.53$\times$と1.8$\times$のウォールクロック復号速度を40%および50%のモデル幅で示す。
TEALは重量量子化と互換性があり、さらなる効率向上を可能にする。
Activation sparsity can enable practical inference speedups in large language models (LLMs) by reducing the compute and memory-movement required for matrix multiplications during the forward pass. However, existing methods face limitations that inhibit widespread adoption. Some approaches are tailored towards older models with ReLU-based sparsity, while others require extensive continued pre-training on up to hundreds of billions of tokens. This paper describes TEAL, a simple training-free method that applies magnitude-based activation sparsity to hidden states throughout the entire model. TEAL achieves 40-50% model-wide sparsity with minimal performance degradation across Llama-2, Llama-3, and Mistral families, with sizes varying from 7B to 70B. We improve existing sparse kernels and demonstrate wall-clock decoding speed-ups of up to 1.53$\times$ and 1.8$\times$ at 40% and 50% model-wide sparsity. TEAL is compatible with weight quantization, enabling further efficiency gains. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-26 |
# 共設計によるアナログ量子機械学習アルゴリズムの精度向上
Circumventing Traps in Analog Quantum Machine Learning Algorithms Through Co-Design ( http://arxiv.org/abs/2408.14697v1 ) ライセンス: Link先を確認 | Rodrigo Araiza Bravo, Jorge Garcia Ponce, Hong-ye Hu, Susanne F. Yelin, | (参考訳) 量子機械学習のQMLアルゴリズムは、ノイズの多い中間スケールシステム上で、短期的に適用可能な量子計算を提供することを約束する。
これらのアルゴリズムの多くは汎用的な用途に量子回路を利用するが、最近の一連の提案はアナログ量子機械学習(AQML)アルゴリズムと呼ばれ、回路ベースの抽象化から脱却し、量子システムの自然力学を計算に活用することを好んでいる。
近年のAQML研究は、量子最適制御(QOC)の理論に基づいて、最適なアンザッツ選択の実践と、AQMLアルゴリズムがトラップレスランドスケープを持つかどうかを決定することを求めている。
このコールは、ブラックボックス表現を許容するモデルと、特定のユニタリ進化をシミュレートしたモデルであるAQMLランドスケープを2つのモデルで体系的に研究することで解決する。
数値的には、第1種は風景に局所的なトラップを示し、第2種はトラップフリーである。
しかし、どちらの種もトラップのない景観を保証するためのQOC理論の重要な前提に反する。
アンザッツのマグナス展開を用いた一元進化シミュレーションのためのAQMLアルゴリズムの共設計手法を提案する。
我々は、力学のシミュレーションにおける良好な収束と、気象学および量子化学への応用を示す。
AQMLアルゴリズムの適用性を確保するためには,このような共同設計が必要であると結論付けている。
Quantum machine learning QML algorithms promise to deliver near-term, applicable quantum computation on noisy, intermediate-scale systems. While most of these algorithms leverage quantum circuits for generic applications, a recent set of proposals, called analog quantum machine learning (AQML) algorithms, breaks away from circuit-based abstractions and favors leveraging the natural dynamics of quantum systems for computation, promising to be noise-resilient and suited for specific applications such as quantum simulation. Recent AQML studies have called for determining best ansatz selection practices and whether AQML algorithms have trap-free landscapes based on theory from quantum optimal control (QOC). We address this call by systematically studying AQML landscapes on two models: those admitting black-boxed expressivity and those tailored to simulating a specific unitary evolution. Numerically, the first kind exhibits local traps in their landscapes, while the second kind is trap-free. However, both kinds violate QOC theory's key assumptions for guaranteeing trap-free landscapes. We propose a methodology to co-design AQML algorithms for unitary evolution simulation using the ansatz's Magnus expansion. We show favorable convergence in simulating dynamics with applications to metrology and quantum chemistry. We conclude that such co-design is necessary to ensure the applicability of AQML algorithms. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-26 |
# スマートマルチモーダル検索:Adobe Expressにおけるコンテキストスパースとデンス埋め込みの統合
Smart Multi-Modal Search: Contextual Sparse and Dense Embedding Integration in Adobe Express ( http://arxiv.org/abs/2408.14698v1 ) ライセンス: Link先を確認 | Cherag Aroraa, Tracy Holloway King, Jayant Kumar, Yi Lu, Sanat Sharma, Arvind Srikantan, David Uvalle, Josep Valls-Vargas, Harsha Vardhan, | (参考訳) ユーザコンテンツやクエリのマルチモーダル化が進むにつれ,効率的なマルチモーダル検索システムの必要性が高まっている。
従来の検索システムはインデックス画像のテキストやメタデータのアノテーションに頼っていることが多いが、CLIPのようなマルチモーダルの埋め込みはテキストや画像の埋め込みを直接検索できる。
しかし、埋め込みベースのアプローチは、ユーザのローカライズやリレーシといったコンテキスト機能を統合する際の課題に直面している。
スケーラブルなマルチモーダル検索システムを構築するには、いくつかのコンポーネントを微調整する必要がある。
本稿では,Adobe Expressのテンプレート検索において,組込みとマルチモーダル技術を最適化するマルチモーダル検索アーキテクチャと一連のABテストを提案する。
埋め込みモデル選択、マッチングとランク付けにおける埋め込みの役割、密着と疎着のバランス等について考察する。
我々の反復的アプローチは、スパース、高密度、コンテキスト的な機能を利用することで、短いクエリー検索や長いクエリー検索が向上し、ヌルレート(70%以上)が大幅に減少し、クリックスルーレート(CTR)が向上することを示す。
本研究は,堅牢なマルチモーダル検索システムの構築に関する知見を提供し,複雑なクエリの関連性を高めることを目的とする。
As user content and queries become increasingly multi-modal, the need for effective multi-modal search systems has grown. Traditional search systems often rely on textual and metadata annotations for indexed images, while multi-modal embeddings like CLIP enable direct search using text and image embeddings. However, embedding-based approaches face challenges in integrating contextual features such as user locale and recency. Building a scalable multi-modal search system requires fine-tuning several components. This paper presents a multi-modal search architecture and a series of AB tests that optimize embeddings and multi-modal technologies in Adobe Express template search. We address considerations such as embedding model selection, the roles of embeddings in matching and ranking, and the balance between dense and sparse embeddings. Our iterative approach demonstrates how utilizing sparse, dense, and contextual features enhances short and long query search, significantly reduces null rates (over 70\%), and increases click-through rates (CTR). Our findings provide insights into developing robust multi-modal search systems, thereby enhancing relevance for complex queries. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-26 |
# ランドスケープアーキテクチャにおける人工知能 : サーベイ
Artificial Intelligence in Landscape Architecture: A Survey ( http://arxiv.org/abs/2408.14700v1 ) ライセンス: Link先を確認 | Yue Xing, Wensheng Gan, Qidi Chen, | (参考訳) ランドスケープ・アーキテクチャ(LA)の発展史は、環境の美化と生態的バランスの追求を反映している。
人間の知性をシミュレートし拡張する人工知能(AI)技術の進歩により、LAには膨大な機会が提供され、ワークフロー全体を通して科学的および技術的支援が提供されている。
本稿では,LA分野におけるAI技術の応用を概観する。
まず、AIがLAの設計、計画、管理にもたらす多くの潜在的な利点を紹介します。
第2に、都市化、環境劣化、生態系の衰退、不合理な計画、管理と維持の不十分、公的な参加の欠如など、現在の開発課題を解決する上で、AIがLAの分野をいかに支援できるかについて議論する。
さらに、設計支援からインテリジェント管理に至るまで、LAドメインにAIを適用する上で重要な技術と実践事例を要約し、LAの計画、設計、保守のための革新的なソリューションを提供する。
最後に、LAの課題と機会に目を向け、人間の専門知識と合理的な意思決定のための判断を組み合わせる必要性を強調します。
この記事では、LAの設計者、研究者、技術開発者に理論的および実践的なガイダンスを提供する。
AIテクノロジのLAへの統合の成功は、フィールドの能力を向上し、より持続可能な、効率的で、ユーザフレンドリーな結果を達成するための大きな約束である。
The development history of landscape architecture (LA) reflects the human pursuit of environmental beautification and ecological balance. With the advancement of artificial intelligence (AI) technologies that simulate and extend human intelligence, immense opportunities have been provided for LA, offering scientific and technological support throughout the entire workflow. In this article, we comprehensively review the applications of AI technology in the field of LA. First, we introduce the many potential benefits that AI brings to the design, planning, and management aspects of LA. Secondly, we discuss how AI can assist the LA field in solving its current development problems, including urbanization, environmental degradation and ecological decline, irrational planning, insufficient management and maintenance, and lack of public participation. Furthermore, we summarize the key technologies and practical cases of applying AI in the LA domain, from design assistance to intelligent management, all of which provide innovative solutions for the planning, design, and maintenance of LA. Finally, we look ahead to the problems and opportunities in LA, emphasizing the need to combine human expertise and judgment for rational decision-making. This article provides both theoretical and practical guidance for LA designers, researchers, and technology developers. The successful integration of AI technology into LA holds great promise for enhancing the field's capabilities and achieving more sustainable, efficient, and user-friendly outcomes. | 翻訳日:2024-08-28 15:24:16 公開日:2024-08-26 |
# MONAS: MCUの効率的なゼロショットニューラルネットワーク検索
MONAS: Efficient Zero-Shot Neural Architecture Search for MCUs ( http://arxiv.org/abs/2408.15034v1 ) ライセンス: Link先を確認 | Ye Qiao, Haocheng Xu, Yifan Zhang, Sitao Huang, | (参考訳) ニューラルネットワーク探索(NAS)は、新しい畳み込みニューラルネットワーク(CNN)アーキテクチャの発見に有効であることが証明されている。
しかし、従来のアプローチでは、スーパーネットワークでの時間を要するトレーニングや、集中的なアーキテクチャサンプリングと評価が伴っていた。
CNNモデルの精度と相関する様々なゼロコストプロキシが、トレーニング無しで効率的なアーキテクチャ探索のために提案されているが、ハードウェアの欠如により、マイクロコントローラユニット(MCU)のようなリソース制約の高いエッジデバイスをターゲットにすることは困難である。
これらの課題に対処するために,我々は,エッジコンピューティングにおけるMCUに特化したハードウェア対応ゼロショットNASフレームワークであるMONASを紹介した。
MONASは,提案したMCUハードウェア遅延推定モデルを用いて,検索プロセスにハードウェア最適性を考慮した。
これを特別なパフォーマンス指標(プロキシ)と組み合わせることで、MONASは、重いトレーニングと評価コストを伴わずに最適なニューラルネットワークを特定し、リソース制約下でのハードウェアレイテンシと精度の両方を最適化する。
MONASは、MCUをターゲットとした以前の作業よりも1104倍の検索効率向上を実現し、より一般的なNASアプローチに比べて精度を保ちながら、3.23倍高速なMCUのCNNモデルを発見できる。
Neural Architecture Search (NAS) has proven effective in discovering new Convolutional Neural Network (CNN) architectures, particularly for scenarios with well-defined accuracy optimization goals. However, previous approaches often involve time-consuming training on super networks or intensive architecture sampling and evaluations. Although various zero-cost proxies correlated with CNN model accuracy have been proposed for efficient architecture search without training, their lack of hardware consideration makes it challenging to target highly resource-constrained edge devices such as microcontroller units (MCUs). To address these challenges, we introduce MONAS, a novel hardware-aware zero-shot NAS framework specifically designed for MCUs in edge computing. MONAS incorporates hardware optimality considerations into the search process through our proposed MCU hardware latency estimation model. By combining this with specialized performance indicators (proxies), MONAS identifies optimal neural architectures without incurring heavy training and evaluation costs, optimizing for both hardware latency and accuracy under resource constraints. MONAS achieves up to a 1104x improvement in search efficiency over previous work targeting MCUs and can discover CNN models with over 3.23x faster inference on MCUs while maintaining similar accuracy compared to more general NAS approaches. | 翻訳日:2024-08-28 13:53:43 公開日:2024-08-26 |
# 補充型確率データ拡張とハードバウンダリボックストレーニングを用いたX線胃癌検診の実際
Practical X-ray Gastric Cancer Screening Using Refined Stochastic Data Augmentation and Hard Boundary Box Training ( http://arxiv.org/abs/2108.08158v4 ) ライセンス: Link先を確認 | Hideaki Okamoto, Quan Huu Cap, Takakiyo Nomura, Kazuhito Nabeshima, Jun Hashimoto, Hitoshi Iyatomi, | (参考訳) 内視鏡検査は胃癌の診断に広く用いられ、高い診断性能を有するが、医師が行う必要があるため、診断できる人の数を制限する必要がある。
対照的に、胃X線検査は技術者が行うことができ、より多くの患者をスクリーニングすることができるが、正確な診断には経験が必要である。
胃X線画像に対する前例のない,実用的な胃癌診断支援システムを提案する。
このシステムは、一般的なディープラーニングに基づく物体検出モデルに基づいており、改良された確率的胃画像増強(R-sGAIA)とハードバウンダリボックストレーニング(HBBT)という2つの新しい技術が組み込まれている。
R-sGAIAは、確率論的胃の折り畳み領域を強化し、がん検出モデルにより多くの学習パターンを提供する。
HBBTは、通常、従来の検出モデルでは使用できない非注釈陰性(健康的な制御)サンプルを使用することで、モデル性能を向上させる効率的な訓練方法である。
提案システムは, 胃癌に対する感度(SE)が90.2%であり, 専門家の感度(85.5%)よりも高い。
さらに、検出された5つのうち2つが癌であり、画像当たり0.01秒の速度で画像を処理しながら高い精度を維持している。
このシステムは、同じオブジェクト検出モデルと最先端データ拡張を使った手法よりも優れており、F1スコアの5.9ポイント改善を示している。
要約すると, このシステムは, 放射線科医が実用的な時間枠内で検査する領域を効率よく同定し, 作業負荷を大幅に削減する。
Endoscopy is widely used to diagnose gastric cancer and has a high diagnostic performance, but it must be performed by a physician, which limits the number of people who can be diagnosed. In contrast, gastric X-rays can be performed by technicians and screen a much larger number of patients, but accurate diagnosis requires experience. We propose an unprecedented and practical gastric cancer diagnosis support system for gastric X-ray images, enabling more people to be screened. The system is based on a general deep learning-based object detection model and incorporates two novel techniques: refined probabilistic stomach image augmentation (R-sGAIA) and hard boundary box training (HBBT). R-sGAIA enhances the probabilistic gastric fold region, providing more learning patterns for cancer detection models. HBBT is an efficient training method that improves model performance by allowing the use of unannotated negative (i.e., healthy control) samples, which are typically unusable in conventional detection models. The proposed system achieves a sensitivity (SE) for gastric cancer of 90.2%, higher than that of an expert (85.5%). Additionally, two out of five detected candidate boxes are cancerous, maintaining high precision while processing images at a speed of 0.51 seconds per image. The system also outperforms methods using the same object detection model and state-of-the-art data augmentation, showing a 5.9-point improvement in the F1 score. In summary, this system efficiently identifies areas for radiologists to examine within a practical timeframe, significantly reducing their workload. | 翻訳日:2024-08-28 01:41:09 公開日:2024-08-26 |
# ディラック量子化による拡張不確かさ原理
Extended Uncertainty Principle via Dirac Quantization ( http://arxiv.org/abs/2204.01780v2 ) ライセンス: Link先を確認 | Mytraya Gattu, S. Shankaranarayanan, | (参考訳) 量子論と重力を統一することは物理学の基本的な課題である。
現存するほとんどの文献は重力による量子理論の紫外線 (UV) の修正に焦点を当てているが、この研究は、曲がった時空で量子理論を記述する際に、一般的な赤外線 (IR) の修正が生じることを示している。
我々は、位置モメンタム代数への修正が曲率不変量(リッチスカラーやクレッツマンスカラーなど)に比例することを明確に示している。
我々の結果は、ディラックの量子化法の厳密な応用によって導かれたものであり、量子系における赤外効果は公理的に導出できることを示した。
任意の湾曲時空における粒子動力学を高次元平面幾何学に埋め込むことにより研究する。
我々のアプローチは、高次元平坦な幾何に粒子力学を埋め込み、ディラックの量子化法を利用することで、4次元の曲線時空における粒子の力学を、修正された位置モメンタム代数によって捉えることができる。
様々な時空に適用すると、時空曲率による補正は普遍的であることが分かる。
さらに, 拡張不確実性原理を用いた結果と比較した。
最後に、ブラックホールと絡み合いの研究の意義について論じる。
Unifying quantum theory and gravity remains a fundamental challenge in physics. While most existing literature focuses on the ultraviolet (UV) modifications of quantum theory due to gravity, this work shows that generic infrared (IR) modifications arise when we describe quantum theory in curved spacetime. We explicitly demonstrate that the modifications to the position-momentum algebra are proportional to curvature invariants (such as the Ricci scalar and Kretschmann scalar). Our results, derived through a rigorous application of Dirac's quantization procedure, demonstrate that infrared effects in quantum systems can be axiomatically derived. We study particle dynamics in an arbitrary curved spacetime by embedding them in a higher-dimensional flat geometry. Our approach, which involves embedding particle dynamics in a higher-dimensional flat geometry and utilizing Dirac's quantization procedure, allows us to capture the dynamics of a particle in 4-dimensional curved spacetime through a modified position-momentum algebra. When applied to various spacetimes, this method reveals that the corrections due to the spacetime curvature are universal. We further compare our results with those derived using extended uncertainty principles. Finally, we discuss the implications of our work for black holes and entanglement. | 翻訳日:2024-08-28 01:37:08 公開日:2024-08-26 |
# 仮想現実におけるセキュリティとプライバシ - 文献調査より
Security and Privacy in Virtual Reality -- A Literature Survey ( http://arxiv.org/abs/2205.00208v3 ) ライセンス: Link先を確認 | Alberto Giaretta, | (参考訳) VR(Virtual Reality)は、年々成長を続けている億万長者の市場だ。
VRは家庭や中小企業で普及しつつあるので、この技術がユーザーのプライバシーとセキュリティに与える影響に対処することが重要だ。
本稿では、VRプライバシとセキュリティの最先端を探求し、潜在的な問題と脅威を分類し、特定された脅威の原因と影響を分析する。
また,VRにおける認証分野においてこれまで実施されてきた研究に焦点をあてる。
また、サイバーセキュリティの分野におけるVRの他の興味深い利用、例えば、サイバーセキュリティを教えたり、セキュリティソリューションのユーザビリティを評価するためにVRを使用することについても概説する。
Virtual Reality (VR) is a multibillionaire market that keeps growing, year after year. As VR is becoming prevalent in households and small businesses, it is critical to address the effects that this technology might have on the privacy and security of its users. In this paper, we explore the state-of-the-art in VR privacy and security, we categorise potential issues and threats, and we analyse causes and effects of the identified threats. Besides, we focus on the research previously conducted in the field of authentication in VR, as it stands as the most investigated area in the topic. We also provide an overview of other interesting uses of VR in the field of cybersecurity, such as the use of VR to teach cybersecurity or evaluate the usability of security solutions. | 翻訳日:2024-08-28 01:37:08 公開日:2024-08-26 |
# インタラクティブな固定効果を用いた線形多次元回帰
Linear multidimensional regression with interactive fixed-effects ( http://arxiv.org/abs/2209.11691v4 ) ライセンス: Link先を確認 | Hugo Freeman, | (参考訳) 本稿では,3次元以上の多次元パネルデータに対する線形かつ付加的に分離可能なモデルについて検討する。
2つのアプローチは、観測された共変量に対する係数を推定する際に、これらの観測されていないインタラクティブな固定効果を考慮に入れていると考えられる。
第一に、モデルは標準的な2次元パネルの枠組みに埋め込まれており、Bai (2009) における因子構造法がモデルパラメータの一貫した推定に繋がる制約を形成するが、収束速度は遅い。
第2のアプローチでは、カーネル重み付き固定効果法を開発し、この問題の多次元的性質に対してより堅牢であり、特定の条件下での一貫性のパラメトリック速度を達成することができる。
理論的な結果とシミュレーションは、インタラクティブな固定効果項の構造が知られている場合の標準的な2次元パネル法にいくつかの利点を示す一方で、カーネル重み付け法がこの構造を知らずにどのように機能するかを強調している。
ビールの需要弾力性を推定する手法が提案されている。
This paper studies a linear and additively separable model for multidimensional panel data of three or more dimensions with unobserved interactive fixed effects. Two approaches are considered to account for these unobserved interactive fixed-effects when estimating coefficients on the observed covariates. First, the model is embedded within the standard two dimensional panel framework and restrictions are formed under which the factor structure methods in Bai (2009) lead to consistent estimation of model parameters, but at slow rates of convergence. The second approach develops a kernel weighted fixed-effects method that is more robust to the multidimensional nature of the problem and can achieve the parametric rate of consistency under certain conditions. Theoretical results and simulations show some benefits to standard two-dimensional panel methods when the structure of the interactive fixed-effect term is known, but also highlight how the kernel weighted method performs well without knowledge of this structure. The methods are implemented to estimate the demand elasticity for beer. | 翻訳日:2024-08-28 01:37:08 公開日:2024-08-26 |
# PDEBENCH:科学機械学習のベンチマーク
PDEBENCH: An Extensive Benchmark for Scientific Machine Learning ( http://arxiv.org/abs/2210.07182v7 ) ライセンス: Link先を確認 | Makoto Takamoto, Timothy Praditia, Raphael Leiteritz, Dan MacKinlay, Francesco Alesiani, Dirk Pflüger, Mathias Niepert, | (参考訳) 近年,物理システムの機械学習に基づくモデリングへの関心が高まっている。
目覚ましい進歩があったが、Scientific MLのベンチマークは依然として不足している。
本稿では,部分微分方程式(PDE)に基づく時間依存シミュレーションタスクのベンチマークスイートであるPDEBenchを紹介する。
PDEBenchは、コードとデータの両方で構成され、古典的な数値シミュレーションと機械学習ベースラインの両方に対して、新しい機械学習モデルのパフォーマンスをベンチマークする。
提案するベンチマークの集合は,(1)比較的一般的な例から,より現実的で困難な問題まで,既存のベンチマークよりもはるかに広い範囲のPDE,(2)多くの初期および境界条件とPDEパラメータをまたいだ複数のシミュレーションを含む,より大規模なデータセット,(3)一般的な機械学習モデル(FNO, U-Net, PINN, Gradient-Based Inverse Method)を用いたユーザフレンドリなAPIを備えた,より拡張可能なソースコード,といった特徴に寄与する。
PDEBenchは、標準化されたAPIを使用してベンチマークを自由に拡張し、新しいモデルのパフォーマンスを既存のベースラインメソッドと比較することを可能にする。
また,Scientific MLの文脈における学習方法のより総合的な理解を目的とした,新たな評価指標を提案する。
これらのメトリクスを使って、最近のMLメソッドで難しいタスクを特定し、これらのタスクをコミュニティの将来的な課題として提案します。
コードはhttps://github.com/pdebench/PDEBench.comで入手できる。
Machine learning-based modeling of physical systems has experienced increased interest in recent years. Despite some impressive progress, there is still a lack of benchmarks for Scientific ML that are easy to use but still challenging and representative of a wide range of problems. We introduce PDEBench, a benchmark suite of time-dependent simulation tasks based on Partial Differential Equations (PDEs). PDEBench comprises both code and data to benchmark the performance of novel machine learning models against both classical numerical simulations and machine learning baselines. Our proposed set of benchmark problems contribute the following unique features: (1) A much wider range of PDEs compared to existing benchmarks, ranging from relatively common examples to more realistic and difficult problems; (2) much larger ready-to-use datasets compared to prior work, comprising multiple simulation runs across a larger number of initial and boundary conditions and PDE parameters; (3) more extensible source codes with user-friendly APIs for data generation and baseline results with popular machine learning models (FNO, U-Net, PINN, Gradient-Based Inverse Method). PDEBench allows researchers to extend the benchmark freely for their own purposes using a standardized API and to compare the performance of new models to existing baseline methods. We also propose new evaluation metrics with the aim to provide a more holistic understanding of learning methods in the context of Scientific ML. With those metrics we identify tasks which are challenging for recent ML methods and propose these tasks as future challenges for the community. The code is available at https://github.com/pdebench/PDEBench. | 翻訳日:2024-08-28 01:37:08 公開日:2024-08-26 |
# Vision meets algae:マイクロ藻の認識と健康モニタリングのための新しい方法
Vision meets algae: A novel way for microalgae recognization and health monitor ( http://arxiv.org/abs/2211.07546v2 ) ライセンス: Link先を確認 | Shizheng Zhou, Juntao Jiang, Xiaohan Hong, Yan Hong, Pengcheng Fu, | (参考訳) 海洋性藻類は海洋に広く分布し、生態系において重要な役割を担っている。
顕微鏡画像中の海藻の自動識別と位置は、海洋環境モニタリングと水質評価システムを確立するのに役立つだろう。
本研究では,海藻の検出のための新しいデータセットと,異なる状態の藻類と同一属の画像を含む様々な検出方法を提案する。
我々は,データセット内の不均衡なクラス数を設定し,テストセットに混合水サンプルの画像を加え,フィールドの実際の状況をシミュレートした。
そして、このデータセット上で、TOOD、YOLOv5、YOLOv8、RCNNアルゴリズムの亜種をトレーニング、検証、テストしました。
その結果,1段階と2段階の物体検出モデルの両方で平均精度が向上し,マイクロ藻類のマルチオブジェクト検出におけるコンピュータビジョンの能力が証明され,マイクロ藻類のリアルタイム検出のための基本データとモデルが提供されることがわかった。
Marine microalgae are widespread in the ocean and play a crucial role in the ecosystem. Automatic identification and location of marine microalgae in microscopy images would help establish marine ecological environment monitoring and water quality evaluation system. We proposed a new dataset for the detection of marine microalgae and a range of detection methods, the dataset including images of different genus of algae and the same genus in different states. We set the number of unbalanced classes in the data set and added images of mixed water samples in the test set to simulate the actual situation in the field. Then we trained, validated and tested the, TOOD, YOLOv5, YOLOv8 and variants of RCNN algorithms on this dataset. The results showed both one-stage and two-stage object detection models can achieve high mean average precision, which proves the ability of computer vision in multi-object detection of microalgae, and provides basic data and models for real-time detection of microalgal cells. | 翻訳日:2024-08-28 01:37:08 公開日:2024-08-26 |
# Android マルウェア検出における特徴とモデルの重要性: ML ベース手法の実証と実験的比較
Investigating Feature and Model Importance in Android Malware Detection: An Implemented Survey and Experimental Comparison of ML-Based Methods ( http://arxiv.org/abs/2301.12778v3 ) ライセンス: Link先を確認 | Ali Muzaffar, Hani Ragab Hassen, Hind Zantout, Michael A Lones, | (参考訳) Androidの人気は、マルウェアの共通のターゲットであることを意味している。
長年にわたり、機械学習モデルがマルウェアを良質なアプリケーションから効果的に識別できることが様々な研究で発見されている。
しかし、オペレーティングシステムが進化するにつれて、マルウェアもこれらの研究の発見に疑問を呈し、その多くは、小さく、時代遅れで、しばしば不均衡なデータセットを使用して非常に高い精度を報告している。
本稿では18の代表的な過去の作品を再実装し、124,000のアプリケーションからなるバランスのとれた、関連性の高い最新のデータセットを用いてそれらを再評価する。
また,既存の知識の穴を埋めるための新たな実験を行い,現代の環境におけるAndroidのマルウェア検出に最も有効な特徴とモデルを特定する。
静的解析のみで抽出した特徴を用いて, 高い検出精度(最大96.8%)を達成できることを示し, はるかに高価な動的解析を用いることで, より穏やかな利点(1%)が得られることを示した。
API呼び出しとオプコードが最も生産性の高い静的およびTCPネットワークトラフィックは、最も予測可能な動的機能を提供する。
ランダムフォレストは一般的に最も効果的なモデルであり、より複雑なディープラーニングアプローチよりも優れている。
静的機能と動的機能を直接組み合わせることは一般的には効果がないが、アンサンブルモデルは最高のモデルに匹敵するパフォーマンスをもたらすが、より脆弱な機能を使用する。
The popularity of Android means it is a common target for malware. Over the years, various studies have found that machine learning models can effectively discriminate malware from benign applications. However, as the operating system evolves, so does malware, bringing into question the findings of these previous studies, many of which report very high accuracies using small, outdated, and often imbalanced datasets. In this paper, we reimplement 18 representative past works and reevaluate them using a balanced, relevant, and up-to-date dataset comprising 124,000 applications. We also carry out new experiments designed to fill holes in existing knowledge, and use our findings to identify the most effective features and models to use for Android malware detection within a contemporary environment. We show that high detection accuracies (up to 96.8%) can be achieved using features extracted through static analysis alone, yielding a modest benefit (1%) from using far more expensive dynamic analysis. API calls and opcodes are the most productive static and TCP network traffic provide the most predictive dynamic features. Random forests are generally the most effective model, outperforming more complex deep learning approaches. Whilst directly combining static and dynamic features is generally ineffective, ensembling models separately leads to performances comparable to the best models but using less brittle features. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-26 |
# ユーザビリティギャップのブリッジ:隠れマルコフモデルのスペクトル学習における理論的および方法論的進歩
Bridging the Usability Gap: Theoretical and Methodological Advances for Spectral Learning of Hidden Markov Models ( http://arxiv.org/abs/2302.07437v3 ) ライセンス: Link先を確認 | Xiaoyuan Ma, Jordan Rodu, | (参考訳) Baum-Welch (B-W) アルゴリズムは隠れマルコフモデル (HMM) を推論する最も広く受け入れられている手法である。
しかし、ローカルの最適化では立ち往生する傾向があり、多くのリアルタイムアプリケーションでは遅すぎる可能性がある。
モーメント法(MOM)に基づくHMM(SHMM)のスペクトル学習は,これらの障害を克服するために文献で提案されている。
SHMMに対する漸近的理論は期待されているが, SHMMの長期性能は, 未確認誤差の伝播により劣化する可能性がある。
本稿では, SHMMが推定した推定誤差の近似的誤差の漸近分布について, 2) 誤り伝播の問題を緩和するプロジェクテッドSHMM (PSHMM) と呼ばれる新しいアルゴリズムを提案し, (3) 潜在的な非定常性に対応するSHMMとPSHMMの両方のオンライン学習用変種を開発する。
SHMMの性能をPSHMMと比較し、実世界のアプリケーションからのデータとシミュレーションデータの両方でB-Wアルゴリズムを用いて推定し、PSHMMがSHMMの計算上の優位性を保持するだけでなく、より堅牢な推定と予測を提供することを示した。
The Baum-Welch (B-W) algorithm is the most widely accepted method for inferring hidden Markov models (HMM). However, it is prone to getting stuck in local optima, and can be too slow for many real-time applications. Spectral learning of HMMs (SHMM), based on the method of moments (MOM) has been proposed in the literature to overcome these obstacles. Despite its promises, asymptotic theory for SHMM has been elusive, and the long-run performance of SHMM can degrade due to unchecked propagation of error. In this paper, we (1) provide an asymptotic distribution for the approximate error of the likelihood estimated by SHMM, (2) propose a novel algorithm called projected SHMM (PSHMM) that mitigates the problem of error propagation, and (3) develop online learning variants of both SHMM and PSHMM that accommodate potential nonstationarity. We compare the performance of SHMM with PSHMM and estimation through the B-W algorithm on both simulated data and data from real world applications, and find that PSHMM not only retains the computational advantages of SHMM, but also provides more robust estimation and forecasting. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-26 |
# 演算量子参照フレーム変換
Operational Quantum Reference Frame Transformations ( http://arxiv.org/abs/2303.14002v3 ) ライセンス: Link先を確認 | Titouan Carette, Jan Głowacki, Leon Loveridge, | (参考訳) 量子参照フレームは、古典理論における参照フレームと全く同じ理由で量子理論において必要であり、基本的な相対性理論に従って不変性を示すことと、観測可能な量の定義の基盤を提供する。
1960年代以降、幅広い用途で使用されているが、近年では異なる量子参照フレーム間の記述を詳細に変換する手段がある。
本研究では、量子参照フレームとその変換のための一般的かつ運用的な動機付けのフレームワークを提供し、局所コンパクト群を保持する。
この研究は、物理的に区別できない量子状態が特定される、運用等価性の概念に基づいて構築されている。
例えば、系とフレームの合成上の不変量の代数の部分空間として相対可観測物の集合を記述し、ここから相対状態の集合は相対可観測物によって区別できない状態の同定によって構成される。
フレーム付きオブザーバブル(英語版)の概念(系とフレームの合同オブザーバブルの形成)を通じて、相対オブザーバブルは例として理解できるが、量子参照フレーム変換はフレーミングを尊重する相対状態の同値類の間の写像となる。
我々は、初期フレームが観測可能なフレームに対して高度に局所化された状態を持つという設定において、明示的な実現を与える。
変換は、最終フレームがそのようなローカライズ性を持つとき、正確には可逆である。
提案手法は, 共通適用性領域に関する他の非等価な構成と運用上の合意が得られたが, 様々な方法で拡張し, フレーム変化による絡み合い生成の主張を弱める。
Quantum reference frames are needed in quantum theory for much the same reasons that reference frames are in classical theories: to manifest invariance in line with fundamental relativity principles and to provide a basis for the definition of observable quantities. Though around since the 1960s, and used in a wide range of applications, only recently has the means for transforming descriptions between different quantum reference frames been tackled in detail. In this work, we provide a general, operationally motivated framework for quantum reference frames and their transformations, holding for locally compact groups. The work is built around the notion of operational equivalence, in which quantum states that cannot be physically distinguished are identified. For example, we describe the collection of relative observables as a subspace of the algebra of invariants on the composite of system and frame, and from here the set of relative states is constructed through the identification of states which cannot be distinguished by relative observables. Through the notion of framed observables -- the formation of joint observables of system and frame -- of which the relative observables can be understood as examples, quantum reference frame transformations are then maps between equivalence classes of relative states which respect the framing. We give an explicit realisation in the setting that the initial frame admits a highly localized state with respect to the frame observable. The transformations are invertible exactly when the final frame also has such a localizability property. The procedure we present is in operational agreement with other recent inequivalent constructions on the domain of common applicability, but extends them in a number of ways, and weakens claims of entanglement generation through frame changes. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-26 |
# 不完全多視点部分的マルチラベル分類のための信頼表現学習
Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification ( http://arxiv.org/abs/2303.17117v2 ) ライセンス: Link先を確認 | Chengliang Liu, Jie Wen, Yong Xu, Bob Zhang, Liqiang Nie, Min Zhang, | (参考訳) マルチビュー学習とマルチラベル分類のクロストピックとして,近年,多ビュー多ラベル分類が徐々に普及している。
マルチビュー・コントラッシブ・ラーニングの適用は、このプロセスをさらに促進してきたが、既存のマルチビュー・コントラッシブ・ラーニング手法は、いわゆる負対を粗末に分離し、ほぼ同一のカテゴリや類似のものに属するサンプルの分離に繋がる。
さらに、ビューやラベルの欠如を無視する多視点多ラベル学習手法も数多く存在する。
これらの課題に対処するために,RANKという不完全な多視点部分的マルチラベル分類ネットワークを提案する。
本研究では,ラベル駆動型マルチビューコントラスト学習戦略を提案し,教師付き情報を活用してビュー内の構造を保存し,ビュー間で一貫したアライメントを行う。
さらに,既存の手法に固有のビューレベル重みを突破し,各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
ラベル相関情報は、最終マルチラベルのクロスエントロピー分類損失において完全に活用され、識別力を効果的に向上する。
最後に重要なことは、私たちのモデルは完全なマルチビューのマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも処理できます。
広範囲な実験により、RANKは既存の最先端手法よりも優れていることが確認された。
As a cross-topic of multi-view learning and multi-label classification, multi-view multi-label classification has gradually gained traction in recent years. The application of multi-view contrastive learning has further facilitated this process, however, the existing multi-view contrastive learning methods crudely separate the so-called negative pair, which largely results in the separation of samples belonging to the same category or similar ones. Besides, plenty of multi-view multi-label learning methods ignore the possible absence of views and labels. To address these issues, in this paper, we propose an incomplete multi-view partial multi-label classification network named RANK. In this network, a label-driven multi-view contrastive learning strategy is proposed to leverage supervised information to preserve the structure within view and perform consistent alignment across views. Furthermore, we break through the view-level weights inherent in existing methods and propose a quality-aware sub-network to dynamically assign quality scores to each view of each sample. The label correlation information is fully utilized in the final multi-label cross-entropy classification loss, effectively improving the discriminative power. Last but not least, our model is not only able to handle complete multi-view multi-label datasets, but also works on datasets with missing instances and labels. Extensive experiments confirm that our RANK outperforms existing state-of-the-art methods. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-26 |
# MCMCによるベイズニューラルネットワーク : Pythonベースのチュートリアル
Bayesian neural networks via MCMC: a Python-based tutorial ( http://arxiv.org/abs/2304.02595v3 ) ライセンス: Link先を確認 | Rohitash Chandra, Joshua Simmons, | (参考訳) ベイズ推論は、機械学習とディープラーニングの手法におけるパラメータ推定と不確実性定量化のための方法論を提供する。
変分推論とマルコフ連鎖モンテカルロ(MCMC)サンプリング法を用いてベイズ推定を行う。
過去30年間、MCMCサンプリング手法は、大規模なモデル(ディープラーニングなど)やビッグデータ問題に適応する上で、いくつかの課題に直面してきた。
Langevinの提案分布のような勾配を組み込んだ高度な提案分布は、ベイズニューラルネットワークのMCMCサンプリングの制限に対処する手段を提供する。
さらに、MCMC法は統計学者に限られており、現在はディープラーニング研究者の間では知られていない。
本稿では,単純なベイズ線形およびロジスティックモデルとベイズニューラルネットワークをカバーするMCMC手法のチュートリアルを提案する。
このチュートリアルの目的は、この目的を達成するために、ライブラリやチュートリアルが広く散在していることを考えると、コーディングを通じて理論と実装のギャップを埋めることである。
このチュートリアルはPythonのコードに、その使用と拡張を可能にするデータとインストラクションを提供する。
MCMCを用いて各ベイズモデルを実装する際の長所と短所を示すベンチマーク問題について報告する。
ベイズニューラルネットワークの場合,多モード後部分布をサンプリングする際の課題と収束診断法の改善の必要性を強調した。
Bayesian inference provides a methodology for parameter estimation and uncertainty quantification in machine learning and deep learning methods. Variational inference and Markov Chain Monte-Carlo (MCMC) sampling methods are used to implement Bayesian inference. In the past three decades, MCMC sampling methods have faced some challenges in being adapted to larger models (such as in deep learning) and big data problems. Advanced proposal distributions that incorporate gradients, such as a Langevin proposal distribution, provide a means to address some of the limitations of MCMC sampling for Bayesian neural networks. Furthermore, MCMC methods have typically been constrained to statisticians and currently not well-known among deep learning researchers. We present a tutorial for MCMC methods that covers simple Bayesian linear and logistic models, and Bayesian neural networks. The aim of this tutorial is to bridge the gap between theory and implementation via coding, given a general sparsity of libraries and tutorials to this end. This tutorial provides code in Python with data and instructions that enable their use and extension. We provide results for some benchmark problems showing the strengths and weaknesses of implementing the respective Bayesian models via MCMC. We highlight the challenges in sampling multi-modal posterior distributions for the case of Bayesian neural networks and the need for further improvement of convergence diagnosis methods. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-26 |
# ニューラルネットワークによる性能予測
Performative Prediction with Neural Networks ( http://arxiv.org/abs/2304.06879v2 ) ライセンス: Link先を確認 | Mehrnaz Mofakhami, Ioannis Mitliagkas, Gauthier Gidel, | (参考訳) パフォーマンス予測(Performative prediction)は、予測するデータに影響を与えるモデルを学習するためのフレームワークである。
そこで本研究では, 性能的に安定な分類器, すなわち, 推定したデータ分布に最適な分類器の発見に焦点をあてる。
繰り返しリスク最小化法を用いて、性能的に安定な分類器を見つけるための標準収束結果は、データの分布がモデルのパラメータに連続であることを仮定する。
この仮定の下では、損失はこれらのパラメータで強く凸し滑らかでなければならない。
この研究では、データ分布はモデルの予測に関してリプシッツ連続であると仮定する。
その結果,損失関数の仮定を著しく緩和することができた。
特に、モデルのパラメータに関して凸性を仮定する必要はない。
実例として,現実的な分布シフトをモデル化した再サンプリング手法を導入し,仮定を満足することを示す。
提案手法により,実データに関する予測を行うニューラルネットワークを用いて,動作安定な分類器を学習可能であることを示すことによって,我々の理論を支持する。
Performative prediction is a framework for learning models that influence the data they intend to predict. We focus on finding classifiers that are performatively stable, i.e. optimal for the data distribution they induce. Standard convergence results for finding a performatively stable classifier with the method of repeated risk minimization assume that the data distribution is Lipschitz continuous to the model's parameters. Under this assumption, the loss must be strongly convex and smooth in these parameters; otherwise, the method will diverge for some problems. In this work, we instead assume that the data distribution is Lipschitz continuous with respect to the model's predictions, a more natural assumption for performative systems. As a result, we are able to significantly relax the assumptions on the loss function. In particular, we do not need to assume convexity with respect to the model's parameters. As an illustration, we introduce a resampling procedure that models realistic distribution shifts and show that it satisfies our assumptions. We support our theory by showing that one can learn performatively stable classifiers with neural networks making predictions about real data that shift according to our proposed procedure. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-26 |
# ResNetにおける最適信号伝搬の場の理論
Field theory for optimal signal propagation in ResNets ( http://arxiv.org/abs/2305.07715v2 ) ライセンス: Link先を確認 | Kirsten Fischer, David Dahmen, Moritz Helias, | (参考訳) 残余ネットワークのトレーニング性は,フィードフォワードネットワークよりも大幅に向上した。
スキップ接続の導入により、より深い層への信号伝達が容易になる。
さらに, 余分分岐にスケーリングパラメータを追加することにより, 一般化性能がさらに向上することがわかった。
彼らは、このスケーリングパラメータの特に有用な範囲を実証的に特定したが、関連するパフォーマンス改善とネットワークハイパーパラメータ間の普遍性はまだ理解する必要がある。
フィードフォワードネットワークでは、信号伝搬とハイパーパラメータチューニングに関して、有限サイズ理論が重要な洞察を導いている。
ここでは、信号伝搬とその残留分岐のスケーリングへの依存性を研究するために、残留ネットワークの体系的有限サイズ場理論を導出する。
入力に対するネットワークの感度の指標である応答関数の解析式を導出し、深層ネットワークでは、スケーリングパラメータの実証的な値が最大感度の範囲内にあることを示す。
さらに、重み分散などの他のネットワークハイパーパラメータにのみ依存する最適スケーリングパラメータの解析式を求め、その普遍性を説明する。
全体として、この研究はResNetを有限サイズで研究するための理論的枠組みを提供する。
Residual networks have significantly better trainability and thus performance than feed-forward networks at large depth. Introducing skip connections facilitates signal propagation to deeper layers. In addition, previous works found that adding a scaling parameter for the residual branch further improves generalization performance. While they empirically identified a particularly beneficial range of values for this scaling parameter, the associated performance improvement and its universality across network hyperparameters yet need to be understood. For feed-forward networks, finite-size theories have led to important insights with regard to signal propagation and hyperparameter tuning. We here derive a systematic finite-size field theory for residual networks to study signal propagation and its dependence on the scaling for the residual branch. We derive analytical expressions for the response function, a measure for the network's sensitivity to inputs, and show that for deep networks the empirically found values for the scaling parameter lie within the range of maximal sensitivity. Furthermore, we obtain an analytical expression for the optimal scaling parameter that depends only weakly on other network hyperparameters, such as the weight variance, thereby explaining its universality across hyperparameters. Overall, this work provides a theoretical framework to study ResNets at finite size. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-26 |
# OCRBench: 大規模マルチモーダルモデルにおけるOCRの隠れミステリーについて
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models ( http://arxiv.org/abs/2305.07895v7 ) ライセンス: Link先を確認 | Yuliang Liu, Zhang Li, Mingxin Huang, Biao Yang, Wenwen Yu, Chunyuan Li, Xucheng Yin, Cheng-lin Liu, Lianwen Jin, Xiang Bai, | (参考訳) 大規模モデルは近年,自然言語処理やマルチモーダル視覚言語学習において重要な役割を担っている。
しかし、テキスト関連視覚課題におけるそれらの効果は、いまだに未解明のままである。
本稿では,テキスト認識,Scene Text-Centric Visual Question Answering (VQA), Document-Oriented VQA, Key Information extract (KIE), Handwriting Mathematical Expression Recognition (HMER) などのテキスト関連視覚タスクにおいて,GPT4VやGeminiなどの大規模マルチモーダルモデルの包括的評価を行った。
大規模マルチモーダルモデルにおける光学文字認識(OCR)機能の評価を容易にするため,包括的評価ベンチマークであるOCRBenchを提案する。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
さらに本研究では,これらのモデルの長所と短所,特に多言語テキスト,手書きテキスト,非意味テキスト,数学的表現認識を扱う際の長所と短所を明らかにした。
最も重要なことは、この研究で示されたベースラインの結果は、ゼロショットマルチモーダル技法の強化を目的とした革新的な戦略の構想と評価のための基礎的な枠組みを提供する可能性があることである。
評価パイプラインとベンチマークはhttps://github.com/Yuliang-Liu/MultimodalOCRで公開されている。
Large models have recently played a dominant role in natural language processing and multimodal vision-language learning. However, their effectiveness in text-related visual tasks remains relatively unexplored. In this paper, we conducted a comprehensive evaluation of Large Multimodal Models, such as GPT4V and Gemini, in various text-related visual tasks including Text Recognition, Scene Text-Centric Visual Question Answering (VQA), Document-Oriented VQA, Key Information Extraction (KIE), and Handwritten Mathematical Expression Recognition (HMER). To facilitate the assessment of Optical Character Recognition (OCR) capabilities in Large Multimodal Models, we propose OCRBench, a comprehensive evaluation benchmark. OCRBench contains 29 datasets, making it the most comprehensive OCR evaluation benchmark available. Furthermore, our study reveals both the strengths and weaknesses of these models, particularly in handling multilingual text, handwritten text, non-semantic text, and mathematical expression recognition. Most importantly, the baseline results presented in this study could provide a foundational framework for the conception and assessment of innovative strategies targeted at enhancing zero-shot multimodal techniques. The evaluation pipeline and benchmark are available at https://github.com/Yuliang-Liu/MultimodalOCR. | 翻訳日:2024-08-28 01:17:09 公開日:2024-08-26 |
# ロバストなマルチ露光画像融合のためのコンパクトアーキテクチャの探索
Searching a Compact Architecture for Robust Multi-Exposure Image Fusion ( http://arxiv.org/abs/2305.12236v2 ) ライセンス: Link先を確認 | Zhu Liu, Jinyuan Liu, Guanyao Wu, Zihang Chen, Xin Fan, Risheng Liu, | (参考訳) 近年,マルチ露光画像融合において,学習に基づく手法が大きな進歩を遂げている。
しかし、2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
既存の方法での整列画像対の信頼性は、デバイスの動きによるアーティファクトへの感受性を引き起こす。
さらに、既存の技術は、しばしば巨大なネットワークエンジニアリングを持つ手作りのアーキテクチャに依存しており、結果として冗長なパラメータとなり、推論効率と柔軟性に悪影響を及ぼす。
これらの制約を緩和するため,本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを組み込んだアーキテクチャ検索に基づくパラダイムを提案する。
具体的には、露出の極端な相違をターゲットとして、シーンライティングを利用して照度を制約し、アライメントや特徴抽出を行うセルフアライメントモジュールを提案する。
シーンのテクスチャ細部を強化するために, ディテール・リプレクションを提案する。
さらに,ハードウェアに敏感な制約を導入することで,核融合のためのコンパクトで効率的なネットワークを探索する融合指向アーキテクチャ探索を提案する。
提案手法は,PSNR の一般シナリオにおける3.19 % の改善と,不一致シナリオにおける23.5 % の顕著な向上を達成し,様々な競争方式より優れる。
さらに、推論時間を69.1\%削減する。
コードはhttps://github.com/LiuZhu-CV/CRMEFで入手できる。
In recent years, learning-based methods have achieved significant advancements in multi-exposure image fusion. However, two major stumbling blocks hinder the development, including pixel misalignment and inefficient inference. Reliance on aligned image pairs in existing methods causes susceptibility to artifacts due to device motion. Additionally, existing techniques often rely on handcrafted architectures with huge network engineering, resulting in redundant parameters, adversely impacting inference efficiency and flexibility. To mitigate these limitations, this study introduces an architecture search-based paradigm incorporating self-alignment and detail repletion modules for robust multi-exposure image fusion. Specifically, targeting the extreme discrepancy of exposure, we propose the self-alignment module, leveraging scene relighting to constrain the illumination degree for following alignment and feature extraction. Detail repletion is proposed to enhance the texture details of scenes. Additionally, incorporating a hardware-sensitive constraint, we present the fusion-oriented architecture search to explore compact and efficient networks for fusion. The proposed method outperforms various competitive schemes, achieving a noteworthy 3.19\% improvement in PSNR for general scenarios and an impressive 23.5\% enhancement in misaligned scenarios. Moreover, it significantly reduces inference time by 69.1\%. The code will be available at https://github.com/LiuZhu-CV/CRMEF. | 翻訳日:2024-08-28 01:17:09 公開日:2024-08-26 |
# 自我的視点から自我的視点へ向けたクロスビュー行動認識
Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective ( http://arxiv.org/abs/2305.15699v3 ) ライセンス: Link先を確認 | Thanh-Dat Truong, Khoa Luu, | (参考訳) エゴセントリックビデオにおける行動認識の理解は、多くの実践的応用において重要な研究トピックとして浮上している。
エゴセントリックなデータ収集の規模に制限があるため、堅牢なディープラーニングに基づくアクション認識モデルを学ぶことは依然として困難である。
大規模なエキソセントリックデータから学習した知識をエゴセントリックデータに移すことは、ビュー間のビデオの違いにより困難である。
本研究は,エキソセントリックな視点から利己的な視点へ知識を効果的に伝達する,行動認識(CVAR)のための新しいクロスビュー学習手法を提案する。
まず,2つのビュー間のカメラ位置を解析し,トランスフォーマーの自己保持機構に幾何学的制約を加える。
そこで本稿では, 自己意識のメカニズムを学習し, 知識を視点間で伝達するために, 自己意識を学習するために, 未確認のクロスビューデータに基づいて学習した, 新たな自己意識の喪失を提案する。
最後に,映像と注目マップの相関を効果的に測定するための指標を提示する。
Charades-Ego, EPIC-Kitchens-55, EPIC-Kitchens-100などの標準自己中心型行動認識ベンチマークの実験結果から, 本手法の有効性と最先端性能が示された。
Understanding action recognition in egocentric videos has emerged as a vital research topic with numerous practical applications. With the limitation in the scale of egocentric data collection, learning robust deep learning-based action recognition models remains difficult. Transferring knowledge learned from the large-scale exocentric data to the egocentric data is challenging due to the difference in videos across views. Our work introduces a novel cross-view learning approach to action recognition (CVAR) that effectively transfers knowledge from the exocentric to the selfish view. First, we present a novel geometric-based constraint into the self-attention mechanism in Transformer based on analyzing the camera positions between two views. Then, we propose a new cross-view self-attention loss learned on unpaired cross-view data to enforce the self-attention mechanism learning to transfer knowledge across views. Finally, to further improve the performance of our cross-view learning approach, we present the metrics to measure the correlations in videos and attention maps effectively. Experimental results on standard egocentric action recognition benchmarks, i.e., Charades-Ego, EPIC-Kitchens-55, and EPIC-Kitchens-100, have shown our approach's effectiveness and state-of-the-art performance. | 翻訳日:2024-08-28 01:17:09 公開日:2024-08-26 |
# 2次元円形カーネル時系列変換・エントロピー・機械学習による太陽活動領域検出
Solar Active Regions Detection Via 2D Circular Kernel Time Series Transformation, Entropy and Machine Learning Approach ( http://arxiv.org/abs/2306.08270v2 ) ライセンス: Link先を確認 | Irewola Aaron Oludehinwa, Andrei Velichko, Maksim Belyaev, Olasunkanmi I. Olusola, | (参考訳) 本研究は、太陽活動領域(AR)の検出方法の強化について提案する。
我々の技術は、NASAのソーラー・ダイナミクス・オブザーバ(SDO)の大気イメージング・アセンブリ(AIA)の画像を用いてARを追跡する。
これは2次元の円形カーネル時系列変換と統計的およびエントロピー測度、機械学習(ML)アプローチを組み合わせたものである。
この技術は、SDO AIA画像の画素周辺の円周面積を1次元時系列(1-DTS)に変換する。
特徴選択法 (FSM1) には統計測度 (Median Value, Xmed, 95th Percentile, X95) とエントロピー測度 (Distribution Entropy, DisEn, Fuzzy Entropy, FuzzyEn) が用いられる。
MLアルゴリズムはこれらのシリーズを3つのカテゴリに分類する:no Active Region (nARs type 1, class 1), non-flaring Regions outside active Region with brightness (nARs type 2, class 2), and flaring Active Regions (ARs, class 3)。
MLモデルはエントロピーと統計測度に対してそれぞれ0.900と0.914の分類精度を達成する。
特にファジィ・エントロピーは最も高い分類精度(AKF=0.895)を示し、DisEn(AKF=0.738)、X95(AKF=0.873)、Xmed(AKF=0.840)を上回っている。
このことは、SDO AIA画像におけるエントロピーと統計測定のAR検出に対する高い効果を示している。
FSM 2はFSM 1と同様の炎症性AR活動の分布を捉えている。
さらに,AR活動の一般化特性を導入し,AR活動の増加と高いGSA値との直接的な一致を見出した。
提案手法のPythonコード実装は補足資料で利用可能である。
This study proposes an enhancement to the existing method for detecting Solar Active Regions (ARs). Our technique tracks ARs using images from the Atmospheric Imaging Assembly (AIA) of NASA's Solar Dynamics Observatory (SDO). It involves a 2D circular kernel time series transformation, combined with Statistical and Entropy measures, and a Machine Learning (ML) approach. The technique transforms the circular area around pixels in the SDO AIA images into one-dimensional time series (1-DTS). Statistical measures (Median Value, Xmed; 95th Percentile, X95) and Entropy measures (Distribution Entropy, DisEn; Fuzzy Entropy, FuzzyEn) are used as feature selection methods (FSM 1), alongside a method applying 1-DTS elements directly as features (FSM 2). The ML algorithm classifies these series into three categories: no Active Region (nARs type 1, class 1), non-flaring Regions outside active regions with brightness (nARs type 2, class 2), and flaring Active Regions (ARs, class 3). The ML model achieves a classification accuracy of 0.900 and 0.914 for Entropy and Statistical measures, respectively. Notably, Fuzzy Entropy shows the highest classification accuracy (AKF=0.895), surpassing DisEn (AKF=0.738), X95 (AKF=0.873), and Xmed (AKF=0.840). This indicates the high effectiveness of Entropy and Statistical measures for AR detection in SDO AIA images. FSM 2 captures a similar distribution of flaring AR activities as FSM 1. Additionally, we introduce a generalizing characteristic of AR activities (GSA), finding a direct agreement between increased AR activities and higher GSA values. The Python code implementation of the proposed method is available in supplementary material. | 翻訳日:2024-08-28 01:17:09 公開日:2024-08-26 |
# 積分表現からの量子レニイと$f$-ディバージェンス
Quantum Rényi and $f$-divergences from integral representations ( http://arxiv.org/abs/2306.12343v3 ) ライセンス: Link先を確認 | Christoph Hirche, Marco Tomamichel, | (参考訳) Smooth Csisz\'ar $f$-divergences は、いわゆるホッケースティックの発散に対する積分として表すことができる。
これは、ここで探求する量子ホッケースティックの発散という観点から、自然量子の一般化を動機付けている。
このレシピを用いて、Kulback-Leiblerの発散は、最近フレンケルによって発見された積分形式で、梅垣相対エントロピーに一般化される。
我々の新しい量子$f$-発散によって定義されるR'enyiの発散は一般に加法的ではないが、それらの正規化は驚くほど、Petz R'enyiの発散を$\alpha < 1$で、サンドイッチされたR'enyiの発散を$\alpha > 1$で、これら2つの重要な量子R'enyi発散の族を統一することを発見した。
さらに、新しい量子$f$発散係数は、作用素凸であるすべての$f$に対して崩壊し、古典的な振る舞いを模倣し、レスニェフスキとルスカイの長年の予想を解く。
我々は、差分プライバシーの応用と新しい逆ピンスカー不等式を含む様々な不等式を導出し、新しい相違点の様々な応用を探索する。
Smooth Csisz\'ar $f$-divergences can be expressed as integrals over so-called hockey stick divergences. This motivates a natural quantum generalization in terms of quantum Hockey stick divergences, which we explore here. Using this recipe, the Kullback-Leibler divergence generalises to the Umegaki relative entropy, in the integral form recently found by Frenkel. We find that the R\'enyi divergences defined via our new quantum $f$-divergences are not additive in general, but that their regularisations surprisingly yield the Petz R\'enyi divergence for $\alpha < 1$ and the sandwiched R\'enyi divergence for $\alpha > 1$, unifying these two important families of quantum R\'enyi divergences. Moreover, we find that the contraction coefficients for the new quantum $f$ divergences collapse for all $f$ that are operator convex, mimicking the classical behaviour and resolving some long-standing conjectures by Lesniewski and Ruskai. We derive various inequalities, including new reverse Pinsker inequalities with applications in differential privacy and explore various other applications of the new divergences. | 翻訳日:2024-08-28 01:17:09 公開日:2024-08-26 |
# スケールを超えて: 自然言語データにおける可変性のためのデータ品質指標としての多様性係数
Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data ( http://arxiv.org/abs/2306.13840v3 ) ライセンス: Link先を確認 | Brando Miranda, Alycia Lee, Sudharsan Sundar, Allison Casasola, Sanmi Koyejo, | (参考訳) LLM(Large Language Models)の事前トレーニングのトレンドは、主にモデルとデータセットサイズのスケーリングに焦点を当てている。
事前学習データの質は強力なLDMを訓練する上で重要な要素であると考えられているが、厳格に評価されていない誤った概念である。
そこで本稿では,データ品質の1つの重要な側面 - 自然言語データの多様性を計測する -- を,特に多様性係数と呼ぶ尺度を用いて形式化することを提案する。
我々の経験的分析により,提案した多様性係数は,多様性と可変性の直感的な性質,例えば,潜在概念の数が増加するにつれて増加することが示されている。
次に,公開事前学習データセットの多様性係数を測定し,それらの形式的多様性が理論的下限および上限よりも高いことを示す。
最後に, GPT-2 と LLaMAv2 による総合的な介入実験を行い, 事前学習データの多様性係数が, 下流モデル評価性能の有用な側面を特徴付け, 様々なサイズの44モデル(51M から 7B のパラメータ)を集計した。
多様性という形式的な概念はデータ品質の重要な側面であり、多様性を捉え、因果的に評価性能の向上につながると結論付けている。
Current trends in pre-training Large Language Models (LLMs) primarily focus on the scaling of model and dataset size. While the quality of pre-training data is considered an important factor for training powerful LLMs, it remains a nebulous concept that has not been rigorously characterized. To this end, we propose a formalization of one key aspect of data quality -- measuring the variability of natural language data -- specifically via a measure we call the diversity coefficient. Our empirical analysis shows that the proposed diversity coefficient aligns with the intuitive properties of diversity and variability, e.g., it increases as the number of latent concepts increases. Then, we measure the diversity coefficient of publicly available pre-training datasets and demonstrate that their formal diversity is high compared to theoretical lower and upper bounds. Finally, we conduct a comprehensive set of controlled interventional experiments with GPT-2 and LLaMAv2 that demonstrate the diversity coefficient of pre-training data characterizes useful aspects of downstream model evaluation performance -- totaling 44 models of various sizes (51M to 7B parameters). We conclude that our formal notion of diversity is an important aspect of data quality that captures variability and causally leads to improved evaluation performance. | 翻訳日:2024-08-28 01:17:09 公開日:2024-08-26 |
# ゼロのスキーピングによる畳み込み層の計算複雑性の低減
Reduce Computational Complexity for Convolutional Layers by Skipping Zeros ( http://arxiv.org/abs/2306.15951v4 ) ライセンス: Link先を確認 | Zhiyi Zhang, Pengfei Zhang, Zhuopin Xu, Qi Wang, | (参考訳) 畳み込みニューラルネットワークは、複雑性を減らし、アクセラレーションに並列プロセッサを十分に活用するために優れたアルゴリズムを必要とする。
畳み込み層には、前方伝播に使用される畳み込み、後方伝播に使用される縮み込み畳み込みと拡張畳み込みの3種類がある。
これらの演算子の実行中、0は典型的にはテンソルに追加され、冗長な計算とハードウェアの不要な歪みにつながる。
これらの非効率を回避するために,効率的なGPU実装を伴うC-K-Sアルゴリズムを提案する。
C-K-S はゼロパディングを除外するためにフィルタをトリムする。
デコンボリューションと拡張畳み込みでは、C-K-Sはスパーステンソルを高密度テンソルに変換し、局所的な計算規則を標準化してハードウェア制御を単純化する。
実験により,C-K-SはPyTorchとcuDNNの能力を上回る速度と収束性で優れた性能を示すことが示された。
Convolutional neural networks necessitate good algorithms to reduce complexity, and sufficient utilization of parallel processors for acceleration. Within convolutional layers, there are three types of operators: convolution used in forward propagation, deconvolution and dilated-convolution utilized in backward propagation. During the execution of these operators, zeros are typically added to tensors, leading to redundant calculations and unnecessary strain on hardware. To circumvent these inefficiencies, we propose the C-K-S algorithm, accompanied by efficient GPU implementations. C-K-S trims filters to exclude zero-padding. For deconvolution and dilated-convolution, C-K-S transforms sparse tensors into dense tensors, and standardizes the local computational rules to simplify the hardware control. The experimental results demonstrate that C-K-S offers good performance in terms of speed and convergence, surpassing the capabilities of PyTorch and cuDNN in certain scenarios. | 翻訳日:2024-08-28 01:17:09 公開日:2024-08-26 |
# データクラウド上のOllivierのリッチ曲率の連続極限:点的整合性と大域的下界
Continuum Limits of Ollivier's Ricci Curvature on data clouds: pointwise consistency and global lower bounds ( http://arxiv.org/abs/2307.02378v2 ) ライセンス: Link先を確認 | Nicolas Garcia Trillos, Melanie Weber, | (参考訳) M$ はユークリッド空間に埋め込まれた低次元多様体を表し、${X}= \{ x_1, \dots, x_n \} をそれから一様にサンプリングされた点の集合とする。
我々は、${X}$から構築されたランダムな幾何グラフの曲率と、Ollivier の離散リッチ曲率の連続極限による多様体 $M$ の曲率の関係を研究する。
M$ がリッチ曲率を下から正の定数で有界にすると、ランダムな幾何グラフはこの大域的な構造特性を高い確率で継承することを示す。
グラフ上の熱核の収縮特性に対する大域的離散曲率境界の適用と、データクラウドからの多様体学習への応用について論じる。
特に, この結果から, まず, コンクリート外在量の推定により, 多様体の内在曲率を推定できることが示唆された。
Let $M$ denote a low-dimensional manifold embedded in Euclidean space and let ${X}= \{ x_1, \dots, x_n \}$ be a collection of points uniformly sampled from it. We study the relationship between the curvature of a random geometric graph built from ${X}$ and the curvature of the manifold $M$ via continuum limits of Ollivier's discrete Ricci curvature. We prove pointwise, non-asymptotic consistency results and also show that if $M$ has Ricci curvature bounded from below by a positive constant, then the random geometric graph will inherit this global structural property with high probability. We discuss applications of the global discrete curvature bounds to contraction properties of heat kernels on graphs, as well as implications for manifold learning from data clouds. In particular, we show that our consistency results allow for estimating the intrinsic curvature of a manifold by first estimating concrete extrinsic quantities. | 翻訳日:2024-08-28 01:17:09 公開日:2024-08-26 |
# タイムラインベースのゲームのためのコントローラ合成
Controller Synthesis for Timeline-based Games ( http://arxiv.org/abs/2307.12289v4 ) ライセンス: Link先を確認 | Renato Acampora, Luca Geatti, Nicola Gigante, Angelo Montanari, Valentino Picotti, | (参考訳) スケジュールに基づく計画手法では、状態変数のセット(タイムライン)の時間的進化は時間的制約によって制御される。
伝統的なタイムラインベースの計画システムは、時間的不確実性に対処して計画と実行を統合するのに優れている。
一般の非決定性を扱うために、タイムラインベースのゲームの概念が最近導入された。
このようなゲームに勝利戦略が存在するかどうかが2EXPTIME完全であることが証明されている。
しかし、そのような戦略を実装したコントローラを合成する具体的なアプローチは欠落している。
本稿では,このギャップを埋めるために,タイムラインベースのゲームに対して,効果的かつ計算学的に最適なコントローラ合成手法を提案する。
In the timeline-based approach to planning, the evolution over time of a set of state variables (the timelines) is governed by a set of temporal constraints. Traditional timeline-based planning systems excel at the integration of planning with execution by handling temporal uncertainty. In order to handle general nondeterminism as well, the concept of timeline-based games has been recently introduced. It has been proved that finding whether a winning strategy exists for such games is 2EXPTIME-complete. However, a concrete approach to synthesize controllers implementing such strategies is missing. This paper fills this gap, by providing an effective and computationally optimal approach to controller synthesis for timeline-based games. | 翻訳日:2024-08-28 01:07:17 公開日:2024-08-26 |
# PlatoLM:ユーザシミュレータによる多言語対話におけるLLM教育
PlatoLM: Teaching LLMs in Multi-Round Dialogue via a User Simulator ( http://arxiv.org/abs/2308.11534v6 ) ライセンス: Link先を確認 | Chuyi Kong, Yaxin Fan, Xiang Wan, Feng Jiang, Benyou Wang, | (参考訳) クローズドソースのChatGPTのパフォーマンスは、Vicunaが証明したように、実際のユーザとChatGPTの対話を活用することで、その民主化への努力を喚起している。
しかし、人間の参加に関わる対話を集める上での課題により、現在のBaizeやUltraChatのような取り組みは、指示に基づいて人間をシミュレートするChatGPTに頼っている。
上記の課題に対処するため、我々は、人間の行動をより良くシミュレートするパラダイムを提案し、マルチターン会話に、より人間らしい質問を組み込むことの利点を探求する。
具体的には、実際の人間と機械の会話から抽出した人間の質問を直接学習目標とし、「ソクラティック」と呼ばれる新しいユーザシミュレータを提供する。
実験結果から, MT-Bench における LLaMA ベース 7B モデル間での PlatoLM' のSoTA 性能が得られた。
さらに,本手法は,従来のマルチラウンド会話よりも優れた応答モデルを学習できるような,人間的な質問パターンやリッチな話題構造を導入していることを示す。
The unparalleled performance of closed-sourced ChatGPT has sparked efforts towards its democratization, with notable strides made by leveraging real user and ChatGPT dialogues, as evidenced by Vicuna. However, due to challenges in gathering dialogues involving human participation, current endeavors like Baize and UltraChat rely on ChatGPT conducting roleplay to simulate humans based on instructions, resulting in overdependence on seeds, diminished human-likeness, limited topic diversity, and an absence of genuine multi-round conversational dynamics. To address the above issues, we propose a paradigm to simulate human behavior better and explore the benefits of incorporating more human-like questions in multi-turn conversations. Specifically, we directly target human questions extracted from genuine human-machine conversations as a learning goal and provide a novel user simulator called `Socratic'. The experimental results show our response model, `PlatoLM', achieves SoTA performance among LLaMA-based 7B models in MT-Bench. Our findings further demonstrate that our method introduces highly human-like questioning patterns and rich topic structures, which can teach the response model better than previous works in multi-round conversations. | 翻訳日:2024-08-28 01:07:17 公開日:2024-08-26 |
# 高温ルビジウム蒸気中の高速低損失全光位相変調
Fast, low-loss all-optical phase modulation in warm rubidium vapour ( http://arxiv.org/abs/2309.04313v2 ) ライセンス: Link先を確認 | William Davis, Paul Burdekin, Tabijah Wasawo, Sarah E Thomas, Peter J Mosley, Joshua Nunn, Cameron McGarry, | (参考訳) 低損失高速スイッチは将来のフォトニック量子技術の不可欠なコンポーネントであり、状態生成、多重化、量子ゲートの実装に応用されている。
位相変調は、このスイッチングを実現する方法の1つであるが、既存の光位相変調器は高帯域幅または低損失を達成するが、どちらも実現しない。
高速(100\,\mathrm{MHz}$バンド幅)、低損失(83\pm2\%$トランスミッション)の位相シフト($\Delta\phi = (0.90\pm0.05)\pi$)を制御フィールドによって誘導され、2光子5S_{1/2} \rightarrow{} 5P_{3/2} \rightarrow{} 5D_{5/2} \rightarrow{} $^{87}\text{Rb}$ vapourによって仲介される信号場で示す。
我々は、様々な量子技術や古典技術に応用するための性能とスケーラビリティを両立させる経路について論じる。
Low-loss high-speed switches are an integral component of future photonic quantum technologies, with applications in state generation, multiplexing, and the implementation of quantum gates. Phase modulation is one method of achieving this switching, but existing optical phase modulators either achieve high bandwidth or low loss, but not both. We demonstrate fast ($100\,\mathrm{MHz}$ bandwidth), low-loss ($83\pm2\%$ transmission) phase shifting ($\Delta\phi = (0.90\pm0.05)\pi$) in a signal field, induced by a control field, and mediated by the two-photon $5S_{1/2} \rightarrow{} 5P_{3/2} \rightarrow{} 5D_{5/2}$ transition in $^{87}\text{Rb}$ vapour. We discuss routes to enhance both performance and scalability for application to a range of quantum and classical technologies. | 翻訳日:2024-08-28 01:07:17 公開日:2024-08-26 |
# KLoB:言語モデルにおける知識配置手法の評価ベンチマーク
KLoB: a Benchmark for Assessing Knowledge Locating Methods in Language Models ( http://arxiv.org/abs/2309.16535v3 ) ライセンス: Link先を確認 | Yiming Ju, Xingrun Xing, Zhixiong Zeng, | (参考訳) 近年、言語モデルに格納された事実知識を変更する主要なアプローチの1つとして、Locate-Then-Editパラダイムが登場している。
しかし、現在位置決め手法が、所望の知識を埋め込んだ正確なパラメータを特定できるかどうかについては、研究の欠如がある。
さらに、多くの研究者が事実知識の局所性仮説の妥当性を疑問視しているが、より深い議論と研究のための仮説をテストする方法は提供されていない。
そこで我々は,信頼度の高い知識配置法が満たすべき3つの重要な特性を検証したベンチマークであるKLoBを紹介する。
KLoBは、言語モデルにおける既存の位置決め手法を評価するためのベンチマークとして機能し、事実知識の局所性仮説の妥当性を再評価する手法に貢献することができる。
KLoBは匿名のGitHubで公開されている: \url{https://github.com/anon6662/KLoB}。
Recently, Locate-Then-Edit paradigm has emerged as one of the main approaches in changing factual knowledge stored in the Language models. However, there is a lack of research on whether present locating methods can pinpoint the exact parameters embedding the desired knowledge. Moreover, although many researchers have questioned the validity of locality hypothesis of factual knowledge, no method is provided to test the a hypothesis for more in-depth discussion and research. Therefore, we introduce KLoB, a benchmark examining three essential properties that a reliable knowledge locating method should satisfy. KLoB can serve as a benchmark for evaluating existing locating methods in language models, and can contributes a method to reassessing the validity of locality hypothesis of factual knowledge. KLoB is publicly available at an anonymous GitHub: \url{https://github.com/anon6662/KLoB}. | 翻訳日:2024-08-28 01:07:17 公開日:2024-08-26 |
# 3次元土壌構造におけるバイオダイナミックな反応拡散モデルのための大域的トラクタ
Global Attractor for a Reaction-Diffusion Model Arising in Biological Dynamic in 3D Soil Structure ( http://arxiv.org/abs/2310.02060v3 ) ライセンス: Link先を確認 | Mohamed Elghandouri, Khalil Ezzinbi, Mouad Klai, Olivier Monga, | (参考訳) 部分微分方程式 (Partial Differential Equations, PDE) は、特に生物学領域において、複雑な自然過程をモデル化し、解釈するためのツールとして重要な役割を果たす。
本研究では, 3次元土壌構造の複雑なマトリックス内における微生物活性の領域を探索し, 溶液の存在と特異性, 対応するPDEモデルの漸近挙動の両面から貴重な知見を提供する。
本研究は,長期システム行動に重要な意味を持つ基本的特徴である,グローバルなアトラクションの発見につながる。
本研究の精度を高めるために,このグローバルなアトラクションの属性を視覚的に説明するために,数値シミュレーションを用いた。
Partial Differential Equations (PDEs) play a crucial role as tools for modeling and comprehending intricate natural processes, notably within the domain of biology. This research explores the domain of microbial activity within the complex matrix of 3D soil structures, providing valuable understanding into both the existence and uniqueness of solutions and the asymptotic behavior of the corresponding PDE model. Our investigation results in the discovery of a global attractor, a fundamental feature with significant implications for long-term system behavior. To enhance the clarity of our findings, numerical simulations are employed to visually illustrate the attributes of this global attractor. | 翻訳日:2024-08-28 01:07:17 公開日:2024-08-26 |
# アダプティブ・リトリーブ・リビジョンとしての大規模言語モデルのドメイン適応の改革:中国語法ドメインを事例として
Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise: A Case Study on Chinese Legal Domain ( http://arxiv.org/abs/2310.03328v3 ) ライセンス: Link先を確認 | Zhen wan, Yating Zhang, Yexiang Wang, Fei Cheng, Sadao Kurohashi, | (参考訳) GPT-4のような大規模言語モデル(LLM)は、最近、一般的なドメインタスクにおいてゼロショット機能に驚きを見せている。
これは通常、そのような特定のドメインを含むトレーニングデータがないためであり、GPT-4がドメイン内の知識を取得するのを妨げている。
強調すべき課題は、ドメイン内のデータでこのような規模のLLMを継続的にトレーニングすることは不可能である、ということです。
本稿では, GPT-4 の簡易かつ効果的なドメイン適応フレームワークについて, 生成を \textbf{adapt-retrieve-revise} プロセスとして再構成することによって紹介する。
最初のステップは、ドメイン内のデータについて学び続けることで、ターゲットドメインに手頃な7B LLMを \textbf{adapt} することです。
タスクを解く際には、順応したLCMを活用し、タスククエリを与えられたドラフト回答を生成する。
次に、ドラフト回答は、外部のドメイン内の知識ベースからエビデンス候補をサポートするtextbf{retrieve} に使用される。
最後に、ドラフト回答と検索されたエビデンスを全プロンプトにまとめて、GPT-4にエビデンスを評価し、最終的な答えを生成するためにドラフト回答を \textbf{revise} にする。
本提案では,より小型の7BモデルとGPT-4のエビデンス評価能力を併用することにより,GPT-4の幻覚内容の生成を効果的に防止する。
中国の4つの法的タスクのゼロショット設定では、GPT-4による直接生成に比べて精度が33.3倍向上する。
2つのより強い検索ベースラインと比較すると、この手法は15.4\%と23.9\%より優れている。
私たちのコードはリリースされます
While large language models (LLMs) like GPT-4 have recently demonstrated astonishing zero-shot capabilities in general domain tasks, they often generate content with hallucinations in specific domains such as Chinese law, hindering their application in these areas. This is typically due to the absence of training data that encompasses such a specific domain, preventing GPT-4 from acquiring in-domain knowledge. A pressing challenge is that it's not plausible to continue training LLMs of such scale on in-domain data. This paper introduces a simple and effective domain adaptation framework for GPT-4 by reformulating generation as an \textbf{adapt-retrieve-revise} process. The initial step is to \textbf{adapt} an affordable 7B LLM to the target domain by continuing learning on in-domain data. When solving a task, we leverage the adapted LLM to generate a draft answer given a task query. Then, the draft answer will be used to \textbf{retrieve} supporting evidence candidates from an external in-domain knowledge base. Finally, the draft answer and retrieved evidence are concatenated into a whole prompt to let GPT-4 assess the evidence and \textbf{revise} the draft answer to generate the final answer. Our proposal combines the advantages of the efficiency of adapting a smaller 7B model with the evidence-assessing capability of GPT-4 and effectively prevents GPT-4 from generating hallucinatory content. In the zero-shot setting of four Chinese legal tasks, our method improves accuracy by 33.3\% compared to the direct generation by GPT-4. When compared to two stronger retrieval-based baselines, our method outperforms them by 15.4\% and 23.9\%. Our code will be released | 翻訳日:2024-08-28 01:07:17 公開日:2024-08-26 |
# 拡散モデルの含意的概念除去
Implicit Concept Removal of Diffusion Models ( http://arxiv.org/abs/2310.05873v6 ) ライセンス: Link先を確認 | Zhili Liu, Kai Chen, Yifan Zhang, Jianhua Han, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James Kwok, | (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
これらの概念は「単純概念」と呼ばれ、訓練中に意図せず学習され、推論中に制御不能に生成される。
既存の除去方法は、主にモデルが実際に認識できない概念を認識する能力に依存しているため、暗黙的な概念を排除するのに依然として苦労している。
そこで我々は,暗黙的概念の内在的幾何学的特徴を活用し,幾何学的制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
具体的には、不要な暗黙的な概念が特定されると、その概念の存在と幾何学的情報をテキストプロンプトに統合し、アクセス可能な分類器や検出器モデルの助けを借りる。
その後、モデルはこれらの情報を識別し、切り離すように最適化され、生成時に負のプロンプトとして採用される。
さらに,暗黙的概念が容易に注入される現実の状況を反映した,3つの典型的な暗黙的概念(QRコード,透かし,テキスト)を付与した新しい画像テキストデータセットであるImplicit Concept Dataset(ICD)を導入する。
Geom-Erasingは暗黙的な概念の生成を効果的に軽減し、不適切なイメージプロンプト(I2P)と我々の挑戦的なImplicit Concept Dataset(ICD)ベンチマークで最先端の結果を達成する。
Text-to-image (T2I) diffusion models often inadvertently generate unwanted concepts such as watermarks and unsafe images. These concepts, termed as the "implicit concepts", could be unintentionally learned during training and then be generated uncontrollably during inference. Existing removal methods still struggle to eliminate implicit concepts primarily due to their dependency on the model's ability to recognize concepts it actually can not discern. To address this, we utilize the intrinsic geometric characteristics of implicit concepts and present the Geom-Erasing, a novel concept removal method based on the geometric-driven control. Specifically, once an unwanted implicit concept is identified, we integrate the existence and geometric information of the concept into the text prompts with the help of an accessible classifier or detector model. Subsequently, the model is optimized to identify and disentangle this information, which is then adopted as negative prompts during generation. Moreover, we introduce the Implicit Concept Dataset (ICD), a novel image-text dataset imbued with three typical implicit concepts (i.e., QR codes, watermarks, and text), reflecting real-life situations where implicit concepts are easily injected. Geom-Erasing effectively mitigates the generation of implicit concepts, achieving the state-of-the-art results on the Inappropriate Image Prompts (I2P) and our challenging Implicit Concept Dataset (ICD) benchmarks. | 翻訳日:2024-08-28 00:57:20 公開日:2024-08-26 |
# Graph-SCP: グラフニューラルネットワークによる集合被覆問題の高速化
Graph-SCP: Accelerating Set Cover Problems with Graph Neural Networks ( http://arxiv.org/abs/2310.07979v2 ) ライセンス: Link先を確認 | Zohair Shafi, Benjamin A. Miller, Tina Eliassi-Rad, Rajmonda S. Caceres, | (参考訳) 機械学習(ML)アプローチは、組合せ最適化(CO)問題を加速するためにますます利用されている。
本稿では,SCP(Set Cover Problem)について検討し,解空間を含むより小さなサブプロブレムを同定し,既存の最適化解法を強化するグラフニューラルネットワークであるGraph-SCPを提案する。
Graph-SCPは、事前に解決されたインスタンスからの教師あり学習と、SCPの目的を最小化することを目的とした教師なし学習の両方を使用する。
合成重み付きおよび非重み付きSCPインスタンスにおけるGraph-SCPの性能と,SCPの標準ベンチマークであるOR Libraryの事例について検討した。
我々は,Graph-SCPが問題サイズを60~80%削減し,ソリューションの品質を維持しつつ,Gurobi(最先端の商用解法)と比較して平均10倍のランタイム高速化を実現していることを示す。
これは、保証多項式ランタイムを達成するために、解の品質を著しく損なう高速な欲求解とは対照的である。
最大3000のサブセットを持つSCPインスタンスでトレーニングし、最大10,000のサブセットを持つSCPインスタンスでテストする。
Machine learning (ML) approaches are increasingly being used to accelerate combinatorial optimization (CO) problems. We investigate the Set Cover Problem (SCP) and propose Graph-SCP, a graph neural network method that augments existing optimization solvers by learning to identify a much smaller sub-problem that contains the solution space. Graph-SCP uses both supervised learning from prior solved instances and unsupervised learning aimed at minimizing the SCP objective. We evaluate the performance of Graph-SCP on synthetically weighted and unweighted SCP instances with diverse problem characteristics and complexities, and on instances from the OR Library, a canonical benchmark for SCP. We show that Graph-SCP reduces the problem size by 60-80% and achieves runtime speedups of up to 10x on average when compared to Gurobi (a state-of-the-art commercial solver), while maintaining solution quality. This is in contrast to fast greedy solutions that significantly compromise solution quality to achieve guaranteed polynomial runtime. We showcase Graph-SCP's ability to generalize to larger problem sizes, training on SCP instances with up to 3,000 subsets and testing on SCP instances with up to 10,000 subsets. | 翻訳日:2024-08-28 00:57:20 公開日:2024-08-26 |
# TabRepo: タブラルモデル評価の大規模リポジトリとそのAutoMLアプリケーション
TabRepo: A Large Scale Repository of Tabular Model Evaluations and its AutoML Applications ( http://arxiv.org/abs/2311.02971v3 ) ライセンス: Link先を確認 | David Salinas, Nick Erickson, | (参考訳) 本稿では,表モデル評価と予測の新しいデータセットであるTabRepoを紹介する。
TabRepoには、200の分類と回帰データセットで評価された1310モデルの予測とメトリクスが含まれている。
データセットのメリットを,さまざまな方法で説明します。
まず,従来のAutoMLシステムとハイパーパラメータ最適化を比較し,事前計算モデル予測を用いて限界コストでのアンサンブルを考慮した分析を行う。
第二に、我々のデータセットを簡単に活用して転送学習を行うことが示される。
特に,標準的な伝達学習手法を用いることで,最先端の表計算システムを精度,実行時間,レイテンシで上回ることを示す。
We introduce TabRepo, a new dataset of tabular model evaluations and predictions. TabRepo contains the predictions and metrics of 1310 models evaluated on 200 classification and regression datasets. We illustrate the benefit of our dataset in multiple ways. First, we show that it allows to perform analysis such as comparing Hyperparameter Optimization against current AutoML systems while also considering ensembling at marginal cost by using precomputed model predictions. Second, we show that our dataset can be readily leveraged to perform transfer-learning. In particular, we show that applying standard transfer-learning techniques allows to outperform current state-of-the-art tabular systems in accuracy, runtime and latency. | 翻訳日:2024-08-28 00:57:20 公開日:2024-08-26 |
# Monkey: 画像解像度とテキストラベルは、大規模なマルチモーダルモデルにとって重要なものだ
Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models ( http://arxiv.org/abs/2311.06607v4 ) ライセンス: Link先を確認 | Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, Xiang Bai, | (参考訳) 大規模マルチモーダルモデル(LMM)は視覚言語タスクにおいて有望であるが、高解像度入力と詳細なシーン理解に苦慮している。
これらの課題に対処するため、LMM機能を強化するためにMonkeyを導入します。
まず、Monkeyはそれらを均一なパッチに分割して入力画像を処理し、それぞれが訓練されたビジョンエンコーダのトレーニングで使用されるサイズ(例:448x448)と一致する。
Monkeyにはパッチ毎に個別のアダプタが装備されており、1344x896ピクセルまでの高解像度を処理でき、複雑な視覚情報を詳細にキャプチャすることができる。
第2に、シーンオブジェクト関連のためのコンテキストを豊かにするマルチレベル記述生成手法を用いる。
この2つの戦略は、生成されたデータからより効果的に学習することを保証する。
広範囲なアブレーションにより, 設計の有効性が検証された。
さらに18のデータセットの実験では、Image CaptioningやさまざまなVisual Question Answeringフォーマットなど、多くのタスクにおいて、Monkeyが既存のLMMを上回ることが示されている。
特に、高密度テキスト質問応答に着目した定性テストでは、MonkeyはGPT4Vと比較して奨励的な結果を示した。
コードはhttps://github.com/Yuliang-Liu/Monkeyで入手できる。
Large Multimodal Models (LMMs) have shown promise in vision-language tasks but struggle with high-resolution input and detailed scene understanding. Addressing these challenges, we introduce Monkey to enhance LMM capabilities. Firstly, Monkey processes input images by dividing them into uniform patches, each matching the size (e.g., 448x448) used in the original training of the well-trained vision encoder. Equipped with individual adapter for each patch, Monkey can handle higher resolutions up to 1344x896 pixels, enabling the detailed capture of complex visual information. Secondly, it employs a multi-level description generation method, enriching the context for scene-object associations. This two-part strategy ensures more effective learning from generated data: the higher resolution allows for a more detailed capture of visuals, which in turn enhances the effectiveness of comprehensive descriptions. Extensive ablative results validate the effectiveness of our designs. Additionally, experiments on 18 datasets further demonstrate that Monkey surpasses existing LMMs in many tasks like Image Captioning and various Visual Question Answering formats. Specially, in qualitative tests focused on dense text question answering, Monkey has exhibited encouraging results compared with GPT4V. Code is available at https://github.com/Yuliang-Liu/Monkey. | 翻訳日:2024-08-28 00:57:20 公開日:2024-08-26 |
# 一般化グラフプロンプト:グラフ上の事前学習タスクと下流タスクの統合を目指して
Generalized Graph Prompt: Toward a Unification of Pre-Training and Downstream Tasks on Graphs ( http://arxiv.org/abs/2311.15317v5 ) ライセンス: Link先を確認 | Xingtong Yu, Zhenghao Liu, Yuan Fang, Zemin Liu, Sihong Chen, Xinming Zhang, | (参考訳) グラフニューラルネットワークはグラフ表現学習の強力なツールとして登場したが、そのパフォーマンスはタスク固有の豊富な監視に大きく依存している。
ラベル付け要求を減らすため、"pre-train, prompt"パラダイムはますます一般的になっている。
しかし、グラフのプロンプトに関する既存の研究は限定的であり、下流の様々なタスクにアピールするための普遍的な処理が欠如している。
本稿では,グラフの事前学習と促進のための新しいフレームワークであるGraphPromptを提案する。
GraphPromptは、トレーニング済みタスクとダウンストリームタスクを共通のタスクテンプレートに統合するだけでなく、学習可能なプロンプトを使用して、トレーニング済みモデルからタスク固有の方法で最も関連性の高い知識を見つける。
この2つのステージでGraphPromptをさらに強化するために、GraphPrompt+に2つの大きな拡張を加えて拡張します。
まず、単純なリンク予測以上のグラフ事前学習タスクを一般化し、タスクテンプレートとの互換性を広げる。
次に,事前学習したグラフエンコーダの各層に一連のプロンプトベクトルを組み込んだ,より一般化されたプロンプト設計を提案する。
最後に、GraphPromptとGraphPrompt+を評価し分析するために、5つの公開データセットに関する広範な実験を行う。
Graph neural networks have emerged as a powerful tool for graph representation learning, but their performance heavily relies on abundant task-specific supervision. To reduce labeling requirement, the "pre-train, prompt" paradigms have become increasingly common. However, existing study of prompting on graphs is limited, lacking a universal treatment to appeal to different downstream tasks. In this paper, we propose GraphPrompt, a novel pre-training and prompting framework on graphs. GraphPrompt not only unifies pre-training and downstream tasks into a common task template but also employs a learnable prompt to assist a downstream task in locating the most relevant knowledge from the pre-trained model in a task-specific manner. To further enhance GraphPrompt in these two stages, we extend it into GraphPrompt+ with two major enhancements. First, we generalize several popular graph pre-training tasks beyond simple link prediction to broaden the compatibility with our task template. Second, we propose a more generalized prompt design that incorporates a series of prompt vectors within every layer of the pre-trained graph encoder, in order to capitalize on the hierarchical information across different layers beyond just the readout layer. Finally, we conduct extensive experiments on five public datasets to evaluate and analyze GraphPrompt and GraphPrompt+. | 翻訳日:2024-08-28 00:46:25 公開日:2024-08-26 |
# SigFormer:マルチモーダル・ヒューマン・アクション・セグメンテーションのためのスパース信号誘導変換器
SigFormer: Sparse Signal-Guided Transformer for Multi-Modal Human Action Segmentation ( http://arxiv.org/abs/2311.17428v2 ) ライセンス: Link先を確認 | Qi Liu, Xinchen Liu, Kun Liu, Xiaoyan Gu, Wu Liu, | (参考訳) マルチモーダルなヒューマンアクションセグメンテーションは、幅広い応用において重要かつ困難な課題である。
今日では、ほとんどのアプローチは高密度信号(RGB、光フロー、深度マップなど)の融合に集中している。
しかし、正確な認識を実現する上で重要な、スパースIoTセンサ信号の潜在的な貢献は、完全には調査されていない。
これを解決するために、密集信号と疎合信号を組み合わせたスパース信号誘導変換器(SigFormer)を導入する。
我々は、スパース信号が有効である領域内での交差注意を制限し、局所的特徴を融合させるマスク注意を用いる。
しかし、スパース信号は離散的であるため、時間的行動境界に関する十分な情報がない。
そこで,SigFormerでは,この問題を軽減するために2段階の境界情報を強調することを提案する。
第1の特徴抽出段階では、内部損失関数を通して各密度モードのカテゴリと境界特性を共同で学習する中間ボトルネックモジュールを導入する。
密度変調とスパース信号の融合後、動作圏と時間境界の間の相互関係を明示的にモデル化する2分岐アーキテクチャを考案する。
実験の結果,SigFormerは実産業環境からのマルチモーダルアクションセグメンテーションデータセットにおける最先端のアプローチよりも優れており,F1スコア0.958に達した。
コードと事前訓練されたモデルはhttps://github.com/LIUQI-creat/SigFormer.comで公開されている。
Multi-modal human action segmentation is a critical and challenging task with a wide range of applications. Nowadays, the majority of approaches concentrate on the fusion of dense signals (i.e., RGB, optical flow, and depth maps). However, the potential contributions of sparse IoT sensor signals, which can be crucial for achieving accurate recognition, have not been fully explored. To make up for this, we introduce a Sparse signalguided Transformer (SigFormer) to combine both dense and sparse signals. We employ mask attention to fuse localized features by constraining cross-attention within the regions where sparse signals are valid. However, since sparse signals are discrete, they lack sufficient information about the temporal action boundaries. Therefore, in SigFormer, we propose to emphasize the boundary information at two stages to alleviate this problem. In the first feature extraction stage, we introduce an intermediate bottleneck module to jointly learn both category and boundary features of each dense modality through the inner loss functions. After the fusion of dense modalities and sparse signals, we then devise a two-branch architecture that explicitly models the interrelationship between action category and temporal boundary. Experimental results demonstrate that SigFormer outperforms the state-of-the-art approaches on a multi-modal action segmentation dataset from real industrial environments, reaching an outstanding F1 score of 0.958. The codes and pre-trained models have been available at https://github.com/LIUQI-creat/SigFormer. | 翻訳日:2024-08-28 00:46:25 公開日:2024-08-26 |
# 正確な予測モデルが有害な自己充足予言をもたらすとき
When accurate prediction models yield harmful self-fulfilling prophecies ( http://arxiv.org/abs/2312.01210v4 ) ライセンス: Link先を確認 | Wouter A. C. van Amsterdam, Nan van Geloven, Jesse H. Krijthe, Rajesh Ranganath, Giovanni Ciná, | (参考訳) 予測モデルは医学研究や実践で人気がある。
特定の患者に対する関心の結果を予測することで、これらのモデルは難しい治療決定を知らせる助けとなり、パーソナライズされたデータ駆動医療のためのポスターキッズとしてしばしば賞賛される。
しかし, 予測モデルを用いて意思決定を行うと, 予測が展開後に良質な差別を示す場合であっても, 有害な決定につながる可能性が示唆された。
これらのモデルは有害な自己充足的予言であり、その展開は患者のグループに害を与えるが、これらの患者の悪影響はモデルの予測力を無効にしない。
我々の主な成果は、そのような予測モデルの集合を形式的に特徴づけることである。
次に、配置前後で適切に調整されたモデルは、データ配布の変更を行わなかったため、意思決定には役に立たないことを示す。
これらの結果は、医学的な決定に使用される予測モデルの検証、展開、評価のための標準プラクティスを改訂する必要があることを示唆している。
Prediction models are popular in medical research and practice. By predicting an outcome of interest for specific patients, these models may help inform difficult treatment decisions, and are often hailed as the poster children for personalized, data-driven healthcare. We show however, that using prediction models for decision making can lead to harmful decisions, even when the predictions exhibit good discrimination after deployment. These models are harmful self-fulfilling prophecies: their deployment harms a group of patients but the worse outcome of these patients does not invalidate the predictive power of the model. Our main result is a formal characterization of a set of such prediction models. Next we show that models that are well calibrated before and after deployment are useless for decision making as they made no change in the data distribution. These results point to the need to revise standard practices for validation, deployment and evaluation of prediction models that are used in medical decisions. | 翻訳日:2024-08-28 00:46:25 公開日:2024-08-26 |
# HGPROMPT:Few-shot Prompt Learningのための均質グラフと不均質グラフ
HGPROMPT: Bridging Homogeneous and Heterogeneous Graphs for Few-shot Prompt Learning ( http://arxiv.org/abs/2312.01878v8 ) ライセンス: Link先を確認 | Xingtong Yu, Yuan Fang, Zemin Liu, Xinming Zhang, | (参考訳) グラフニューラルネットワーク(GNN)とヘテロジニアスグラフニューラルネットワーク(HGNN)は、同質で異質なグラフ表現学習において顕著なテクニックであるが、エンドツーエンドの監視フレームワークにおけるパフォーマンスは、タスク固有の監視の可用性に大きく依存している。
ラベル付けコストを削減するため、自己教師付きプレテキストタスクの事前学習は一般的なパラダイムとなっているが、事前訓練されたモデルと下流タスクの間には、目的の相違から生じるギャップがしばしばある。
ギャップを埋めるために、特に数ショット設定では、事前訓練されたモデルを完全に微調整することなく、迅速な学習が有望な方向として上昇している。
グラフ上でのプロンプトベースの学習に関する初期の研究はあったが、主に同質グラフを扱っており、下流のアプリケーションでよく見られる不均一グラフを無視している。
本稿では,HGPROMPTを提案する。HGPROMPTは,事前学習タスクと下流タスクだけでなく,二重テンプレート設計による均質かつ異質なグラフを統一するための,新しい事前学習および促進フレームワークである。
さらに,HGPROMPTにおいて,特徴量の変化だけでなく,タスク間の異種性の違いによって生じるギャップを埋めるために,下流タスクの探索を支援するために,二重プロンプトを提案する。
最後に,HGPROMPTを3つの公開データセットの広範な実験により徹底的に評価・解析する。
Graph neural networks (GNNs) and heterogeneous graph neural networks (HGNNs) are prominent techniques for homogeneous and heterogeneous graph representation learning, yet their performance in an end-to-end supervised framework greatly depends on the availability of task-specific supervision. To reduce the labeling cost, pre-training on self-supervised pretext tasks has become a popular paradigm,but there is often a gap between the pre-trained model and downstream tasks, stemming from the divergence in their objectives. To bridge the gap, prompt learning has risen as a promising direction especially in few-shot settings, without the need to fully fine-tune the pre-trained model. While there has been some early exploration of prompt-based learning on graphs, they primarily deal with homogeneous graphs, ignoring the heterogeneous graphs that are prevalent in downstream applications. In this paper, we propose HGPROMPT, a novel pre-training and prompting framework to unify not only pre-training and downstream tasks but also homogeneous and heterogeneous graphs via a dual-template design. Moreover, we propose dual-prompt in HGPROMPT to assist a downstream task in locating the most relevant prior to bridge the gaps caused by not only feature variations but also heterogeneity differences across tasks. Finally, we thoroughly evaluate and analyze HGPROMPT through extensive experiments on three public datasets. | 翻訳日:2024-08-28 00:46:25 公開日:2024-08-26 |
# マルチタスク事前学習とグラフのプロンプトのためのMultiGPrompt
MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs ( http://arxiv.org/abs/2312.03731v7 ) ライセンス: Link先を確認 | Xingtong Yu, Chang Zhou, Yuan Fang, Xinming Zhang, | (参考訳) グラフは本質的にWeb上の相互接続オブジェクトをモデル化することができ、Web分析やコンテントレコメンデーションといった一連のWebアプリケーションを容易にします。
近年,グラフ表現学習の主流技術としてグラフニューラルネットワーク(GNN)が登場している。
しかし、エンドツーエンドの監視フレームワークにおけるそれらの有効性は、タスク固有のラベルの可用性に大きく結びついている。
ラベリングコストを軽減し、数ショット設定で堅牢性を高めるため、自己指導型タスクの事前訓練が有望な方法として登場し、プリテキストと下流タスクの客観的ギャップをさらに狭めるためのプロンプトが提案されている。
グラフ上でのプロンプトベースの学習については、最初はいくつか検討されてきたが、主に1つのプレテキストタスクを利用しており、その結果、事前学習データから学習できる一般的な知識のサブセットが限られている。
そこで本稿では,マルチタスク事前学習フレームワークであるMultiGPromptを提案する。
まず、事前学習において、複数のプリテキストタスクを相乗化するためのプリテキストトークンセットを設計する。
第2に,タスク固有の,グローバルな事前学習知識を活用するためのオープンプロンプトとオープンプロンプトで構成されたデュアルプロンプト機構を提案し,数ショット設定で下流タスクを誘導する。
最後に、MultiGPromptの評価と分析を行うために、6つの公開データセットに関する広範な実験を行う。
Graphs can inherently model interconnected objects on the Web, thereby facilitating a series of Web applications, such as web analyzing and content recommendation. Recently, Graph Neural Networks (GNNs) have emerged as a mainstream technique for graph representation learning. However, their efficacy within an end-to-end supervised framework is significantly tied to the availabilityof task-specific labels. To mitigate labeling costs and enhance robustness in few-shot settings, pre-training on self-supervised tasks has emerged as a promising method, while prompting has been proposed to further narrow the objective gap between pretext and downstream tasks. Although there has been some initial exploration of prompt-based learning on graphs, they primarily leverage a single pretext task, resulting in a limited subset of general knowledge that could be learned from the pre-training data. Hence, in this paper, we propose MultiGPrompt, a novel multi-task pre-training and prompting framework to exploit multiple pretext tasks for more comprehensive pre-trained knowledge. First, in pre-training, we design a set of pretext tokens to synergize multiple pretext tasks. Second, we propose a dual-prompt mechanism consisting of composed and open prompts to leverage task-specific and global pre-training knowledge, to guide downstream tasks in few-shot settings. Finally, we conduct extensive experiments on six public datasets to evaluate and analyze MultiGPrompt. | 翻訳日:2024-08-28 00:46:25 公開日:2024-08-26 |
# Filter & Align: 人間の知識による画像テキストデータのキュレーション
Filter & Align: Curating Image-Text Data with Human Knowledge ( http://arxiv.org/abs/2312.06726v3 ) ライセンス: Link先を確認 | Lei Zhang, Fangxun Shu, Tianyang Liu, Sucheng Ren, Hao Jiang, Cihang Xie, | (参考訳) 画像テキストペアの利用可能化が進み、視覚言語基盤モデルの急速な進歩に大きく寄与した。
しかし、これらのデータセットの大規模化は、必然的にデータ品質の大幅な変動をもたらし、モデルの性能に悪影響を及ぼす可能性がある。
これは、トレーニング効率を高めるだけでなく、全体的なデータ品質を改善するために、データフィルタリングの重要な役割を強調します。
既存のメソッドは通常、事前訓練されたモデルから派生したCLIP ScoreやBLIP Scoreといったメトリクスに依存している。
しかしながら、これらのモデルは、フィルタされたデータセットのエラーやミスアライメントを永続することができる、未修正のノイズの多いデータセットでトレーニングされることが多い。
本稿では,画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
画像テキストアライメントにおける人間の嗜好を体系的に把握するために,各画像が様々なソースからの複数のキャプションに関連付けられている多様な画像テキストデータセットを収集し,ラベルからアライメントアライメントアライメントを批判的に導くための主観的基準と客観的基準の包括的セットを確立する。
さらに、画像テキストのアライメントに関する微妙な人間の理解を内部化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
結果として得られる報酬モデルは、画像とテキストのペアをフィルタリングする人間のようなレフェリーとして機能する。
大規模な実験では、画像テキストデータセットを最大90%圧縮しながら、パフォーマンスを維持、時には改善できることを示した。
印象的な例は、総トレーニングサンプルを130Mから15.5Mに積極的に削減することで、私たちのBLIP-B/16モデルは、フルサイズのデータセットと比較して、検索タスクが2.9%、キャプションタスクが11.5%の平均的な改善を常に示していることである。
The increasing availability of image-text pairs has largely fueled the rapid advancement in vision-language foundation models. However, the vast scale of these datasets inevitably introduces significant variability in data quality, which can adversely affect the model performance. This highlights the critical role of data filtering, not only to enhance training efficiency but also to improve overall data quality. Existing methods typically rely on metrics such as CLIP Score and BLIP Score, which are derived from pre-trained models. However, these models are often trained on uncurated, noisy datasets, which can perpetuate errors and misalignments in the filtered dataset. We present a novel algorithm that incorporates human knowledge on image-text alignment to guide filtering vast corpus of web-crawled image-text datasets into a compact and high-quality form. To systemically capture human preferences on image-text alignments, we collect a diverse image-text dataset where each image is associated with multiple captions from various sources, and establish a comprehensive set of both subjective and objective criteria for critically guiding the alignment assessment from labelers. Additionally, we train a reward model on these human-preference annotations to internalize the nuanced human understanding of image-text alignment. The resulting reward model thus can act as a human-like referee to filter image-text pairs. Extensive experiments demonstrate that we can maintain, sometimes even improve, model performance while compressing the image-text datasets up to ~90%. An impressive example is that, by aggressively reducing the total training sample from 130M to only 15.5M, our BLIP-B/16 models consistently show an average improvement of 2.9% on retrieval tasks and 11.5% on captioning tasks compared to full-size-dataset counterparts. | 翻訳日:2024-08-28 00:46:25 公開日:2024-08-26 |
# ダイナミック回路を用いた高忠実・多ビット一般化計測
High-fidelity, multi-qubit generalized measurements with dynamic circuits ( http://arxiv.org/abs/2312.14087v2 ) ライセンス: Link先を確認 | Petr Ivashkov, Gideon Uchehara, Liang Jiang, Derek S. Wang, Alireza Seif, | (参考訳) 一般測度(英: Generalized Measurement)または正作用素値測度(英: positive operator-valued measures、POVM)は、様々な量子情報タスクにおける射影測度よりも有利である。
そこで我々は, 1 と 2 の超伝導量子ビットの高忠実度および単一実験条件下での一般化された測定を実現した。
そこで本研究では,中間回路計測とフィードフォワード制御のためのハードウェア機能を活用した,Naimarkのダイレーションとバイナリツリーのハイブリッド化に基づくハイブリッド手法である"Naimark-terminated binary tree"を提案する。
さらに, 雑音条件下でのPOVMの忠実度を高めるために, 近似コンパイルの有効利用を示す。
我々は,本手法が構成法よりもより大きなシステムサイズに拡張可能であることを論じ,対称な情報完全POVM(SIC-POVM)の検出器トモグラフィーを行うことにより,その利点を実証する。
ツイリングと新たに考案された条件付き読み出し誤り軽減を組み込んだ複合誤差軽減戦略により、検出器の忠実度をさらに向上する。
今後,超伝導量子ビット上での大規模マルチキュービットPOVMの一般的な測定を可能にするため,近似コンパイルとハードウェアノイズの改善が期待できる。
Generalized measurements, also called positive operator-valued measures (POVMs), can offer advantages over projective measurements in various quantum information tasks. Here, we realize a generalized measurement of one and two superconducting qubits with high fidelity and in a single experimental setting. To do so, we propose a hybrid method, the "Naimark-terminated binary tree," based on a hybridization of Naimark's dilation and binary tree techniques that leverages emerging hardware capabilities for mid-circuit measurements and feed-forward control. Furthermore, we showcase a highly effective use of approximate compiling to enhance POVM fidelity in noisy conditions. We argue that our hybrid method scales better toward larger system sizes than its constituent methods and demonstrate its advantage by performing detector tomography of symmetric, informationally complete POVM (SIC-POVM). Detector fidelity is further improved through a composite error mitigation strategy that incorporates twirling and a newly devised conditional readout error mitigation. Looking forward, we expect improvements in approximate compilation and hardware noise for dynamic circuits to enable generalized measurements of larger multi-qubit POVMs on superconducting qubits. | 翻訳日:2024-08-28 00:36:11 公開日:2024-08-26 |
# 誤りを伴う量子クリロフアルゴリズムの解析
Analysis of quantum Krylov algorithms with errors ( http://arxiv.org/abs/2401.01246v7 ) ライセンス: Link先を確認 | William Kirby, | (参考訳) この研究は、量子回路の出力における一般的な誤差を考慮に入れた、リアルタイム進化に基づく量子クリロフアルゴリズムの漸近的誤り解析を提供する。
得られた基底状態エネルギー推定値の上限値と下限値とを証明し,入力誤差率において上限値に関連付けられた誤差が線形であることを示す。
これは、およそ線形な誤差のスケーリングを示す既知の数値と、誤差率を$\frac{2}{3}$に限定して、証明可能なスケールを得る前の理論的解析との相違を解消する。
我々の主な手法は、実効的クリロフ空間で研究された実効的対象ハミルトニアンの観点から、一般的な誤差を表現することである。
これらの結果は、量子クリロフ誤差の主な特徴を理解するための理論的枠組みを提供する。
This work provides a nonasymptotic error analysis of quantum Krylov algorithms based on real-time evolutions, subject to generic errors in the outputs of the quantum circuits. We prove upper and lower bounds on the resulting ground state energy estimates, and the error associated to the upper bound is linear in the input error rates. This resolves a misalignment between known numerics, which exhibit approximately linear error scaling, and prior theoretical analysis, which only provably obtained scaling with the error rate to the power $\frac{2}{3}$. Our main technique is to express generic errors in terms of an effective target Hamiltonian studied in an effective Krylov space. These results provide a theoretical framework for understanding the main features of quantum Krylov errors. | 翻訳日:2024-08-28 00:36:11 公開日:2024-08-26 |
# 顔画像からの心拍数と血圧推定のための位相シフト型遠隔胸腺撮影法
Phase-shifted remote photoplethysmography for estimating heart rate and blood pressure from facial video ( http://arxiv.org/abs/2401.04560v3 ) ライセンス: Link先を確認 | Gyutae Hwang, Sang Jun Lee, | (参考訳) ヒトの健康は高血圧、不整脈、脳卒中などの心血管疾患に深刻な影響を受けることがある。
心拍数と血圧は、心血管系のモニタリングと心血管疾患の早期診断に重要な生体情報である。
既存の心拍数を推定する方法は、センサを皮膚表面に接触させる必要のある心電図と光胸腔造影に基づいている。
さらに、血圧測定のためのカテーテルおよびカフ法は不便であり、適用性に制限がある。
そこで本論文では,心拍数と血圧を推定する視覚的手法を提案する。
本論文では,2段階の深層学習フレームワークとして,DRP-NetとBBP-Netを併用した2段階の深層学習手法を提案する。
第1段階では、DRP-Netは、頭蓋領域と顔面領域の遠隔光胸腺造影(rPPG)信号を推測し、これらの位相シフトしたrPPG信号を用いて心拍数を推定する。
第2段階では、BBP-Netは時間的特徴を統合し、アクラールのrPPG信号と顔のrPPG信号の位相差を分析し、SBPとDBPの値を推定する。
心拍数を推定する精度を向上させるため,フレーム補間モデルに基づくデータ拡張手法を適用した。
さらに,拡張型シグモイド機能を組み込んだBBP-Netの設計を行った。
その結果,平均絶対誤差(MAE)を1.78 BPMと推定し,最近のMMSE-HRデータセットと比較すると,MAEを34.31%削減した。
収縮期血圧 (SBP) と拡張期血圧 (DBP) を推定するためのMAEは10.19 mmHg, 7.09 mmHgであった。
V4Vデータセットでは、心拍数のMAE、SBP、DBPはそれぞれ3.83 BPM、13.64 mmHg、9.4 mmHgであった。
Human health can be critically affected by cardiovascular diseases, such as hypertension, arrhythmias, and stroke. Heart rate and blood pressure are important biometric information for the monitoring of cardiovascular system and early diagnosis of cardiovascular diseases. Existing methods for estimating the heart rate are based on electrocardiography and photoplethyomography, which require contacting the sensor to the skin surface. Moreover, catheter and cuff-based methods for measuring blood pressure cause inconvenience and have limited applicability. Therefore, in this thesis, we propose a vision-based method for estimating the heart rate and blood pressure. This thesis proposes a 2-stage deep learning framework consisting of a dual remote photoplethysmography network (DRP-Net) and bounded blood pressure network (BBP-Net). In the first stage, DRP-Net infers remote photoplethysmography (rPPG) signals for the acral and facial regions, and these phase-shifted rPPG signals are utilized to estimate the heart rate. In the second stage, BBP-Net integrates temporal features and analyzes phase discrepancy between the acral and facial rPPG signals to estimate SBP and DBP values. To improve the accuracy of estimating the heart rate, we employed a data augmentation method based on a frame interpolation model. Moreover, we designed BBP-Net to infer blood pressure within a predefined range by incorporating a scaled sigmoid function. Our method resulted in estimating the heart rate with the mean absolute error (MAE) of 1.78 BPM, reducing the MAE by 34.31 % compared to the recent method, on the MMSE-HR dataset. The MAE for estimating the systolic blood pressure (SBP) and diastolic blood pressure (DBP) were 10.19 mmHg and 7.09 mmHg. On the V4V dataset, the MAE for the heart rate, SBP, and DBP were 3.83 BPM, 13.64 mmHg, and 9.4 mmHg, respectively. | 翻訳日:2024-08-28 00:36:11 公開日:2024-08-26 |
# TrustLLM: 大規模言語モデルにおける信頼性
TrustLLM: Trustworthiness in Large Language Models ( http://arxiv.org/abs/2401.05561v5 ) ライセンス: Link先を確認 | Yue Huang, Lichao Sun, Haoran Wang, Siyuan Wu, Qihui Zhang, Yuan Li, Chujie Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Zhengliang Liu, Yixin Liu, Yijue Wang, Zhikun Zhang, Bertie Vidgen, Bhavya Kailkhura, Caiming Xiong, Chaowei Xiao, Chunyuan Li, Eric Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal, James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang Tang, Jindong Wang, Joaquin Vanschoren, John Mitchell, Kai Shu, Kaidi Xu, Kai-Wei Chang, Lifang He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin-Yu Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen, Tianming Liu, Tianyi Zhou, William Wang, Xiang Li, Xiangliang Zhang, Xiao Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yong Chen, Yue Zhao, | (参考訳) ChatGPTによって実証された大規模言語モデル(LLM)は、その優れた自然言語処理能力にかなりの注目を集めている。
にもかかわらず、これらのLSMは、特に信頼性の領域において、多くの課題を呈している。
したがって、LSMの信頼性を確保することが重要なトピックである。
本稿では, LLMにおける信頼度に関する総合的研究であるTrustLLMを紹介し, 信頼性の異なる側面に対する原則, 確立されたベンチマーク, 主要なLCMに対する信頼度の評価, 分析, オープンチャレンジと今後の方向性について議論する。
具体的には,まず,8つの異なる次元にまたがる信頼性の高いLCMの原理を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシー、機械倫理を含む6つの次元にわたるベンチマークを確立する。
次に、30以上のデータセットからなるTrustLLMの16のメインストリームLCMを評価する。
まず,一般に信頼性と実用性(機能的有効性)は肯定的に関連していることが示唆された。
第2に,プロプライエタリなLDMは信頼性という点で一般的にオープンソースよりも優れており,広くアクセス可能なオープンソースLMの潜在的なリスクに対する懸念が高まっている。
しかし、いくつかのオープンソース LLM はプロプライエタリに非常に近いものである。
第三に、一部のLSMは信頼性を示すために過度に調整されている可能性がある点に注意する必要がある。
最後に、モデル自体だけでなく、信頼性を支える技術においても透明性を確保することの重要性を強調します。
採用されている特定の信頼できる技術を知ることは、その有効性を分析するのに不可欠である。
Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness. | 翻訳日:2024-08-28 00:36:11 公開日:2024-08-26 |
# SSL-Interactions:対話的軌道予測のためのプレテキストタスク
SSL-Interactions: Pretext Tasks for Interactive Trajectory Prediction ( http://arxiv.org/abs/2401.07729v2 ) ライセンス: Link先を確認 | Prarthana Bhattacharyya, Chengjie Huang, Krzysztof Czarnecki, | (参考訳) 本稿では,自動運転車の安全確保に重要なマルチエージェント環境における動作予測について述べる。
従来のデータ駆動の限界軌道予測手法と同様に、非線形エージェント-エージェント間相互作用を適切に学習するのに苦労する。
トラジェクティブ予測のためのインタラクションモデリングを強化するために,プリテキストタスクを提案するSSL-Interactionsを提案する。
エージェント間相互作用の様々な側面をカプセル化する4つの対話型プレテキストタスク(範囲ギャップ予測,最接近距離予測,移動方向予測,対話型予測)を導入する。
さらに,データセットからインタラクション重大シナリオをキュレートする手法を提案する。
このキュレートされたデータには、インタラクションモデルに対するより強力な学習信号を提供し、インタラクション中心のプレテキストタスクのための擬似ラベルの生成を容易にするという2つの利点がある。
また,インタラクティブなシーンにおける予測評価に特化して設計された3つの新しい指標を提案する。
我々の経験的評価は、SSL-Interactionsが最先端の動作予測手法を最大8%改善し、質的にも、相互作用重大シナリオに優れていることを示している。
This paper addresses motion forecasting in multi-agent environments, pivotal for ensuring safety of autonomous vehicles. Traditional as well as recent data-driven marginal trajectory prediction methods struggle to properly learn non-linear agent-to-agent interactions. We present SSL-Interactions that proposes pretext tasks to enhance interaction modeling for trajectory prediction. We introduce four interaction-aware pretext tasks to encapsulate various aspects of agent interactions: range gap prediction, closest distance prediction, direction of movement prediction, and type of interaction prediction. We further propose an approach to curate interaction-heavy scenarios from datasets. This curated data has two advantages: it provides a stronger learning signal to the interaction model, and facilitates generation of pseudo-labels for interaction-centric pretext tasks. We also propose three new metrics specifically designed to evaluate predictions in interactive scenes. Our empirical evaluations indicate SSL-Interactions outperforms state-of-the-art motion forecasting methods quantitatively with up to 8% improvement, and qualitatively, for interaction-heavy scenarios. | 翻訳日:2024-08-28 00:36:11 公開日:2024-08-26 |
# BinaryAI: インテリジェントバイナリソースコードマッチングによるバイナリソフトウェア構成分析
BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching ( http://arxiv.org/abs/2401.11161v3 ) ライセンス: Link先を確認 | Ling Jiang, Junwen An, Huihui Huang, Qiyi Tang, Sen Nie, Shi Wu, Yuqun Zhang, | (参考訳) サードパーティのライブラリは、ソフトウェア開発の生産性を高めるために広範囲に再利用されているが、脆弱性の伝搬のような潜在的なセキュリティリスクを導入することもできる。
このようなリスクを軽減するために再利用可能なTPLを同定するソフトウェア構成分析は、DevSecOpsにおいて必須の手順となっている。
主要なSCA技術の一つとして、バイナリ・トゥ・ソースSCA(リンク)はバイナリ・ソースコードマッチングを通じてバイナリ・ファイルに含まれるサードパーティのオープンソースプロジェクトを特定します。
既存のバイナリ・トゥ・ソースのSCA技術は、冗長性と大規模TPLデータセットの堅牢性に欠ける基本的な構文的特徴を利用しており、必然的な偽陽性と難解なリコールにつながっている。
これらの制限を緩和するため、BinaryAIという2段階のバイナリソースコードマッチングを備えた、新しいバイナリからソースまでのSCA技術を導入し、構文的およびセマンティックなコードの特徴を捉える。
まず、BinaryAIはトランスフォーマーベースのモデルをトレーニングし、関数レベルの埋め込みを生成し、それに応じて各バイナリ関数に対して同様のソース関数を取得する。
次に、関数マッチングを容易にするためにリンク時間局所性を適用することにより、BinaryAIは一致したソース関数の比率に基づいて再利用されたTPLを検出する。
実験の結果、バイナリソースコードマッチングと下流SCAタスクにおいて、BinaryAIの優れた性能を示しました。
具体的には、組込みモデルは、最先端モデルであるCodeCMRよりも優れており、それぞれ10.75%と0.17と比較して、22.54%のリコール@1と0.34 MRRを達成した。
さらに、BinaryAIは既存のバイナリからソースまでのSCAツールをTPL検出で上回り、精度は73.36%から85.84%に、リコールは59.81%から64.98%に向上した。
While third-party libraries are extensively reused to enhance productivity during software development, they can also introduce potential security risks such as vulnerability propagation. Software composition analysis, proposed to identify reused TPLs for reducing such risks, has become an essential procedure within modern DevSecOps. As one of the mainstream SCA techniques, binary-to-source SCA identifies the third-party source projects contained in binary files via binary source code matching, which is a major challenge in reverse engineering since binary and source code exhibit substantial disparities after compilation. The existing binary-to-source SCA techniques leverage basic syntactic features that suffer from redundancy and lack robustness in the large-scale TPL dataset, leading to inevitable false positives and compromised recall. To mitigate these limitations, we introduce BinaryAI, a novel binary-to-source SCA technique with two-phase binary source code matching to capture both syntactic and semantic code features. First, BinaryAI trains a transformer-based model to produce function-level embeddings and obtain similar source functions for each binary function accordingly. Then by applying the link-time locality to facilitate function matching, BinaryAI detects the reused TPLs based on the ratio of matched source functions. Our experimental results demonstrate the superior performance of BinaryAI in terms of binary source code matching and the downstream SCA task. Specifically, our embedding model outperforms the state-of-the-art model CodeCMR, i.e., achieving 22.54% recall@1 and 0.34 MRR compared with 10.75% and 0.17 respectively. Additionally, BinaryAI outperforms all existing binary-to-source SCA tools in TPL detection, increasing the precision from 73.36% to 85.84% and recall from 59.81% to 64.98% compared with the well-recognized commercial SCA product. | 翻訳日:2024-08-28 00:36:11 公開日:2024-08-26 |
# 2D-3DニューラルキャリブレーションによるLiDAR3D点雲の自己教師付き学習
Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration ( http://arxiv.org/abs/2401.12452v2 ) ライセンス: Link先を確認 | Yifan Zhang, Siyu Ren, Junhui Hou, Jinjian Wu, Yixuan Yuan, Guangming Shi, | (参考訳) 本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
具体的には,2D-3Dニューラルキャリブレーション(2D-3Dニューラルキャリブレーション)に焦点をあてる。
まず、画像と点クラウドデータの領域ギャップを埋める学習可能な変換アライメントを提案し、効率的な比較とマッチングのために特徴を統一表現空間に変換する。
第2に、画像と点雲の間の重なり合う領域と、融合した特徴とを識別する。
第三に、厳密なポーズを推定するために密度の高い2D-3D対応を確立する。
このフレームワークは、点から画素までのきめ細かいマッチングを学習するだけでなく、画像と点雲を全体的レベルでアライメントし、相対的なポーズを理解する。
我々は,LDARに基づく3Dセマンティックセマンティックセグメンテーション,オブジェクト検出,汎光学セグメンテーションなどの下流タスクに事前学習したバックボーンを適用することにより,NCLRの有効性を示す。
様々なデータセットに関する総合的な実験は、既存の自己管理手法よりもNCLRの方が優れていることを示している。
その結果,異なるモダリティからの共同学習によってネットワークの理解能力や学習表現の有効性が著しく向上することが確認された。
コードはhttps://github.com/Eaphan/NCLR.comで公開されている。
This paper introduces a novel self-supervised learning framework for enhancing 3D perception in autonomous driving scenes. Specifically, our approach, namely NCLR, focuses on 2D-3D neural calibration, a novel pretext task that estimates the rigid pose aligning camera and LiDAR coordinate systems. First, we propose the learnable transformation alignment to bridge the domain gap between image and point cloud data, converting features into a unified representation space for effective comparison and matching. Second, we identify the overlapping area between the image and point cloud with the fused features. Third, we establish dense 2D-3D correspondences to estimate the rigid pose. The framework not only learns fine-grained matching from points to pixels but also achieves alignment of the image and point cloud at a holistic level, understanding their relative pose. We demonstrate the efficacy of NCLR by applying the pre-trained backbone to downstream tasks, such as LiDAR-based 3D semantic segmentation, object detection, and panoptic segmentation. Comprehensive experiments on various datasets illustrate the superiority of NCLR over existing self-supervised methods. The results confirm that joint learning from different modalities significantly enhances the network's understanding abilities and effectiveness of learned representation. The code is publicly available at https://github.com/Eaphan/NCLR. | 翻訳日:2024-08-28 00:36:11 公開日:2024-08-26 |
# LFトレーシー(LFトレーシー):光界カメラのサリアント物体検出のための統一単管アプローチ
LF Tracy: A Unified Single-Pipeline Approach for Salient Object Detection in Light Field Cameras ( http://arxiv.org/abs/2401.16712v2 ) ライセンス: Link先を確認 | Fei Teng, Jiaming Zhang, Jiawei Liu, Kunyu Peng, Xina Cheng, Zhiyong Li, Kailun Yang, | (参考訳) リッチな情報を活用することは、密集した予測タスクに不可欠である。
光フィールド(LF)カメラは、様々な視点からデータをサンプリングできるため、この点において有効である。
この能力は、空間情報、深度情報、角情報を提供し、シーンパーシングのタスクを強化する。
しかし, LF Salient Object Detection (SOD) の課題は2つ見過ごされている。
1) 従来のアプローチでは,光界画像内の空間的・深度的特徴を発見するために,カスタマイズされた2ストリーム設計が主流であった。
ネットワークは、ネットワーク内のデータ接続の欠如により、異なる画像間で暗黙の角情報を学ぶのに苦労している。
2)LF SODのデータ拡張戦略についてはほとんど研究されていない。
ネットワーク間データ接続に関する研究は困難である。
本研究では,これらの問題に対処するための効率的なパラダイム(LF Tracy)を提案する。
これは、高効率な情報集約(IA)モジュール(約8Mパラメータ)と組み合わせて、ネットワーク内接続を確立するシングルパイプエンコーダを含む。
次に、MixLDと呼ばれるシンプルだが効果的なデータ拡張戦略が、ネットワーク間の接続をブリッジするように設計されている。
この革新的なパラダイムにより、我々のモデルは広範な実験を通じて既存の最先端の手法を超越している。
特にLF Tracyは、最新の大規模PKUデータセットにおいて、以前の結果よりも23%改善されている。
ソースコードは、https://github.com/FeiBryantkit/LF-Tracyで公開されている。
Leveraging rich information is crucial for dense prediction tasks. Light field (LF) cameras are instrumental in this regard, as they allow data to be sampled from various perspectives. This capability provides valuable spatial, depth, and angular information, enhancing scene-parsing tasks. However, we have identified two overlooked issues for the LF salient object detection (SOD) task. (1): Previous approaches predominantly employ a customized two-stream design to discover the spatial and depth features within light field images. The network struggles to learn the implicit angular information between different images due to a lack of intra-network data connectivity. (2): Little research has been directed towards the data augmentation strategy for LF SOD. Research on inter-network data connectivity is scant. In this study, we propose an efficient paradigm (LF Tracy) to address those issues. This comprises a single-pipeline encoder paired with a highly efficient information aggregation (IA) module (around 8M parameters) to establish an intra-network connection. Then, a simple yet effective data augmentation strategy called MixLD is designed to bridge the inter-network connections. Owing to this innovative paradigm, our model surpasses the existing state-of-the-art method through extensive experiments. Especially, LF Tracy demonstrates a 23% improvement over previous results on the latest large-scale PKU dataset. The source code is publicly available at: https://github.com/FeiBryantkit/LF-Tracy. | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-26 |
# 垂直・動的・ロバストな二足歩行制御のための強化学習
Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control ( http://arxiv.org/abs/2401.16889v2 ) ライセンス: Link先を確認 | Zhongyu Li, Xue Bin Peng, Pieter Abbeel, Sergey Levine, Glen Berseth, Koushil Sreenath, | (参考訳) 本稿では、深部強化学習(RL)を用いて、二足歩行ロボットのための動的移動制御器を作成するための総合的研究について述べる。
単一の歩行スキルに限らず、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行スキルに使用できる汎用的な制御ソリューションを開発した。
ロボットの長期的・短期的な入出力(I/O)履歴を生かした,新しいデュアルヒストリーアーキテクチャをRLベースのコントローラに組み込んだ。
この制御アーキテクチャは、提案されたエンドツーエンドのRLアプローチによってトレーニングされた場合、シミュレーションと現実世界の両方において、さまざまなスキルで、他の手法よりも一貫して優れています。
この研究はまた、ロコモーションコントローラの開発において提案されたRLシステムによって導入された適応性とロバスト性についても検討した。
提案アーキテクチャは,ロボットのI/O履歴を効果的に利用することにより,時間不変のダイナミクスシフトと接触イベントなどの時間変動に適応できることを実証する。
さらに,タスクのランダム化をロバスト性の別の重要な源として認識し,タスクの一般化と障害へのコンプライアンスを促進する。
結果として得られるコントロールポリシーは、トルク制御された人間サイズの二足歩行ロボットであるCassieにうまく展開できる。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
例えば、頑丈な立ち上がり、多目的歩行、400メートルのダッシュのデモによる高速走、長いジャンプや高いジャンプなどのジャンプスキルの多種多様なセットなどである。
This paper presents a comprehensive study on using deep reinforcement learning (RL) to create dynamic locomotion controllers for bipedal robots. Going beyond focusing on a single locomotion skill, we develop a general control solution that can be used for a range of dynamic bipedal skills, from periodic walking and running to aperiodic jumping and standing. Our RL-based controller incorporates a novel dual-history architecture, utilizing both a long-term and short-term input/output (I/O) history of the robot. This control architecture, when trained through the proposed end-to-end RL approach, consistently outperforms other methods across a diverse range of skills in both simulation and the real world. The study also delves into the adaptivity and robustness introduced by the proposed RL system in developing locomotion controllers. We demonstrate that the proposed architecture can adapt to both time-invariant dynamics shifts and time-variant changes, such as contact events, by effectively using the robot's I/O history. Additionally, we identify task randomization as another key source of robustness, fostering better task generalization and compliance to disturbances. The resulting control policies can be successfully deployed on Cassie, a torque-controlled human-sized bipedal robot. This work pushes the limits of agility for bipedal robots through extensive real-world experiments. We demonstrate a diverse range of locomotion skills, including: robust standing, versatile walking, fast running with a demonstration of a 400-meter dash, and a diverse set of jumping skills, such as standing long jumps and high jumps. | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-26 |
# クラウドにおけるIoT - 接続された世界に対するセキュリティ上の課題と緩和を探る
IoT in the Cloud: Exploring Security Challenges and Mitigations for a Connected World ( http://arxiv.org/abs/2402.00356v2 ) ライセンス: Link先を確認 | Nivedita Singh, Rajkumar Buyya, Hyoungshich Kim, | (参考訳) IoT(Internet of Things)は近年顕著な進歩を遂げており、デジタルランドスケープのパラダイムシフトにつながっている。
しかし、これらの技術進歩は、特にサイバーセキュリティにおいて、新しい課題をもたらしている。
IoTデバイスは本質的にインターネットに接続されており、様々なタイプの攻撃を受けやすい。
さらにIoTサービスは、悪意のあるアクターや不正なサービスプロバイダによって悪用される可能性のある、センシティブなユーザデータを扱うことが多い。
IoTエコシステムが拡大するにつれて、従来型およびクラウドベースのシステムの収束は、均一な規制がなければ、ユニークなセキュリティ脅威を生じさせる。
PaaS(Platform-as-a-Service)とIaaS(Infrastructure-as-a-Service)モデルによって実現されたクラウドベースのIoTシステムは、柔軟性とスケーラビリティを提供すると同時に、さらなるセキュリティリスクも生じさせる。
これらのシステムと従来のIoTデバイスとの複雑なインタラクションは、データの完全性とユーザのプライバシを保護するための包括的な戦略を必要とする。
本稿は、IoTデバイスやサービスの普及に伴うセキュリティ上の懸念を浮き彫りにする。
今後の課題を予測し、準備しながら、既存のセキュリティギャップを埋める実行可能なソリューションを提案します。
当社のアプローチでは,IoTサービスが現在直面している重要なセキュリティ課題を,網羅的に調査しています。
また、これらのリスクを軽減し、IoTデバイスやサービスの全体的なセキュリティを強化するための積極的な戦略を提案する。
The Internet of Things (IoT) has seen remarkable advancements in recent years, leading to a paradigm shift in the digital landscape. However, these technological strides have introduced new challenges, particularly in cybersecurity. IoT devices, inherently connected to the internet, are susceptible to various forms of attacks. Moreover, IoT services often handle sensitive user data, which could be exploited by malicious actors or unauthorized service providers. As IoT ecosystems expand, the convergence of traditional and cloud-based systems presents unique security threats in the absence of uniform regulations. Cloud-based IoT systems, enabled by Platform-as-a-Service (PaaS) and Infrastructure-as-a-Service (IaaS) models, offer flexibility and scalability but also pose additional security risks. The intricate interaction between these systems and traditional IoT devices demands comprehensive strategies to protect data integrity and user privacy. This paper highlights the pressing security concerns associated with the widespread adoption of IoT devices and services. We propose viable solutions to bridge the existing security gaps while anticipating and preparing for future challenges. Our approach entails a comprehensive exploration of the key security challenges that IoT services are currently facing. We also suggest proactive strategies to mitigate these risks, thereby strengthening the overall security of IoT devices and services. | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-26 |
# 3次元ガウス散乱の誤差解析と最適射影戦略について
On the Error Analysis of 3D Gaussian Splatting and an Optimal Projection Strategy ( http://arxiv.org/abs/2402.00752v4 ) ライセンス: Link先を確認 | Letian Huang, Jiayang Bai, Jie Guo, Yuanqi Li, Yanwen Guo, | (参考訳) 3D Gaussian Splattingは、リアルタイムなニューラルレンダリングに広く注目され、応用されている。
同時に、ポイントクラウドストレージ、パフォーマンス、スパース視点での堅牢性といった側面において、この技術の限界に関する懸念が持ち上がっており、様々な改善につながっている。
しかし、スティング自体に固有の局所アフィン近似によって生じる射影誤差の根本的な問題や、これらの誤差がフォトリアリスティックレンダリングの品質に与える影響に注意が払われていない。
本稿では,プロジェクション関数の1次テイラー展開による残差誤差を考慮し,3次元ガウス散乱の射影誤差関数に対処する。
この分析は誤差とガウス平均位置の相関関係を確立する。
その後,関数最適化理論を利用して関数のミニマを解析し,様々なカメラモデルに対応可能な最適ガウススメッティング(Optimal Gaussian Splatting)と呼ばれるガウススメッティングの最適プロジェクション戦略を提供する。
実験的検証により、このプロジェクション手法がアーティファクトを減少させ、より説得力のあるリアルなレンダリングをもたらすことが確認される。
3D Gaussian Splatting has garnered extensive attention and application in real-time neural rendering. Concurrently, concerns have been raised about the limitations of this technology in aspects such as point cloud storage, performance, and robustness in sparse viewpoints, leading to various improvements. However, there has been a notable lack of attention to the fundamental problem of projection errors introduced by the local affine approximation inherent in the splatting itself, and the consequential impact of these errors on the quality of photo-realistic rendering. This paper addresses the projection error function of 3D Gaussian Splatting, commencing with the residual error from the first-order Taylor expansion of the projection function. The analysis establishes a correlation between the error and the Gaussian mean position. Subsequently, leveraging function optimization theory, this paper analyzes the function's minima to provide an optimal projection strategy for Gaussian Splatting referred to Optimal Gaussian Splatting, which can accommodate a variety of camera models. Experimental validation further confirms that this projection methodology reduces artifacts, resulting in a more convincingly realistic rendering. | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-26 |
# 新しいXAIに向けて:エビデンスを用いた仮説駆動による意思決定支援
Towards the New XAI: A Hypothesis-Driven Approach to Decision Support Using Evidence ( http://arxiv.org/abs/2402.01292v3 ) ライセンス: Link先を確認 | Thao Le, Tim Miller, Liz Sonenberg, Ronal Singh, | (参考訳) AIによる人的意思決定に関する以前の研究では、いくつかの異なる説明可能なAI(XAI)アプローチが検討されている。
近年の論文では、仮説駆動型XAIを評価AI(evaluative AI)と呼ばれる概念的枠組みで呼び出すパラダイムシフトが提案されている。
本稿では,ある仮説に対する肯定的かつ否定的な証拠を生成するWoE(Weight of Evidence)フレームワークに基づく仮説駆動型XAIのアプローチを記述し,評価する。
人間の行動実験を通じて、仮説駆動のアプローチは、推奨駆動のアプローチやAI説明のみのベースラインと比較して、決定精度を高め、信頼度を低減するが、推奨駆動のアプローチに比べて、信頼度の低いアプローチは少ないことを示す。
さらに、被験者は仮説駆動のアプローチを2つの基準線に対して実質的に異なる方法で用いた。
Prior research on AI-assisted human decision-making has explored several different explainable AI (XAI) approaches. A recent paper has proposed a paradigm shift calling for hypothesis-driven XAI through a conceptual framework called evaluative AI that gives people evidence that supports or refutes hypotheses without necessarily giving a decision-aid recommendation. In this paper, we describe and evaluate an approach for hypothesis-driven XAI based on the Weight of Evidence (WoE) framework, which generates both positive and negative evidence for a given hypothesis. Through human behavioural experiments, we show that our hypothesis-driven approach increases decision accuracy and reduces reliance compared to a recommendation-driven approach and an AI-explanation-only baseline, but with a small increase in under-reliance compared to the recommendation-driven approach. Further, we show that participants used our hypothesis-driven approach in a materially different way to the two baselines. | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-26 |
# 教師なし画像インスタンスセグメンテーションのためのディープスペクトル改善
Deep Spectral Improvement for Unsupervised Image Instance Segmentation ( http://arxiv.org/abs/2402.02474v3 ) ライセンス: Link先を確認 | Farnoosh Arefi, Amir M. Mansourian, Shohreh Kasaei, | (参考訳) 自己教師付き学習を用いて特徴を抽出し、親和性行列のラプラシアンを用いて固有部分を求めることにより、画像分解過程をグラフ分割タスクとして再構成する。
しかし、深層スペクトル法の文脈における他のタスクに比べて、インスタンスセグメンテーションにはあまり注意が払われていない。
本稿では,自己教師付きバックボーンから抽出した特徴マップのすべてのチャネルが,例えばセグメント化の目的のために十分な情報を含んでいるわけではないという事実に対処する。
実際、いくつかのチャンネルは騒々しく、タスクの正確さを妨げる。
そこで本研究では,ノイズチャネルリダクション (NCR) とディバイジョンベースリダクション (DCR) の2つのチャネルリダクションモジュールを提案する。
NCRはノイズが少ないためエントロピーの低いチャネルを保持するが、DCRは効果的なインスタンスセグメンテーションのための十分な情報がないため、標準偏差の低いチャネルを保持する。
さらに,本論文は, 深部スペクトル法でよく用いられるドット積が特徴写像値に対する感度のため, インスタンスセグメンテーションには適さないことを示す。
この問題に対処するために、Bray-Curtis over Chebyshev (BoC)と呼ばれる新しい類似度指標が提案されている。
それらの値に加えて、機能の分布を考慮に入れ、インスタンスセグメンテーションのより堅牢な類似度尺度を提供する。
Youtube-VIS2019データセットの定量および定性的な結果は、提案したチャネル還元法によって達成された改善と、親和性行列を作成するために従来のドット製品の代わりにBoCを使用することを強調している。
これらの改善は、Unionと抽出されたインスタンスセグメントに対する平均インターセクション(Intersection over Union)の観点で観察され、強化されたインスタンスセグメント性能を示す。
コードは、https://github.com/farnooshar/SpecUnIISで入手できる。
Deep spectral methods reframe the image decomposition process as a graph partitioning task by extracting features using self-supervised learning and utilizing the Laplacian of the affinity matrix to obtain eigensegments. However, instance segmentation has received less attention compared to other tasks within the context of deep spectral methods. This paper addresses the fact that not all channels of the feature map extracted from a self-supervised backbone contain sufficient information for instance segmentation purposes. In fact, Some channels are noisy and hinder the accuracy of the task. To overcome this issue, this paper proposes two channel reduction modules: Noise Channel Reduction (NCR) and Deviation-based Channel Reduction (DCR). The NCR retains channels with lower entropy, as they are less likely to be noisy, while DCR prunes channels with low standard deviation, as they lack sufficient information for effective instance segmentation. Furthermore, the paper demonstrates that the dot product, commonly used in deep spectral methods, is not suitable for instance segmentation due to its sensitivity to feature map values, potentially leading to incorrect instance segments. A new similarity metric called Bray-Curtis over Chebyshev (BoC) is proposed to address this issue. It takes into account the distribution of features in addition to their values, providing a more robust similarity measure for instance segmentation. Quantitative and qualitative results on the Youtube-VIS2019 dataset highlight the improvements achieved by the proposed channel reduction methods and the use of BoC instead of the conventional dot product for creating the affinity matrix. These improvements are observed in terms of mean Intersection over Union and extracted instance segments, demonstrating enhanced instance segmentation performance. The code is available on: https://github.com/farnooshar/SpecUnIIS | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-26 |
# 外乱検出のための隠れ外乱発生効率の向上
Efficient Generation of Hidden Outliers for Improved Outlier Detection ( http://arxiv.org/abs/2402.03846v2 ) ライセンス: Link先を確認 | Jose Cribeiro-Ramallo, Vadim Arzamasov, Klemens Böhm, | (参考訳) 外乱生成は重要な外乱検出タスクを解くのによく使われる手法である。
現実的な振る舞いでアウトリーチを生成することは難しい。
一般的な既存の手法は、高次元空間における外れ値の「複数ビュー」の性質を無視する傾向にある。
この性質を考慮に入れている唯一の方法は、効率性と有効性に欠ける。
本稿では,その特性を模倣した現実的な外れ値を生成する新しい外れ値生成手法であるBISECTを提案する。
そのために、BISECTは、これらの現実的な外れ値を効率的に生成する方法を述べる新しい提案をこの記事に導入している。
我々の手法は'複数ビュー'を再現する現在の手法よりも保証と複雑さが優れている。
複数のユースケースにおいて、BISECTが生成した合成外乱を用いて、多様なデータセットにおける外乱検出を効果的に強化する。
例えば、BISECTとのオーバーサンプリングでは、ベースラインと比較してエラーを最大3倍削減した。
Outlier generation is a popular technique used for solving important outlier detection tasks. Generating outliers with realistic behavior is challenging. Popular existing methods tend to disregard the 'multiple views' property of outliers in high-dimensional spaces. The only existing method accounting for this property falls short in efficiency and effectiveness. We propose BISECT, a new outlier generation method that creates realistic outliers mimicking said property. To do so, BISECT employs a novel proposition introduced in this article stating how to efficiently generate said realistic outliers. Our method has better guarantees and complexity than the current methodology for recreating 'multiple views'. We use the synthetic outliers generated by BISECT to effectively enhance outlier detection in diverse datasets, for multiple use cases. For instance, oversampling with BISECT reduced the error by up to 3 times when compared with the baselines. | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-26 |
# 平均$n$-stepの返却は強化学習における変数を減らす
Averaging $n$-step Returns Reduces Variance in Reinforcement Learning ( http://arxiv.org/abs/2402.03903v3 ) ライセンス: Link先を確認 | Brett Daley, Martha White, Marlos C. Machado, | (参考訳) n$-step returnや$\lambda$-returnsといったマルチステップリターンは、強化学習(RL)メソッドのサンプル効率を改善するために一般的に使用される。
多段階学習の利点を逆転させ、未来に近づきすぎると、多段階学習の利点が逆転する。
我々の研究では、分散を減らすために複合戻り値 -- $n$-step の重み付き平均値 -- が示される。
与えられた$n$-stepの戻り値と同じ縮約係数を持つ任意の化合物が、厳密に分散を減少させることを初めて証明する。
さらに,この分散還元特性が線形関数近似の下での時間差学習の有限サンプル複雑性を向上させることを証明した。
一般化合物のリターンは実装に費用がかかるため,ミニバッチ経験再生を用いた場合であっても,効率を保ちながら分散を低減できる2ブートストラップリターンを導入する。
DQN や PPO のような深部RL 剤の試料効率が$n$-step である場合が多いことを示す実験を行った。
Multistep returns, such as $n$-step returns and $\lambda$-returns, are commonly used to improve the sample efficiency of reinforcement learning (RL) methods. The variance of the multistep returns becomes the limiting factor in their length; looking too far into the future increases variance and reverses the benefits of multistep learning. In our work, we demonstrate the ability of compound returns -- weighted averages of $n$-step returns -- to reduce variance. We prove for the first time that any compound return with the same contraction modulus as a given $n$-step return has strictly lower variance. We additionally prove that this variance-reduction property improves the finite-sample complexity of temporal-difference learning under linear function approximation. Because general compound returns can be expensive to implement, we introduce two-bootstrap returns which reduce variance while remaining efficient, even when using minibatched experience replay. We conduct experiments showing that compound returns often increase the sample efficiency of $n$-step deep RL agents like DQN and PPO. | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-26 |
# 双線形回帰における交互最小化の漸近ダイナミクス
Asymptotic Dynamics of Alternating Minimization for Bilinear Regression ( http://arxiv.org/abs/2402.04751v2 ) ライセンス: Link先を確認 | Koki Okajima, Takashi Takahashi, | (参考訳) 本研究では,普通に分散した共変量を持つ双線型非凸関数を最適化するために適用された交互最小化の漸近ダイナミクスについて検討した。
これは、複製法を、アルゴリズムの時間進化を広げる多温度ガラスシステムに応用することで達成される。
本研究は,各ステップが全ての時間ステップに依存する2次元離散確率過程によって動的に記述できることを示す。
この研究で開発された理論的枠組みは、反復最小化の範囲を超えて、様々な反復アルゴリズムの分析に適用できる。
This study investigates the asymptotic dynamics of alternating minimization applied to optimize a bilinear non-convex function with normally distributed covariates. This is achieved by employing the replica method to a multi-temperature glassy system which unfolds the algorithm's time evolution. Our results show that the dynamics can be described effectively by a two-dimensional discrete stochastic process, where each step depends on all previous time steps, revealing the structure of the memory dependence in the evolution of alternating minimization. The theoretical framework developed in this work can be applied to the analysis of various iterative algorithms, extending beyond the scope of alternating minimization. | 翻訳日:2024-08-28 00:16:18 公開日:2024-08-26 |
# Be Persistent: ディープラーニングにおけるショートカットの緩和のための統一ソリューションを目指して
Be Persistent: Towards a Unified Solution for Mitigating Shortcuts in Deep Learning ( http://arxiv.org/abs/2402.11237v2 ) ライセンス: Link先を確認 | Hadi M. Dolatabadi, Sarah M. Erfani, Christopher Leckie, | (参考訳) 深層ニューラルネットワーク(DNN)は、意図したタスクを学ぶのではなく、入力と出力の間に不確定な関係を描く傾向がある。
この現象の痕跡は、一般化可能性の問題、ドメインシフト、敵対的脆弱性、さらには多数派に対する偏見にも見られる。
本稿では,様々なDNN問題の原因となるこの共通性が,ショートカット学習の統一解を見つけるために活用すべき重要な機会を生んでいることを論じる。
そこで我々は,最近のトポロジカルデータ解析(TDA),特に持続的ホモロジー(PH)の進歩を概説し,深層学習におけるショートカット検出のための統一されたロードマップをスケッチする。
我々は,DNNにおける計算グラフのトポロジ的特徴を,学習不可能な例と意思決定のバイアスの2つの事例を用いて検討することによって,議論を実証する。
DNNにおけるこれらの2つの障害事例を分析してみると、DNNにおけるショートカット学習のための統一されたソリューションを見つけることは不可能であり、TDAはそのようなフレームワークを形成する上で重要な役割を果たす。
Deep neural networks (DNNs) are vulnerable to shortcut learning: rather than learning the intended task, they tend to draw inconclusive relationships between their inputs and outputs. Shortcut learning is ubiquitous among many failure cases of neural networks, and traces of this phenomenon can be seen in their generalizability issues, domain shift, adversarial vulnerability, and even bias towards majority groups. In this paper, we argue that this commonality in the cause of various DNN issues creates a significant opportunity that should be leveraged to find a unified solution for shortcut learning. To this end, we outline the recent advances in topological data analysis (TDA), and persistent homology (PH) in particular, to sketch a unified roadmap for detecting shortcuts in deep learning. We demonstrate our arguments by investigating the topological features of computational graphs in DNNs using two cases of unlearnable examples and bias in decision-making as our test studies. Our analysis of these two failure cases of DNNs reveals that finding a unified solution for shortcut learning in DNNs is not out of reach, and TDA can play a significant role in forming such a framework. | 翻訳日:2024-08-28 00:16:18 公開日:2024-08-26 |
# ボース・アインシュタイン凝縮体における強相関不純物の量子ソリトン-トレイン
Quantum soliton-trains of strongly correlated impurities in Bose-Einstein condensates ( http://arxiv.org/abs/2402.11802v2 ) ライセンス: Link先を確認 | Hoshu Hiyane, Thomas Busch, Thomás Fogarty, | (参考訳) ボース・アインシュタイン凝縮体(BEC)に浸漬された強い相関不純物は、種間相互作用と種内相互作用が競合するため、密集した単一原子の周期構造を形成し、自己組織化されたピン状態をもたらす。
本研究では, 自己ピン状態の不純物がソリトントレインを形成することを数値的に示す。
不純物の力学は、魅力的なBECに現れるように明るい物質波ソリトンに類似した特性を持つが、数少ない不純物の場合、衝突の詳細な性質は量子統計によって決定される。
Strongly correlated impurities immersed in a Bose-Einstein condensate (BEC) can form a periodic structure of tightly localized single atoms due to competing inter- and intra-species interactions, leading to a self-organized pinned state. In this work, we show numerically that the impurities in the self-pinned state form a soliton-train, as a consequence of a BEC-mediated attractive self-interaction and ordering due to the exclusion principle. The dynamics of the impurities possess similar characteristics to bright matter-wave solitons as they appear in attractive BECs, however in the few impurities case, the detailed nature of collisions is determined by their quantum statistics. | 翻訳日:2024-08-28 00:16:18 公開日:2024-08-26 |
# QuanTest: 量子ニューラルネットワークシステムの絡み合い誘導テスト
QuanTest: Entanglement-Guided Testing of Quantum Neural Network Systems ( http://arxiv.org/abs/2402.12950v2 ) ライセンス: Link先を確認 | Jinjing Shi, Zimeng Xiao, Heyuan Shi, Yu Jiang, Xuelong Li, | (参考訳) 量子ニューラルネットワーク(QNN)は、ディープラーニング(DL)原理と量子力学の基本理論を組み合わせて、量子加速による機械学習タスクを実現する。
近年,QNNシステムでは,従来のDLシステムと同様の堅牢性の問題が報告されている。
彼らの正しさとセキュリティをテストする方法が緊急に必要である。
しかし、QNNシステムは従来の量子ソフトウェアと古典的なDLシステムとは大きく異なり、QNNテストにとって重要な課題となっている。
これらの課題には、プログラミングパラダイムと決定論理表現の違い、摂動演算子に対する量子テストサンプル生成の依存性、量子ニューロンにおける効果的な情報の欠如など、従来の量子ソフトウェアテスト手法をQNNシステムに適用できないことが含まれる。
本稿では,QNNシステムにおける潜在的誤動作を明らかにするために,量子絡み合い誘導型対角テストフレームワークQuanTestを提案する。
我々は、QNNシステムから入力量子状態が取得した絡み合いを定量化するために、量子絡み合い度基準を設計し、2つの類似度指標を用いて、生成した量子逆数例と元の入力との近接度を測定する。
その後、QuanTestは量子エンタングルメントの精度を最大化し、QNNシステムの誤った振る舞いを共同最適化問題として捉えるテスト入力を生成する問題を定式化し、量子逆例を生成するために勾配に基づく方法で解決する。
その結果,QuanTestはQNNシステム内の誤動作をキャプチャする能力を持っていることがわかった。
絡み合い誘導のアプローチは、敵の試験に有効であることを証明し、より敵対的な例を生成する。
Quantum Neural Network (QNN) combines the Deep Learning (DL) principle with the fundamental theory of quantum mechanics to achieve machine learning tasks with quantum acceleration. Recently, QNN systems have been found to manifest robustness issues similar to classical DL systems. There is an urgent need for ways to test their correctness and security. However, QNN systems differ significantly from traditional quantum software and classical DL systems, posing critical challenges for QNN testing. These challenges include the inapplicability of traditional quantum software testing methods to QNN systems due to differences in programming paradigms and decision logic representations, the dependence of quantum test sample generation on perturbation operators, and the absence of effective information in quantum neurons. In this paper, we propose QuanTest, a quantum entanglement-guided adversarial testing framework to uncover potential erroneous behaviors in QNN systems. We design a quantum entanglement adequacy criterion to quantify the entanglement acquired by the input quantum states from the QNN system, along with two similarity metrics to measure the proximity of generated quantum adversarial examples to the original inputs. Subsequently, QuanTest formulates the problem of generating test inputs that maximize the quantum entanglement adequacy and capture incorrect behaviors of the QNN system as a joint optimization problem and solves it in a gradient-based manner to generate quantum adversarial examples. results demonstrate that QuanTest possesses the capability to capture erroneous behaviors in QNN systems. The entanglement-guided approach proves effective in adversarial testing, generating more adversarial examples. | 翻訳日:2024-08-28 00:16:18 公開日:2024-08-26 |
# 有限温度における光ツイーザ中中性原子の最適制御輸送
Optimal control transport of neutral atoms in optical tweezers at finite temperature ( http://arxiv.org/abs/2402.17831v2 ) ライセンス: Link先を確認 | Alice Pagano, Daniel Jaschke, Werner Weiss, Simone Montangero, | (参考訳) ライドバーグ量子コンピュータにおける中性原子の輸送は、グリッドの初期配置と動的接続への重要なステップであり、最近成功している。
有限温度における光ツイーザ中中性原子の輸送に対する最適制御と量子速度制限の適用について検討し,レーザーノイズが輸送忠実度にどう影響するかを解析した。
オープンループ最適制御は輸送の忠実度を著しく向上させ、最低温度が1,\mu$Kで3マイクロメートルの距離が8,9\%まで向上する。
さらに, 輸送効率を推定し, 閉ループ最適制御を実装する実験において実現可能な, 放出・捕獲計測における輸送忠実度がどのように振る舞うかをシミュレートする。
The transport of neutral atoms in Rydberg quantum computers is a crucial step of the initial arrangement of the grid as well as to the dynamic connectivity, recently successfully demonstrated. We study the application of optimal control and the quantum speed limit for the transport of neutral atoms in optical tweezers at finite temperatures and analyze how laser noise affects transport fidelity. Open-loop optimal control significantly enhances transport fidelity, achieving an improvement up to $89\%$ for the lowest analyzed temperature of $1\,\mu$K for a distance of three micrometers. Furthermore, we simulate how the transport fidelity behaves in release-and-capture measurements, which are realizable in the experiment to estimate transport efficiency and implement closed-loop optimal control. | 翻訳日:2024-08-28 00:16:18 公開日:2024-08-26 |
# ビームスプリッタによる2光子のウェーブパレット干渉--テンポラルエンタングルメントからウェーブパレット整形まで-
Wavepacket interference of two photons through a beam splitter: from temporal entanglement to wavepacket shaping ( http://arxiv.org/abs/2403.04432v3 ) ライセンス: Link先を確認 | Zhaohua Tian, Qi Liu, Yu Tian, Ying Gu, | (参考訳) ビーム分割に基づく量子干渉は、絡み合いに広く用いられている。
しかし、この絡み合いによって促進される時間的モードとウェーブパレット形状の観点からの絡み合いの定量的測定は未解明のままである。
ここでは、ビームスプリッタ(BS)を介して異なる時間的形状を持つ2つの光子の干渉を分析し、その時間的絡み合いと光子の形状形成への応用を提案する。
フォン・ノイマンエントロピーにより記述された時間的絡み合いは、BSの分裂比と入力光子の時間的不明瞭さによって決定される。
入力光子の正確な形状によらず,時間モードで符号化されたベル状態の生成を可能にするため,50/50BS構成で最大モード絡みを実現できることがわかった。
そして、特定のタイミングで絡み合った光子の一方を検出することにより、他方の光子の確率的形成を可能にする。
このプロセスは指数関数的に崩壊する(ED)波束をED正弦形に形成することができ、さらに99\%を超える忠実度を持つガウス形状にすることができる。
干渉に基づく光子の時間的絡み合いと形作りは、大規模光量子ネットワークにおける形状ミスマッチ問題を解くことができる。
Quantum interferences based on beam splitting are widely used for entanglement. However, the quantitative measurement of the entanglement in terms of temporal modes and wavepacket shaping facilitated by this entanglement remain unexplored. Here we analytically study the interference of two photons with different temporal shapes through a beam splitter (BS), then propose its application in temporal entanglement and shaping of photons. The temporal entanglement described by Von Neumann entropy is determined by the splitting ratio of BS and temporal indistinguishability of input photons. We found that maximum mode entanglement can be achieved with a 50/50 BS configuration, enabling the generation of a Bell state encoded in temporal modes, independent of the exact form of the input photons. Then, detecting one of the entangled photons at a specific time enables the probabilistic shaping of the other photon. This process can shape the exponentially decaying (ED) wavepacket into the ED sine shapes, which can be further shaped into Gaussian shapes with fidelity exceeding 99\%. The temporal entanglement and shaping of photons based on interference may solve the shape mismatch issues in large-scale optical quantum networks. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-26 |
# セマンティックセグメンテーションにおける注意誘導型特徴蒸留法
Attention-guided Feature Distillation for Semantic Segmentation ( http://arxiv.org/abs/2403.05451v2 ) ライセンス: Link先を確認 | Amir M. Mansourian, Arya Jalali, Rozhan Ahmadi, Shohreh Kasaei, | (参考訳) 教師から生徒への知識の蒸留に広く用いられている既存の複雑な手法とは対照的に,本研究では,改良された特徴マップを応用して注意を伝達する,シンプルかつ強力な手法の有効性を示す。
提案手法は, セマンティックセグメンテーションにおける既存手法を高密度な予測課題として優れ, リッチな情報の蒸留に有効であることが証明された。
AttnFD (Convolutional Block Attention Module, CBAM) は, チャネル固有情報と空間情報の両方を考慮し, 特徴マップを改良する手法である。
AttnFDは、教師と生徒の洗練された特徴マップ間の平均正方形誤差(MSE)損失関数を用いることで、PascalVoc 2012における学生ネットワークの平均的相互接続(mIoU)を改善することによる、セマンティックセグメンテーションにおける優れたパフォーマンスを示す。
In contrast to existing complex methodologies commonly employed for distilling knowledge from a teacher to a student, this paper showcases the efficacy of a simple yet powerful method for utilizing refined feature maps to transfer attention. The proposed method has proven to be effective in distilling rich information, outperforming existing methods in semantic segmentation as a dense prediction task. The proposed Attention-guided Feature Distillation (AttnFD) method, employs the Convolutional Block Attention Module (CBAM), which refines feature maps by taking into account both channel-specific and spatial information content. Simply using the Mean Squared Error (MSE) loss function between the refined feature maps of the teacher and the student, AttnFD demonstrates outstanding performance in semantic segmentation, achieving state-of-the-art results in terms of improving the mean Intersection over Union (mIoU) of the student network on the PascalVoc 2012, Cityscapes, COCO, and CamVid datasets. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-26 |
# 適応型大規模言語モデルを用いた病院コース要約のためのデータセットとベンチマーク
A Dataset and Benchmark for Hospital Course Summarization with Adapted Large Language Models ( http://arxiv.org/abs/2403.05720v2 ) ライセンス: Link先を確認 | Asad Aali, Dave Van Veen, Yamin Ishraq Arefeen, Jason Hom, Christian Bluethgen, Eduardo Pontes Reis, Sergios Gatidis, Namuun Clifford, Joseph Daws, Arash S. Tehrani, Jangwon Kim, Akshay S. Chaudhari, | (参考訳) ブリーフ病院コース(英: Brief hospital course, BHC)とは、患者の入院を要約した臨床文書である。
大きな言語モデル(LLM)は、現実世界のタスクを自動化する際、顕著な能力を示しているが、臨床ノートからBHCを合成するといった医療応用の能力は示されていない。
新規な前処理データセットMIMIC-IV-BHCを導入し,臨床ノートと短い病院コース(BHC)をカプセル化し,LLMをBHC合成に適用した。
さらに,2つの汎用LSMと3つの医療適応LSMの要約性能のベンチマークを導入する。
臨床ノートを入力として,3つのオープンソース LLM (Clinical-T5-Large, Llama2-13B, FLAN-UL2) と2つの独自 LLM (GPT-3.5, GPT-4) に適用した。
自然言語の類似度測定値を用いて,複数の文脈長入力にまたがるLLMの評価を行った。
さらに,臨床医5名を対象に臨床研究を行い,臨床医が書き起こしたBHCとLLM生成のBHCを30検体で比較した。
我々は,Llama2-13B微調整LDMがBLEUとBERTスコアの定量的評価値に対して,他の領域適応モデルよりも優れていることを観察した。
テキスト内学習によるGPT-4は,Llama2-13Bの微調整よりも,臨床メモ入力の文脈長の増大に対する堅牢性を示した。
Llama2-13Bの微調整された要約とオリジナルの要約の双方と比較して、GPT-4が生成した要約に対する重要な嗜好が示されており、質的な臨床評価の必要性が強調されている。
Brief hospital course (BHC) summaries are clinical documents that summarize a patient's hospital stay. While large language models (LLMs) depict remarkable capabilities in automating real-world tasks, their capabilities for healthcare applications such as synthesizing BHCs from clinical notes have not been shown. We introduce a novel pre-processed dataset, the MIMIC-IV-BHC, encapsulating clinical note and brief hospital course (BHC) pairs to adapt LLMs for BHC synthesis. Furthermore, we introduce a benchmark of the summarization performance of two general-purpose LLMs and three healthcare-adapted LLMs. Using clinical notes as input, we apply prompting-based (using in-context learning) and fine-tuning-based adaptation strategies to three open-source LLMs (Clinical-T5-Large, Llama2-13B, FLAN-UL2) and two proprietary LLMs (GPT-3.5, GPT-4). We evaluate these LLMs across multiple context-length inputs using natural language similarity metrics. We further conduct a clinical study with five clinicians, comparing clinician-written and LLM-generated BHCs across 30 samples, focusing on their potential to enhance clinical decision-making through improved summary quality. We observe that the Llama2-13B fine-tuned LLM outperforms other domain-adapted models given quantitative evaluation metrics of BLEU and BERT-Score. GPT-4 with in-context learning shows more robustness to increasing context lengths of clinical note inputs than fine-tuned Llama2-13B. Despite comparable quantitative metrics, the reader study depicts a significant preference for summaries generated by GPT-4 with in-context learning compared to both Llama2-13B fine-tuned summaries and the original summaries, highlighting the need for qualitative clinical evaluation. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-26 |
# コンテキスト認識コンパイルによる量子コンピュータの相関ノイズ抑制
Suppressing Correlated Noise in Quantum Computers via Context-Aware Compiling ( http://arxiv.org/abs/2403.06852v2 ) ライセンス: Link先を確認 | Alireza Seif, Haoran Liao, Vinay Tripathi, Kevin Krsulich, Moein Malekakhlagh, Mirko Amico, Petar Jurcevic, Ali Javadi-Abhari, | (参考訳) コヒーレントエラー、特に1組の量子ビット間の相関で発生するエラーは、大規模量子コンピューティングにとって有害である。
ノイズの相関は、量子プロセッサ上で実行される命令の空間的および時間的構成の結果生じる。
本稿では、これらの誤差源の多くを詳細に評価し、理論的に超伝導量子ビットとゲート演算の物理に接続する。
この知識を活かして,回路の他の部分への動的デカップリングやエラー補償を用いて,これらのエラーを抑えるコンパイラ戦略を考案した。
重要なことに、これらの戦略は、キュービットがどのように接続されているか、デバイス上にどのクロストーク用語が存在するか、その層でゲートやアイドル期間が発生するかなど、計算の各層のコンテキストを考慮すると成功する。
これにより、文脈対応コンパイラはエラーの原因を抑えることができ、エラーの軽減やエラー訂正が大幅にコストを削減できる。
例えば、我々の実験では、10ビットの候補回路層に対する18.5\%の層の忠実度が、文脈を意識しない抑制と比較して増加することを示した。
誤差緩和の指数関数的性質から, 誤差抑制によるこれらの改善は, 適度な数の層からなる回路において, サンプリングオーバヘッドの桁違いの低減に寄与する。
Coherent errors, and especially those that occur in correlation among a set of qubits, are detrimental for large-scale quantum computing. Correlations in noise can occur as a result of spatial and temporal configurations of instructions executing on the quantum processor. In this paper, we perform a detailed experimental characterization of many of these error sources, and theoretically connect them to the physics of superconducting qubits and gate operations. Equipped with this knowledge, we devise compiler strategies to suppress these errors using dynamical decoupling or error compensation into the rest of the circuit. Importantly, these strategies are successful when the context at each layer of computation is taken into account: how qubits are connected, what crosstalk terms exist on the device, and what gates or idle periods occur in that layer. Our context-aware compiler thus suppresses some dominant sources of error, making further error mitigation or error correction substantially less expensive. For example, our experiments show an increase of 18.5\% in layer fidelity for a candidate 10-qubit circuit layer compared to context-unaware suppression. Owing to the exponential nature of error mitigation, these improvements due to error suppression translate to several orders of magnitude reduction of sampling overhead for a circuit consisting of a moderate number of layers. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-26 |
# 適応的変化点検出と能動学習による弱音から強音まで
From Weak to Strong Sound Event Labels using Adaptive Change-Point Detection and Active Learning ( http://arxiv.org/abs/2403.08525v2 ) ライセンス: Link先を確認 | John Martinsson, Olof Mogren, Maria Sandsten, Tuomas Virtanen, | (参考訳) 音声録音セグメントの弱いラベルアノテーションを機械誘導する適応的変化点検出法(A-CPD)を提案する。
目標は、ターゲット音の時間的アクティベーションについて得られる情報を最大化することである。
ラベルのない音声記録毎に,アノテーションを導くために使用する確率曲線の導出に予測モデルを用いる。
予測モデルは、まず、利用可能な注釈付き音声イベントデータに基づいて、ラベルなしデータセットのクラスから切り離されたクラスで事前訓練される。
予測モデルは、アクティブな学習ループにおけるアノテーションによって提供されるアノテーションに徐々に適応する。
これらの確率に対する変化点検出を用いて、弱いラベルアノテータを強いラベルに導くためにクエリセグメントを導出する。
また,2つの基本クエリセグメント戦略と比較して,A-CPDに有利な結果が得られた。
We propose an adaptive change point detection method (A-CPD) for machine guided weak label annotation of audio recording segments. The goal is to maximize the amount of information gained about the temporal activations of the target sounds. For each unlabeled audio recording, we use a prediction model to derive a probability curve used to guide annotation. The prediction model is initially pre-trained on available annotated sound event data with classes that are disjoint from the classes in the unlabeled dataset. The prediction model then gradually adapts to the annotations provided by the annotator in an active learning loop. We derive query segments to guide the weak label annotator towards strong labels, using change point detection on these probabilities. We show that it is possible to derive strong labels of high quality with a limited annotation budget, and show favorable results for A-CPD when compared to two baseline query segment strategies. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-26 |
# 生成言語モデルにおける非識別基準
Non-discrimination Criteria for Generative Language Models ( http://arxiv.org/abs/2403.08564v2 ) ライセンス: Link先を確認 | Sara Sterlie, Nina Weng, Aasa Feragen, | (参考訳) 大規模言語モデルなどのジェネレーティブAIは,近年,急速な発展を遂げている。
これらのモデルが一般に普及するにつれて、アプリケーションにおける有害なバイアスの持続性と増幅に関する懸念が生じる。
性別のステレオタイプは、彼らが対象とする個人に対して有害で制限されうる。
本稿では、ジェンダーバイアスを広汎な社会的構成として認識し、生成言語モデルにおけるジェンダーバイアスの存在を明らかにする方法と定量化方法について考察する。
特に、独立性、分離性、充足性という3つのよく知られた非識別基準のジェネレーティブAIアナログを導出する。
これらの基準を実際に実施するために、我々は、職業性ステレオタイプに焦点を当てた各基準のためのプロンプトを設計し、特に、医療試験を利用して、生成的AIコンテキストに基礎的真理を導入する。
本研究は,このような対話型言語モデルにおける職業性バイアスの存在に対処するものである。
Generative AI, such as large language models, has undergone rapid development within recent years. As these models become increasingly available to the public, concerns arise about perpetuating and amplifying harmful biases in applications. Gender stereotypes can be harmful and limiting for the individuals they target, whether they consist of misrepresentation or discrimination. Recognizing gender bias as a pervasive societal construct, this paper studies how to uncover and quantify the presence of gender biases in generative language models. In particular, we derive generative AI analogues of three well-known non-discrimination criteria from classification, namely independence, separation and sufficiency. To demonstrate these criteria in action, we design prompts for each of the criteria with a focus on occupational gender stereotype, specifically utilizing the medical test to introduce the ground truth in the generative AI context. Our results address the presence of occupational gender bias within such conversational language models. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-26 |
# 任意の2量子状態の幾何学的量子不一致:正確な値と一般上界
Geometric quantum discord of an arbitrary two-qudit state: the exact value and general upper bounds ( http://arxiv.org/abs/2403.09342v4 ) ライセンス: Link先を確認 | Elena R. Loubenets, Louis Hanotel, | (参考訳) 2量子状態の幾何学的な量子不協和は、多くの論文で研究されているが、その明示的な形の正確な解析値は、一般的な2量子状態、一般的な2量子状態、いくつかの2量子状態の特別な族についてのみ知られている。
一般的なブロッホベクトル形式主義 (J. Phys. A: Math. Theor. 54 195301 (2021)) に基づいて、その相関行列のパラメータとその縮小状態のブロッホベクトルを通じて、任意の次元の一般2量子状態に対する幾何量子不協和の明確な正確な解析値を求める。
この新たな解析結果は、特定の場合のみ、幾何学的量子不協和に関する既知の正確な結果を全て含み、[Phys. Rev. A 85, 024102 (2012)] で示される幾何学的不協和の低い境界がその2量子状態の正確な値を構成することを厳密に証明している。
さらに、我々の新しい一般結果により、この状態のヒルベルト空間特性によって表現される幾何学的量子不協和上の新しい上と下の境界である純粋あるいは混合の任意の2量子状態を見つけることができる。
The geometric quantum discord of a two-qudit state has been studied in many papers, however, its exact analytical value in the explicit form is known only for a general two-qubit state, a general qubit-qudit state and some special families of two-qudit states. Based on the general Bloch vectors formalism [J. Phys. A: Math. Theor. 54 195301 (2021)], we find the explicit exact analytical value of the geometric quantum discord for a general two-qudit state of an arbitrary dimension via the parameters of its correlation matrix and the Bloch vectors of its reduced states. This new general analytical result includes all the known exact results on the geometric quantum discord only as particular cases and proves rigorously that the lower bound on the geometric discord presented in [Phys. Rev. A 85, 024102 (2012)] constitutes its exact value for each two-qudit state. Moreover, our new general result allows us to find for an arbitrary two-qudit state, pure or mixed, the novel upper and lower bounds on its geometric quantum discord, expressed via the Hilbert space characteristics of this state. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-26 |
# 反発束縛対の非相互ダイナミクスと非エルミート皮膚効果
Non-reciprocal dynamics and the non-Hermitian skin effect of repulsively bound pairs ( http://arxiv.org/abs/2403.10449v4 ) ライセンス: Link先を確認 | Pietro Brighi, Andreas Nunnenkamp, | (参考訳) 実環境に結合したBose-Hubbardモデルの力学について検討し,その非相互作用限界は,祝賀されたHatano-Nelsonモデルによって記述される。
強い相互作用において、同じ位置を占める2つのボソンは、反発結合対(repulsively bound pair)と呼ばれる二重結合を形成する。
テンソル-ネットワークシミュレーションを用いて、異なるダビロン光錐をはっきりと同定し、ダビロンが単一粒子の非相互性を引き継ぐことを示す。
貯水池工学のアイデアをダブルロンのレベルで適用し、新しい散逸器のセットを導入し、その場合、ダブルロン力学がハタノ・ネルソンモデルによって支配されていることを解析的に示す。
これにより、相互作用によって引き起こされる非エルミート皮膚効果と非相互二重運動がもたらされる。
これら2つのモデルの特徴を組み合わせることで, 単一粒子と二重粒子が反対方向に拡散できることが示され, 相互作用する非相互モデルにおける力学の研究に興味深い可能性が開けた。
We study the dynamics of a Bose-Hubbard model coupled to an engineered environment which in the non-interacting limit is described by the celebrated Hatano-Nelson model. At strong interactions, two bosons occupying the same site form a so-called repulsively bound pair, or doublon. Using tensor-network simulations, we clearly identify a distinct doublon lightcone and show that the doublon inherits non-reciprocity from that of single particles. Applying the idea of reservoir engineering at the level of doublons, we introduce a new set of dissipators and we analytically show that then the doublon dynamics are governed by the Hatano-Nelson model. This brings about an interaction-induced non-Hermitian skin effect and non-reciprocal doublon motion. Combining features of the two models we study, we show that single particles and doublons can be made to spread with opposite directionality, opening intriguing possibilities for the study of dynamics in interacting non-reciprocal models. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-26 |
# PALM:連続テスト時間適応のための適応学習率メカニズムの推進
PALM: Pushing Adaptive Learning Rate Mechanisms for Continual Test-Time Adaptation ( http://arxiv.org/abs/2403.10650v2 ) ライセンス: Link先を確認 | Sarthak Kumar Maharana, Baoming Zhang, Yunhui Guo, | (参考訳) 動的環境における実世界の視覚モデルは、領域分布の急激なシフトに直面し、認識性能が低下する。
ラベルなしテストデータを用いて、連続テスト時間適応(CTTA)は、これらの変化領域に事前訓練されたソース識別モデルを直接調整する。
高い有効性を有するCTTA法では、事前学習した層を選択的に適応させるために、層ワイド適応学習率を適用する。
しかし、ドメインシフトの低さや、擬似ラベルから生じる不正確さに悩まされている。
この研究は、擬似ラベルに頼ることなく、モデル予測の不確実性を定量化することで、これらの制限を克服することを目的としている。
ソフトマックス出力と均一分布のKL分散をバックプロパガンスすることで計算した勾配の等級を計量として利用し、さらなる適応のための層を選択する。
その後、これらの選択された層にのみ属するパラメータに対して、残りの層を凍結させて、ドメインシフトを近似し、それに応じて学習率を調整する感度を評価する。
我々は, CIFAR-10C, CIFAR-100C, ImageNet-Cで画像分類実験を行い, 従来の手法に比べて優れた有効性を示した。
Real-world vision models in dynamic environments face rapid shifts in domain distributions, leading to decreased recognition performance. Using unlabeled test data, continual test-time adaptation (CTTA) directly adjusts a pre-trained source discriminative model to these changing domains. A highly effective CTTA method involves applying layer-wise adaptive learning rates for selectively adapting pre-trained layers. However, it suffers from the poor estimation of domain shift and the inaccuracies arising from the pseudo-labels. This work aims to overcome these limitations by identifying layers for adaptation via quantifying model prediction uncertainty without relying on pseudo-labels. We utilize the magnitude of gradients as a metric, calculated by backpropagating the KL divergence between the softmax output and a uniform distribution, to select layers for further adaptation. Subsequently, for the parameters exclusively belonging to these selected layers, with the remaining ones frozen, we evaluate their sensitivity to approximate the domain shift and adjust their learning rates accordingly. We conduct extensive image classification experiments on CIFAR-10C, CIFAR-100C, and ImageNet-C, demonstrating the superior efficacy of our method compared to prior approaches. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-26 |
# StateFlow: ステート駆動ワークフローによるLLMタスクソルビングの強化
StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows ( http://arxiv.org/abs/2403.11322v4 ) ライセンス: Link先を確認 | Yiran Wu, Tianwei Yue, Shaokun Zhang, Chi Wang, Qingyun Wu, | (参考訳) 複雑なタスク、例えば一連のアクションや、ツールや外部環境との動的相互作用を必要とするタスクに対処するために、LLM(Large Language Models)を使用することは、注目すべきトレンドである。
本稿では,複雑なタスク解決プロセスをステートマシンとして概念化する,新しいLCMベースのタスク解決パラダイムであるStateFlowを提案する。
StateFlowでは、(状態と状態遷移を介して)「プロセス基盤」と(状態内のアクションを通じて)「サブタスク解決」を区別し、タスク解決手順の制御と解釈性を高めます。
状態は実行中のプロセスの状態を表す。
状態間の遷移は LLM によるヒューリスティックな規則や決定によって制御され、動的かつ適応的な進行を可能にする。
状態に入ると、異なるプロンプトでガイドされたLSMを呼び出すだけでなく、必要に応じて外部ツールの利用を含む一連のアクションが実行される。
その結果, StateFlow は LLM の効率を大幅に向上させることがわかった。
例えば、StateFlowはInterCode SQLとALFWorldベンチマークのReActと比較して13%と28%高い成功率を実現し、それぞれ5倍と3倍のコストがかかる。
また、StateFlowとReflexionのような反復的な精錬メソッドを組み合わせることで、パフォーマンスをさらに向上できることを示す。
It is a notable trend to use Large Language Models (LLMs) to tackle complex tasks, e.g., tasks that require a sequence of actions and dynamic interaction with tools and external environments. In this paper, we propose StateFlow, a novel LLM-based task-solving paradigm that conceptualizes complex task-solving processes as state machines. In StateFlow, we distinguish between "process grounding" (via state and state transitions) and "sub-task solving" (through actions within a state), enhancing control and interpretability of the task-solving procedure. A state represents the status of a running process. The transitions between states are controlled by heuristic rules or decisions made by the LLM, allowing for a dynamic and adaptive progression. Upon entering a state, a series of actions is executed, involving not only calling LLMs guided by different prompts, but also the utilization of external tools as needed. Our results show that StateFlow significantly enhances LLMs' efficiency. For instance, StateFlow achieves 13% and 28% higher success rates compared to ReAct in InterCode SQL and ALFWorld benchmark, with 5x and 3x less cost respectively. We also show that StateFlow can be combined with iterative refining methods like Reflexion to further improve performance. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-26 |
# Planner3D: LLM拡張グラフが3次元屋内シーンの明示的な正規化に先行する
Planner3D: LLM-enhanced graph prior meets 3D indoor scene explicit regularization ( http://arxiv.org/abs/2403.12848v2 ) ライセンス: Link先を確認 | Yao Wei, Martin Renqiang Min, George Vosselman, Li Erran Li, Michael Ying Yang, | (参考訳) 構成的な3Dシーン合成は、ロボット工学、映画、ビデオゲームなど様々な産業で応用されており、実世界のマルチオブジェクト環境の複雑さをよく反映している。
従来の作品では、形状の多様性の制限に苦しむ形状検索に基づくフレームワークが一般的である。
近年, 拡散モデルなどの生成モデルを用いて物体形状の生成が進展しており, 形状の忠実度が向上している。
しかし,これらの手法は3次元形状生成とレイアウト生成を別々に扱う。
合成されたシーンは、通常はレイアウトの衝突によって妨げられ、シーンレベルの忠実度はまだ未調査であることを示している。
本稿では,シーングラフからリアルで合理的な屋内シーンを生成することを目的とする。
与えられたシーングラフ入力の先行情報を豊かにするために、大規模言語モデルを用いて、グローバルな機能とローカルなノードワイドおよびエッジワイド機能とを集約する。
統一グラフエンコーダを用いて、グラフ特徴を抽出し、共同レイアウト・形状生成を誘導する。
生成された3Dレイアウトを明示的に制約するために、追加の正規化が導入される。
本手法は,SG-FRONTデータセットを用いて,特にシーンレベルの忠実度の観点から,より優れた3次元シーン合成を実現する。
ソースコードは公開後に公開される。
Compositional 3D scene synthesis has diverse applications across a spectrum of industries such as robotics, films, and video games, as it closely mirrors the complexity of real-world multi-object environments. Conventional works typically employ shape retrieval based frameworks which naturally suffer from limited shape diversity. Recent progresses have been made in object shape generation with generative models such as diffusion models, which increases the shape fidelity. However, these approaches separately treat 3D shape generation and layout generation. The synthesized scenes are usually hampered by layout collision, which suggests that the scene-level fidelity is still under-explored. In this paper, we aim at generating realistic and reasonable 3D indoor scenes from scene graph. To enrich the priors of the given scene graph inputs, large language model is utilized to aggregate the global-wise features with local node-wise and edge-wise features. With a unified graph encoder, graph features are extracted to guide joint layout-shape generation. Additional regularization is introduced to explicitly constrain the produced 3D layouts. Benchmarked on the SG-FRONT dataset, our method achieves better 3D scene synthesis, especially in terms of scene-level fidelity. The source code will be released after publication. | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-26 |
# スキャンの背後にある解剖学をAIに教える:医学的画像分割における解剖学的欠陥に先行して
Teaching AI the Anatomy Behind the Scan: Addressing Anatomical Flaws in Medical Image Segmentation with Learnable Prior ( http://arxiv.org/abs/2403.18878v2 ) ライセンス: Link先を確認 | Young Seok Jeon, Hongfei Yang, Huazhu Fu, Mengling Feng, | (参考訳) 臓器の数、形状、相対的な位置などの重要な解剖学的特徴を付与することは、堅牢な多臓器セグメンテーションモデルを構築するのに不可欠である。
現在、解剖学的特徴を取り入れようとする試みには、データ集約モジュールによる効果的な受容野(ERF)サイズの拡大や、多臓器セグメンテーションに乏しい解剖学的制約の導入などがある。
本稿では,AIC-Net(Anatomy-Informed Cascaded Segmentation Network)と呼ばれる新しいアーキテクチャを紹介する。
AIC-Netは「解剖学的先行」と呼ばれる学習可能な入力を組み込んでおり、これは患者固有の解剖学に適用することができる。
変形した前者は、デコーダ層をより解剖学的に変形した予測へと導く。
我々は、このプロセスを局所パッチレベルで繰り返し、複雑なオブジェクトの表現を強化し、カスケードされたネットワーク構造をもたらす。
AIC-Netは、既存のセグメンテーションモデルをより解剖学的に認識するように拡張する一般的な方法である。
腹腔内臓器と脊椎の2つの多臓器分割作業において,各種背骨を用いたAIC-Netの有効性を検証した。
それぞれのタスクに対して,我々のベンチマークでは,サイススコアとハウスドルフ距離が改善された。
Imposing key anatomical features, such as the number of organs, their shapes and relative positions, is crucial for building a robust multi-organ segmentation model. Current attempts to incorporate anatomical features include broadening the effective receptive field (ERF) size with data-intensive modules, or introducing anatomical constraints that scales poorly to multi-organ segmentation. We introduce a novel architecture called the Anatomy-Informed Cascaded Segmentation Network (AIC-Net). AIC-Net incorporates a learnable input termed "Anatomical Prior", which can be adapted to patient-specific anatomy using a differentiable spatial deformation. The deformed prior later guides decoder layers towards more anatomy-informed predictions. We repeat this process at a local patch level to enhance the representation of intricate objects, resulting in a cascaded network structure. AIC-Net is a general method that enhances any existing segmentation models to be more anatomy-aware. We have validated the performance of AIC-Net, with various backbones, on two multi-organ segmentation tasks: abdominal organs and vertebrae. For each respective task, our benchmarks demonstrate improved dice score and Hausdorff distance. | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-26 |
# 複合環境における効率的なマルチロボット経路計画のための安全区間とRT*の組み合わせ
Combining Safe Intervals and RRT* for Efficient Multi-Robot Path Planning in Complex Environments ( http://arxiv.org/abs/2404.01752v2 ) ライセンス: Link先を確認 | Joonyeol Sim, Joonkyung Kim, Changjoo Nam, | (参考訳) 本稿では、競合のない経路を見つけるために、連続空間におけるマルチロボットパス計画(MRPP)の問題を検討する。
問題の難しさは2つの主要な要因から生じる。
第一に、複数のロボットの関与は、指数関数的に探索空間をエスカレートする組合せ決定につながる。
第二に、連続空間は潜在的に無限の状態と作用を示す。
そこで本研究では,低レベルをサンプリングベースとしたセーフインターバルRT* (SI-RRT*) とし,個々のロボットに対して衝突のない軌道を求める2段階のアプローチを提案する。
高レベルは、優先順位付け計画(SI-CPP)と競合ベース探索(SI-CCBS)という2つの代表的手法を用いて、ロボット間の衝突を解消できるあらゆる方法を使用することができる。
実験結果から,SI-RRT* は少数のサンプルで高速に高品質な解を見つけることができることがわかった。
SI-CPPは拡張性の向上を示し、SI-CCBSは連続空間の最先端プランナーに比べて高品質なソリューションを生産している。
最もスケーラブルな既存のアルゴリズムと比較して、SI-CPPは、ソリューションの品質(フロータイム、全ロボットの走行時間の合計)を維持しながら、大きな妥協なしに最大94%の成功率を達成する。
SI-CPPはまた、メイクパンを45%まで減少させる。
SI-CCBSは競争相手と比較して流速を9%減少させるが、成功率は14%低い。
In this paper, we consider the problem of Multi-Robot Path Planning (MRPP) in continuous space to find conflict-free paths. The difficulty of the problem arises from two primary factors. First, the involvement of multiple robots leads to combinatorial decision-making, which escalates the search space exponentially. Second, the continuous space presents potentially infinite states and actions. For this problem, we propose a two-level approach where the low level is a sampling-based planner Safe Interval RRT* (SI-RRT*) that finds a collision-free trajectory for individual robots. The high level can use any method that can resolve inter-robot conflicts where we employ two representative methods that are Prioritized Planning (SI-CPP) and Conflict Based Search (SI-CCBS). Experimental results show that SI-RRT* can find a high-quality solution quickly with a small number of samples. SI-CPP exhibits improved scalability while SI-CCBS produces higher-quality solutions compared to the state-of-the-art planners for continuous space. Compared to the most scalable existing algorithm, SI-CPP achieves a success rate that is up to 94% higher with 100 robots while maintaining solution quality (i.e., flowtime, the sum of travel times of all robots) without significant compromise. SI-CPP also decreases the makespan up to 45%. SI-CCBS decreases the flowtime by 9% compared to the competitor, albeit exhibiting a 14% lower success rate. | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-26 |
# 部品認識機能を利用した視覚自己監督型エンコーダの統一メンバーシップ推論法
A Unified Membership Inference Method for Visual Self-supervised Encoder via Part-aware Capability ( http://arxiv.org/abs/2404.02462v2 ) ライセンス: Link先を確認 | Jie Zhu, Jirong Zha, Ding Li, Leye Wang, | (参考訳) 自己教師付き学習は、広範囲のラベルのないデータを活用することを約束する一方で、特にビジョンにおいて、重要なプライバシー上の懸念にも直面している。
本稿では,視覚的自己指導型モデルに対して,より現実的な方法でメンバシップ推論を行うことを目的としている: 自己指導型トレーニング手法と詳細は,通常,ブラックボックスシステムに直面する場合,敵に対して不明である。
この設定では、自己教師付きモデルは、マスク付き画像モデリングやコントラスト学習など、全く異なる自己教師付きパラダイムで訓練できるので、複雑なトレーニングの詳細とともに、PartCropと呼ばれる統一メンバーシップ推論手法を提案する。
モデル間の共通部分認識能力と、トレーニングデータに対するより強力な部分応答によって動機付けられている。
具体的には、PartCropは画像内のオブジェクトの一部をトリミングして、表現空間内の画像との応答をクエリする。
我々は,3つの広く使用されている画像データセットを用いて,異なるトレーニングプロトコルと構造を持つ自己教師型モデルに対する広範囲な攻撃を行う。
その結果,PartCropの有効性と一般化が検証された。
さらに、PartCropに対抗するために、早期停止と差分プライバシーという2つの一般的なアプローチを評価し、作物の規模を縮小する手法を提案する。
防御実験は、それらすべてが効果的であることを示している。
私たちのコードはhttps://github.com/JiePKU/PartCrop.comから入手可能です。
Self-supervised learning shows promise in harnessing extensive unlabeled data, but it also confronts significant privacy concerns, especially in vision. In this paper, we aim to perform membership inference on visual self-supervised models in a more realistic setting: self-supervised training method and details are unknown for an adversary when attacking as he usually faces a black-box system in practice. In this setting, considering that self-supervised model could be trained by completely different self-supervised paradigms, e.g., masked image modeling and contrastive learning, with complex training details, we propose a unified membership inference method called PartCrop. It is motivated by the shared part-aware capability among models and stronger part response on the training data. Specifically, PartCrop crops parts of objects in an image to query responses with the image in representation space. We conduct extensive attacks on self-supervised models with different training protocols and structures using three widely used image datasets. The results verify the effectiveness and generalization of PartCrop. Moreover, to defend against PartCrop, we evaluate two common approaches, i.e., early stop and differential privacy, and propose a tailored method called shrinking crop scale range. The defense experiments indicate that all of them are effective. Our code is available at https://github.com/JiePKU/PartCrop. | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-26 |
# FTRLによる最適オンライン非確率制御
Optimistic Online Non-stochastic Control via FTRL ( http://arxiv.org/abs/2404.03309v2 ) ライセンス: Link先を確認 | Naram Mhaisen, George Iosifidis, | (参考訳) 本稿では、オンライン非確率制御(NSC)の新しいフレームワークに「最適化」の概念を取り入れる。
すなわち,NSCが将来的なコスト予測に寄与する未知品質の予測オラクルからどのような恩恵を受けるかを検討する。
提案した問題はまず遅延フィードバック問題による楽観的な学習に還元され、OFTRLアルゴリズムファミリによって処理される。
この削減により、楽観的な政策後悔境界を持つ最初の外乱行動制御器 (DAC) である \texttt{OptFTRL-C} の設計が可能になる。
これらの新しい境界は、完全予測の$\mathcal{O}(1)$から、全ての予測が失敗しても順序最適化の$\mathcal{O}(\sqrt{T})$まで、オラクルの精度と相容れない。
信頼できない予測をオンラインコントロールに組み込むことの課題に対処することにより、NSCフレームワークの進歩に寄与し、効果的で堅牢な学習ベースのコントローラへの道を開く。
This paper brings the concept of ``optimism" to the new and promising framework of online Non-stochastic Control (NSC). Namely, we study how NSC can benefit from a prediction oracle of unknown quality responsible for forecasting future costs. The posed problem is first reduced to an optimistic learning with delayed feedback problem, which is handled through the Optimistic Follow the Regularized Leader (OFTRL) algorithmic family. This reduction enables the design of \texttt{OptFTRL-C}, the first Disturbance Action Controller (DAC) with optimistic policy regret bounds. These new bounds are commensurate with the oracle's accuracy, ranging from $\mathcal{O}(1)$ for perfect predictions to the order-optimal $\mathcal{O}(\sqrt{T})$ even when all predictions fail. By addressing the challenge of incorporating untrusted predictions into online control, this work contributes to the advancement of the NSC framework and paves the way toward effective and robust learning-based controllers. | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-26 |
# DQ-DETR: ティニーオブジェクト検出のための動的クエリ付きDTR
DQ-DETR: DETR with Dynamic Query for Tiny Object Detection ( http://arxiv.org/abs/2404.03507v3 ) ライセンス: Link先を確認 | Yi-Xin Huang, Hou-I Liu, Hong-Han Shuai, Wen-Huang Cheng, | (参考訳) 従来のDETRのような手法がジェネリックオブジェクト検出に成功しているにも関わらず、オブジェクトクエリの位置情報は、通常オブジェクトよりもスケールが極端に小さい小さなオブジェクトを検出するためにカスタマイズされていないため、小さなオブジェクト検出は依然として難しい課題である。
また、一定の数のクエリを使用したDETRライクなメソッドは、小さなオブジェクトのみを含む空中データセットには適せず、インスタンスの数は異なるイメージ間で不均衡である。
そこで本稿では,DQ-DETRという,分類的カウントモジュール,カウント誘導機能拡張,動的クエリ選択という,3つのコンポーネントから構成されるシンプルなモデルを提案する。
DQ-DETRは、カテゴリカウントモジュールからの予測と密度マップを使用して、オブジェクトクエリの数を動的に調整し、クエリの位置情報を改善する。
我々のモデルDQ-DETRは従来のCNNやDETRのような手法より優れており、AI-TOD-V2データセット上で最先端のmAPを30.2%達成している。
Despite previous DETR-like methods having performed successfully in generic object detection, tiny object detection is still a challenging task for them since the positional information of object queries is not customized for detecting tiny objects, whose scale is extraordinarily smaller than general objects. Also, DETR-like methods using a fixed number of queries make them unsuitable for aerial datasets, which only contain tiny objects, and the numbers of instances are imbalanced between different images. Thus, we present a simple yet effective model, named DQ-DETR, which consists of three different components: categorical counting module, counting-guided feature enhancement, and dynamic query selection to solve the above-mentioned problems. DQ-DETR uses the prediction and density maps from the categorical counting module to dynamically adjust the number of object queries and improve the positional information of queries. Our model DQ-DETR outperforms previous CNN-based and DETR-like methods, achieving state-of-the-art mAP 30.2% on the AI-TOD-V2 dataset, which mostly consists of tiny objects. | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-26 |
# GloSoFarID:衛星画像におけるソーラーファーム識別のための地球規模のマルチスペクトルデータセット
GloSoFarID: Global multispectral dataset for Solar Farm IDentification in satellite imagery ( http://arxiv.org/abs/2404.05180v2 ) ライセンス: Link先を確認 | Zhiyuan Yang, Ryan Rad, | (参考訳) 太陽光発電(PV)技術は、クリーンエネルギーと再生可能エネルギーの国際的追求における重要な解決策として、ますます認識されている。
この技術は、太陽光発電を温室効果ガスの排出なしに電気に変換することで、持続可能なエネルギー代替手段の必要性に対処する。
地球規模の二酸化炭素排出量を削減できるだけでなく、有限で再生不可能なエネルギー源への依存を減らす。
この文脈では、クリーンエネルギーへの世界的なシフトを理解し、促進するために、ソーラーパネルファームのモニタリングが不可欠である。
本研究は、ソーラーパネルファームのマルチスペクトル衛星画像の包括的グローバルデータセットを開発することで、この取り組みに寄与する。
このデータセットは、世界中のソーラーパネルファームの展開と分布を正確にマッピングし分析できる堅牢な機械学習モデルをトレーニングするための基盤となることを意図している。
この取り組みから得られた洞察は、持続可能なエネルギーの未来のための情報的意思決定の指針となるだろう。
https://github.com/yzyly 1992/GloSoFarID
Solar Photovoltaic (PV) technology is increasingly recognized as a pivotal solution in the global pursuit of clean and renewable energy. This technology addresses the urgent need for sustainable energy alternatives by converting solar power into electricity without greenhouse gas emissions. It not only curtails global carbon emissions but also reduces reliance on finite, non-renewable energy sources. In this context, monitoring solar panel farms becomes essential for understanding and facilitating the worldwide shift toward clean energy. This study contributes to this effort by developing the first comprehensive global dataset of multispectral satellite imagery of solar panel farms. This dataset is intended to form the basis for training robust machine learning models, which can accurately map and analyze the expansion and distribution of solar panel farms globally. The insights gained from this endeavor will be instrumental in guiding informed decision-making for a sustainable energy future. https://github.com/yzyly1992/GloSoFarID | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-26 |
# 微視的収差下における細胞分離モデルの実際的ガイドライン
Practical Guidelines for Cell Segmentation Models Under Optical Aberrations in Microscopy ( http://arxiv.org/abs/2404.08549v2 ) ライセンス: Link先を確認 | Boyuan Peng, Jiaju Chen, P. Bilha Githinji, Ijaz Gul, Qihui Ye, Minjiang Chen, Peiwu Qin, Xingru Huang, Chenggang Yan, Dongmei Yu, Jiansong Ji, Zhenglin Chen, | (参考訳) 細胞セグメンテーションは、細胞の形態や行動を分析するために、生物医学的な研究に欠かせない。
深層学習法、特に畳み込みニューラルネットワーク(CNN)は、画像から複雑な特徴を抽出することによって細胞セグメンテーションに革命をもたらした。
しかし、顕微鏡光収差下でのこれらの手法の堅牢性は依然として重要な課題である。
本研究は,光収差下でのセル画像のセグメンテーションモデルについて,蛍光顕微鏡と光電場顕微鏡を用いて評価する。
アシグマティズム,コマ,球状収差,トレホイル,混合収差などの異なる種類の収差をシミュレートすることにより,ダイナミックヌクレアネット(DNN)とLIVCellデータセットを用いて,蛍光および明るい電場顕微鏡セルデータセットを表現する様々なセルインスタンスセグメンテーションモデルを徹底的に評価する。
ネットワークヘッドの異なるMask R-CNN(FPN, C3)やバックボーン(ResNet, VGG, Swin Transformer)などのセグメンテーションモデルを,収差条件下でトレーニングし,テストする。
さらに,複雑な細胞劣化画像上でのCellpose 2.0 Toolboxの使用勧告も提供する。
その結果、FPNとSwinSの組み合わせは、小さな収差による単純な細胞像の処理において、優れた堅牢性を示すことが示唆された。
対照的に、Cellpose 2.0は同様の条件下で複雑な細胞画像に有効であることが証明されている。
さらに,PLCM(Point Spread Function Image Label Classification Model)を提案する。
このモデルは、PSF画像から収差のタイプや振幅を迅速かつ正確に識別し、光学的トレーニングなしで研究者を支援する。
PLCMにより、提案した細胞分節ガイドラインをよりよく適用できる。
Cell segmentation is essential in biomedical research for analyzing cellular morphology and behavior. Deep learning methods, particularly convolutional neural networks (CNNs), have revolutionized cell segmentation by extracting intricate features from images. However, the robustness of these methods under microscope optical aberrations remains a critical challenge. This study evaluates cell image segmentation models under optical aberrations from fluorescence and bright field microscopy. By simulating different types of aberrations, including astigmatism, coma, spherical aberration, trefoil, and mixed aberrations, we conduct a thorough evaluation of various cell instance segmentation models using the DynamicNuclearNet (DNN) and LIVECell datasets, representing fluorescence and bright field microscopy cell datasets, respectively. We train and test several segmentation models, including the Otsu threshold method and Mask R-CNN with different network heads (FPN, C3) and backbones (ResNet, VGG, Swin Transformer), under aberrated conditions. Additionally, we provide usage recommendations for the Cellpose 2.0 Toolbox on complex cell degradation images. The results indicate that the combination of FPN and SwinS demonstrates superior robustness in handling simple cell images affected by minor aberrations. In contrast, Cellpose 2.0 proves effective for complex cell images under similar conditions. Furthermore, we innovatively propose the Point Spread Function Image Label Classification Model (PLCM). This model can quickly and accurately identify aberration types and amplitudes from PSF images, assisting researchers without optical training. Through PLCM, researchers can better apply our proposed cell segmentation guidelines. | 翻訳日:2024-08-27 23:46:51 公開日:2024-08-26 |
# VFMM3D:モノクロ3次元物体検出のためのビジョンファウンデーションモデルによる画像の可能性の緩和
VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection ( http://arxiv.org/abs/2404.09431v2 ) ライセンス: Link先を確認 | Bonan Ding, Jin Xie, Jing Nie, Jiale Cao, Xuelong Li, Yanwei Pang, | (参考訳) コスト効率と広く利用できるため、単眼の3Dオブジェクト検出は、推論中に単一のカメラにのみ依存するが、自律運転やロボット工学など、様々な応用において重要な役割を担っている。
それでも、モノクラー画像から3次元空間内の物体の座標を直接予測することは課題となる。
そのため、モノクロ画像をLiDARライクな表現に変換し、LiDARベースの3Dオブジェクト検出器を用いてオブジェクトの3D座標を予測する。
この方法の鍵となるステップは、モノクロ画像を信頼性の高い点雲形式に正確に変換することである。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
VFMM3Dは、SAM(Segment Anything Model)とDAM(Depth Anything Model)を使用して、豊富なフォアグラウンド情報に富んだ高品質の擬似LiDARデータを生成する。
具体的には、深度深度マップを生成するためにDAM(Depth Anything Model)を用いる。
次に、Segment Anything Model(SAM)を使用して、インスタンスマスクを予測することにより、前景と背景領域を区別する。
これらの予測されたインスタンスマスクと深度マップを組み合わせて3次元空間に投影し、擬似LiDAR点を生成する。
最後に、点雲に基づく任意の物体検出器を用いて、物体の3次元座標を予測することができる。
総合的な実験は、2つの挑戦的な3Dオブジェクト検出データセット、KITTIとWaymoで行われている。
我々のVFMM3Dは、両方のデータセット上で新しい最先端のパフォーマンスを確立します。
さらに、実験結果はVFMM3Dの一般性を示し、様々なLiDARベースの3Dオブジェクト検出器へのシームレスな統合を示している。
Due to its cost-effectiveness and widespread availability, monocular 3D object detection, which relies solely on a single camera during inference, holds significant importance across various applications, including autonomous driving and robotics. Nevertheless, directly predicting the coordinates of objects in 3D space from monocular images poses challenges. Therefore, an effective solution involves transforming monocular images into LiDAR-like representations and employing a LiDAR-based 3D object detector to predict the 3D coordinates of objects. The key step in this method is accurately converting the monocular image into a reliable point cloud form. In this paper, we present VFMM3D, an innovative framework that leverages the capabilities of Vision Foundation Models (VFMs) to accurately transform single-view images into LiDAR point cloud representations. VFMM3D utilizes the Segment Anything Model (SAM) and Depth Anything Model (DAM) to generate high-quality pseudo-LiDAR data enriched with rich foreground information. Specifically, the Depth Anything Model (DAM) is employed to generate dense depth maps. Subsequently, the Segment Anything Model (SAM) is utilized to differentiate foreground and background regions by predicting instance masks. These predicted instance masks and depth maps are then combined and projected into 3D space to generate pseudo-LiDAR points. Finally, any object detectors based on point clouds can be utilized to predict the 3D coordinates of objects. Comprehensive experiments are conducted on two challenging 3D object detection datasets, KITTI and Waymo. Our VFMM3D establishes a new state-of-the-art performance on both datasets. Additionally, experimental results demonstrate the generality of VFMM3D, showcasing its seamless integration into various LiDAR-based 3D object detectors. | 翻訳日:2024-08-27 23:46:51 公開日:2024-08-26 |
# 生成モデルを用いた圧縮強化学習
Compressed Federated Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2404.10635v4 ) ライセンス: Link先を確認 | Ali Beikmohammadi, Sarit Khirirat, Sindri Magnússon, | (参考訳) 強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。
この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。
しかし、この集約ステップは、かなりの通信コストを発生させる。
本稿では,通信効率のよいFedRL手法であるCompFedRLを提案する。
具体的には、中央サーバがローカルエージェントから圧縮された$Q$-estimatesを定期的に集約することにより、最適な$Q$-functionを学習する生成モデルセットアップを用いて、圧縮された$Q$-learningを検討する。
提案アルゴリズムの有限時間解析により, 直接圧縮と誤りフィードバック圧縮のどちらを用いても強い収束挙動を示すことにより, この2つのメカニズムの影響を初めて特徴づけた。
我々の限界は、通信コストを同時に低減しつつ、エージェント数やその他の連合ハイパーパラメータに関する解の精度の向上を示している。
我々の理論を裏付けるために、我々は、Top-K$およびSparsified-K$スペーシフィケーション作用素を考慮し、詳細な数値実験も行います。
Reinforcement learning has recently gained unprecedented popularity, yet it still grapples with sample inefficiency. Addressing this challenge, federated reinforcement learning (FedRL) has emerged, wherein agents collaboratively learn a single policy by aggregating local estimations. However, this aggregation step incurs significant communication costs. In this paper, we propose CompFedRL, a communication-efficient FedRL approach incorporating both \textit{periodic aggregation} and (direct/error-feedback) compression mechanisms. Specifically, we consider compressed federated $Q$-learning with a generative model setup, where a central server learns an optimal $Q$-function by periodically aggregating compressed $Q$-estimates from local agents. For the first time, we characterize the impact of these two mechanisms (which have remained elusive) by providing a finite-time analysis of our algorithm, demonstrating strong convergence behaviors when utilizing either direct or error-feedback compression. Our bounds indicate improved solution accuracy concerning the number of agents and other federated hyperparameters while simultaneously reducing communication costs. To corroborate our theory, we also conduct in-depth numerical experiments to verify our findings, considering Top-$K$ and Sparsified-$K$ sparsification operators. | 翻訳日:2024-08-27 23:46:51 公開日:2024-08-26 |
# 因果室:AI方法論のテストベッドとしてのリアル物理システム
The Causal Chambers: Real Physical Systems as a Testbed for AI Methodology ( http://arxiv.org/abs/2404.11341v2 ) ライセンス: Link先を確認 | Juan L. Gamella, Jonas Peters, Peter Bühlmann, | (参考訳) AI、機械学習、統計学のいくつかの分野において、新しい方法やアルゴリズムの検証は、適切な実世界のデータセットの不足によって妨げられることが多い。
研究者はしばしばシミュレーションデータに目を向ける必要があり、提案手法の実際の問題への適用性に関する限られた情報が得られる。
一歩前進して、非自明だがよく理解された物理的システムから、大規模データセットを迅速かつ安価に生成できる2つのデバイスを構築しました。
因果室と呼ばれる装置は、コンピュータ制御された研究室で、これらの物理システムから変数の配列を操作および測定することができ、様々な分野のアルゴリズムのリッチなテストベッドを提供する。
本稿では、因果発見、分布外一般化、変化点検出、独立成分分析、記号回帰などの分野における一連のケーススタディを通して、潜在的な応用を解説する。
因果推論に応用するためには、チャンバーは慎重に介入を行うことができる。
また,各チャンバーの因果モデルを提供し,実証的に検証する。
すべてのハードウェアとソフトウェアはオープンソースであり、データセットは causalchamber.org または Python パッケージ causalchamber で公開されている。
In some fields of AI, machine learning and statistics, the validation of new methods and algorithms is often hindered by the scarcity of suitable real-world datasets. Researchers must often turn to simulated data, which yields limited information about the applicability of the proposed methods to real problems. As a step forward, we have constructed two devices that allow us to quickly and inexpensively produce large datasets from non-trivial but well-understood physical systems. The devices, which we call causal chambers, are computer-controlled laboratories that allow us to manipulate and measure an array of variables from these physical systems, providing a rich testbed for algorithms from a variety of fields. We illustrate potential applications through a series of case studies in fields such as causal discovery, out-of-distribution generalization, change point detection, independent component analysis, and symbolic regression. For applications to causal inference, the chambers allow us to carefully perform interventions. We also provide and empirically validate a causal model of each chamber, which can be used as ground truth for different tasks. All hardware and software is made open source, and the datasets are publicly available at causalchamber.org or through the Python package causalchamber. | 翻訳日:2024-08-27 23:46:51 公開日:2024-08-26 |
# VASARI-auto : グリオーマMRIの公平、効率的、経済的成果
VASARI-auto: equitable, efficient, and economical featurisation of glioma MRI ( http://arxiv.org/abs/2404.15318v2 ) ライセンス: Link先を確認 | James K Ruffle, Samia Mohinta, Kelly Pegoretti Baruteau, Rebekah Rajiah, Faith Lee, Sebastian Brandner, Parashkev Nachev, Harpreet Hyare, | (参考訳) VASARI MRI機能セットはグリオーマ画像記述の標準化のために設計された定量的システムである。
効果はあるものの、VASARIの誘導には時間がかかり、臨床ではほとんど使われない。
これは機械学習が確実に自動化できる問題だ。
1172例のグリオーマデータを用いてVASARI-autoを開発した。
同時に、2人のコンサルタント神経放射線学者が100例のグリオ芽腫のサブサンプルでVASARIの特徴を独立に定量化した。
私たちは次のように定量化した。
1) 神経放射線科医とVASARI-auto間の合意
2 パフォーマンスエクイティの校正
3 経済労働分析、及び
4) 患者生存予測における忠実度について検討した。
Tumourのセグメンテーションは現在の最先端と互換性があり、年齢や性別に関わらず同等に機能していた。
内科の神経放射線科医とVASARI-autoの間では,緩やかな変動がみられたが,VASARI-auto法とVASARI-auto法は一致しなかった。
神経放射線学者がVASARIを誘導する時間はVASARI-auto(平均317対3秒)よりも有意に高かった。
英国病院の労働力分析では、VASARI-autoの3年間は29,777人の神経放射線学者の労働時間(1,574,935人)を必要とし、VASARI-autoで332時間の計算時間(および146人)を再現できると予測されている。
ベストパフォーマンスサバイバルモデルでは、神経放射線学者によって派生されたものと対照的に、VASARI-autoの特徴を利用した。
VASARI-autoは、患者年齢や性別で同等の性能を持つ高度に効率的な自動ラベリングシステムであり、意思決定支援ツールとして使用すれば好適な経済プロファイルであり、下流患者の生存率予測において不確実である。
今後の作業は、患者のケアを強化するために、そうしたツールを反復して統合するべきである。
The VASARI MRI feature set is a quantitative system designed to standardise glioma imaging descriptions. Though effective, deriving VASARI is time-consuming and seldom used in clinical practice. This is a problem that machine learning could plausibly automate. Using glioma data from 1172 patients, we developed VASARI-auto, an automated labelling software applied to both open-source lesion masks and our openly available tumour segmentation model. In parallel, two consultant neuroradiologists independently quantified VASARI features in a subsample of 100 glioblastoma cases. We quantified: 1) agreement across neuroradiologists and VASARI-auto; 2) calibration of performance equity; 3) an economic workforce analysis; and 4) fidelity in predicting patient survival. Tumour segmentation was compatible with the current state of the art and equally performant regardless of age or sex. A modest inter-rater variability between in-house neuroradiologists was comparable to between neuroradiologists and VASARI-auto, with far higher agreement between VASARI-auto methods. The time taken for neuroradiologists to derive VASARI was substantially higher than VASARI-auto (mean time per case 317 vs. 3 seconds). A UK hospital workforce analysis forecast that three years of VASARI featurisation would demand 29,777 consultant neuroradiologist workforce hours ({\pounds}1,574,935), reducible to 332 hours of computing time (and {\pounds}146 of power) with VASARI-auto. The best-performing survival model utilised VASARI-auto features as opposed to those derived by neuroradiologists. VASARI-auto is a highly efficient automated labelling system with equitable performance across patient age or sex, a favourable economic profile if used as a decision support tool, and with non-inferior fidelity in downstream patient survival prediction. Future work should iterate upon and integrate such tools to enhance patient care. | 翻訳日:2024-08-27 23:46:51 公開日:2024-08-26 |
# ReZero: 後方ビューとエンチアバッファリアナライズによるMCTSベースのアルゴリズムの強化
ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze ( http://arxiv.org/abs/2404.16364v4 ) ライセンス: Link先を確認 | Chunyu Xuan, Yazhe Niu, Yuan Pu, Shuai Hu, Yu Liu, Jing Yang, | (参考訳) モンテカルロ木探索(MCTS)に基づくアルゴリズム、例えばMuZeroとその派生は、様々な意思決定領域で広く成功している。
これらのアルゴリズムは、ウォールクロック時間の大幅な消費を犠牲にしながらも、古いデータからサンプルの効率を高めるために再分析プロセスを採用している。
この問題に対処するため,MCTSアルゴリズムのツリー探索操作を高速化するReZeroという手法を提案する。
具体的には、一方の腕のバンディットモデルからインスピレーションを得た後向きの再利用手法を用いてトレーニングサンプルを再解析し、予め特定の子ノードの値推定を行う。
この設計にさらに適応するため、ミニバッチを頻繁に再解析するのではなく、バッファ全体を定期的に再解析する。
これら2つの設計の相乗効果は、検索コストを大幅に削減し、一方でデータ収集と再解析の両方を簡素化し、性能を保証または改善する。
アタリ環境での実験とボードゲームにより、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。
コードは、https://github.com/opendilab/LightZeroのLightZeroベンチマークの一部として利用できる。
Monte Carlo Tree Search (MCTS)-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency from stale data, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost tree search operations for MCTS-based algorithms. Specifically, drawing inspiration from the one-armed bandit model, we reanalyze training samples through a backward-view reuse technique which obtains the value estimation of a certain child node in advance. To further adapt to this design, we periodically reanalyze the entire buffer instead of frequently reanalyzing the mini-batch. The synergy of these two designs can significantly reduce the search cost and meanwhile guarantee or even improve performance, simplifying both data collecting and reanalyzing. Experiments conducted on Atari environments and board games demonstrate that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero benchmark at https://github.com/opendilab/LightZero. | 翻訳日:2024-08-27 23:46:51 公開日:2024-08-26 |
# リベンジ・オブ・ザ・フォールエン : 人間の言語理解度を予測したリカレントモデル
Revenge of the Fallen? Recurrent Models Match Transformers at Predicting Human Language Comprehension Metrics ( http://arxiv.org/abs/2404.19178v2 ) ライセンス: Link先を確認 | James A. Michaelov, Catherine Arnett, Benjamin K. Bergen, | (参考訳) トランスフォーマーは一般的に、自然言語処理タスクと、オンラインヒューマン言語理解における予測可能性の影響をモデル化するために、リカレントニューラルネットワークを主要なアーキテクチャとして置き換えてきた。
しかし、最近開発されたRWKVとMambaという2つのリカレントモデルアーキテクチャは、等価スケールの変換器と同等かそれ以上の自然言語タスクを実行しているように見える。
本稿では,現代リカレントモデルでも,オンライン言語理解のモデル化において,比較可能な大きさのトランスフォーマーの性能に一致し,場合によっては超えることができることを示す。
このことは、トランスフォーマー言語モデルは、このタスクに一意に適していないことを示唆し、言語モデルのアーキテクチャ的特徴が人間の言語理解のモデルをより良く、より悪いものにするのかについての議論のための新しい方向性を開くことを示唆している。
Transformers have generally supplanted recurrent neural networks as the dominant architecture for both natural language processing tasks and for modelling the effect of predictability on online human language comprehension. However, two recently developed recurrent model architectures, RWKV and Mamba, appear to perform natural language tasks comparably to or better than transformers of equivalent scale. In this paper, we show that contemporary recurrent models are now also able to match - and in some cases, exceed - the performance of comparably sized transformers at modeling online human language comprehension. This suggests that transformer language models are not uniquely suited to this task, and opens up new directions for debates about the extent to which architectural features of language models make them better or worse models of human language comprehension. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-26 |
# ノイズフリー量子オブザーバブルの回収」へのコメント
Comment on "Recovering noise-free quantum observables" ( http://arxiv.org/abs/2405.00037v2 ) ライセンス: Link先を確認 | Josu Etxezarreta Martinez, Olatz Sanz Larrarte, Javier Oliva del Moral, Reza Dastbasteh, Ruben M. Otxoa, | (参考訳) ZNE(Zero-noise Extrapolation)は、興味のある観測対象のノイズフリー期待値の回復を目指すため、ノイズ中間量子(NISQ)マシンを用いて最も広く使われている量子エラー緩和手法である。
近年、オッテンとグレイはチューナブルな大域的ノイズ源が存在しないシステムに対して多項式ZNEの多次元一般化を提案した。
A \textbf{99,} 012338 (2019)]
具体的には、各キュービットが異なるレートで複数のノイズ処理を経験するマルチキュービットシステムについて言及する。
著者らはそのようなノイズを緩和する超曲面法を提案したが、これは技術的に正しい。
提案手法は有効であるが, 提案手法は, 少なくとも量子コンピューティングの観点からは, 実現不可能な実験のオーバーヘッドを生じさせる。
本論では, 従来の外挿法は, 多数の異なるノイズ源から構成される非同一分布雑音に対して適用可能であることを示し, 測定オーバーヘッドが大幅に低減されることを示唆している。
そこで本稿では,ZNEの文脈において,グローバルノイズ源がどのような意味を持つのかを明らかにする。
Zero-noise extrapolation (ZNE) stands as the most widespread quantum error mitigation technique in order to aim the recovery of noise-free expectation values of observables of interest by means of Noisy Intermediate-Scale Quantum (NISQ) machines. Recently, Otten and Gray proposed a multidimensional generalization of polynomial ZNE for systems where there is not a tunable global noise source [Phys. Rev. A \textbf{99,} 012338 (2019)]. Specifically, the authors refer to multiqubit systems where each of the qubits experiences several noise processes with different rates, i.e. a non-identically distributed noise model. The authors proposed a hypersurface method for mitigating such noise, which is technically correct. While effective, the proposed method presents an unbearable experiment repetition overhead, making it impractical, at least from the perspective of quantum computing. In this comment, we show that the traditional extrapolation techniques can be applied for such non-identically distributed noise setting consisted of many different noise sources, implying that the measurement overhead is reduced considerably. For doing so, we clarify what it is meant by a tunable global noise source in the context of ZNE, concept that we consider important to be clarified for a correct understanding about how and why these methods work. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-26 |
# カタストロフィ結合価格の非線形ダイナミクス:機械学習の視点から
Unveiling Nonlinear Dynamics in Catastrophe Bond Pricing: A Machine Learning Perspective ( http://arxiv.org/abs/2405.00697v2 ) ライセンス: Link先を確認 | Xiaowei Chen, Hong Li, Yufan Lu, Rui Zhou, | (参考訳) 本稿では,カタストロフィ(CAT)結合の価格設定における機械学習モデルの有用性について考察する。
先進的な機械学習技術を統合することで、従来の線形回帰モデルでは見過ごされがちな、キーリスク要因とCAT結合の拡散の間の非線形関係と複雑な相互作用を明らかにする。
1999年1月から2021年3月までの一次市場におけるCAT社債取引記録を用いて、機械学習モデルがCAT社債価格の精度を高めるだけでなく、様々なリスク要因がどのように相互作用し、非線型的に社債価格に影響を与えるかをより深く理解していることを示す。
これらの結果は、投資家や発行者が機械学習を取り入れることで、CAT社債の価格設定時にリスク要因間の複雑な相互作用をより正確に捉えることができることを示唆している。
この結果は、複雑なリスク構造を特徴とする市場における資産価格の理解を深めるための機械学習モデルの可能性を強調している。
This paper explores the implications of using machine learning models in the pricing of catastrophe (CAT) bonds. By integrating advanced machine learning techniques, our approach uncovers nonlinear relationships and complex interactions between key risk factors and CAT bond spreads -- dynamics that are often overlooked by traditional linear regression models. Using primary market CAT bond transaction records between January 1999 and March 2021, our findings demonstrate that machine learning models not only enhance the accuracy of CAT bond pricing but also provide a deeper understanding of how various risk factors interact and influence bond prices in a nonlinear way. These findings suggest that investors and issuers can benefit from incorporating machine learning to better capture the intricate interplay between risk factors when pricing CAT bonds. The results also highlight the potential for machine learning models to refine our understanding of asset pricing in markets characterized by complex risk structures. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-26 |
# 内視鏡による縦隔癌評価におけるスイムトランスフォーマーの分布とコンセプトドリフトに対する堅牢性
Swin transformers are robust to distribution and concept drift in endoscopy-based longitudinal rectal cancer assessment ( http://arxiv.org/abs/2405.03762v2 ) ライセンス: Link先を確認 | Jorge Tapias Gomez, Aneesh Rangnekar, Hannah Williams, Hannah Thompson, Julio Garcia-Aguilar, Joshua Jesse Smith, Harini Veeraraghavan, | (参考訳) 内視鏡画像は、がん検診、診断、大腸炎などの治療からの反応や毒性を評価する治療中、新しい腫瘍や局所再発(LR)を検出するために、直腸癌治療の様々な段階で使用される。
しかし、主観的評価は非常に多様であり、一部の患者では反応の程度を過小評価し、不必要な手術を受けたり、病気の危険を冒す過度な反応を過小評価することがある。
深層学習の進歩は、内視鏡画像に対して一貫した客観的応答アセスメントを生成する能力を示している。
しかし, がん, 再発, 経過観察の方法には, 治療経過や経過観察の方法が欠如している。
これは、自動診断と直腸癌反応の評価は、内視鏡画像に存在する固有の画像照明のバリエーションやコンファウンディング条件(血液、スコープ、ぼかし)に頑健な方法と、治療中の正常な腔と腫瘍の変更を必要とするためである。
そこで, 内視鏡画像を用いた直腸癌と正常腔との鑑別のために, 階層型シフトウインドウ (Swin) トランスフォーマーを訓練した。
2つのコンボリューションモデル(ResNet-50, WideResNet-50)とビジョントランスフォーマー(ViT)モデル(ViT)をトレーニングし、追従長手画像を用いて、プライベートデータセット上でLRを検出するとともに、オフ・オブ・ディストリビューション(OOD)公開大腸内視鏡データセットを用いて、プレ・ノン・シーセラスポリープを検出する。
配向シフトをシミュレートするために最適輸送を用いて色シフトを適用した。
SwinとResNetのモデルも同様に分布データセットで正確だった。
他の方法(フォローアップ:0.84、OOD:0.83)に比べて、色の変化(フォローアップ:0.83、OOD:0.87)も正確であった。
Endoscopic images are used at various stages of rectal cancer treatment starting from cancer screening, diagnosis, during treatment to assess response and toxicity from treatments such as colitis, and at follow up to detect new tumor or local regrowth (LR). However, subjective assessment is highly variable and can underestimate the degree of response in some patients, subjecting them to unnecessary surgery, or overestimate response that places patients at risk of disease spread. Advances in deep learning has shown the ability to produce consistent and objective response assessment for endoscopic images. However, methods for detecting cancers, regrowth, and monitoring response during the entire course of patient treatment and follow-up are lacking. This is because, automated diagnosis and rectal cancer response assessment requires methods that are robust to inherent imaging illumination variations and confounding conditions (blood, scope, blurring) present in endoscopy images as well as changes to the normal lumen and tumor during treatment. Hence, a hierarchical shifted window (Swin) transformer was trained to distinguish rectal cancer from normal lumen using endoscopy images. Swin as well as two convolutional (ResNet-50, WideResNet-50), and vision transformer (ViT) models were trained and evaluated on follow-up longitudinal images to detect LR on private dataset as well as on out-of-distribution (OOD) public colonoscopy datasets to detect pre/non-cancerous polyps. Color shifts were applied using optimal transport to simulate distribution shifts. Swin and ResNet models were similarly accurate in the in-distribution dataset. Swin was more accurate than other methods (follow-up: 0.84, OOD: 0.83) even when subject to color shifts (follow-up: 0.83, OOD: 0.87), indicating capability to provide robust performance for longitudinal cancer assessment. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-26 |
# ゲルマニウム-シリコン単光子アバランシェダイオードを用いた集積シリコンフォトニクスにおける室温フォトニック量子コンピューティング
Room-temperature photonic quantum computing in integrated silicon photonics with germanium-silicon single-photon avalanche diodes ( http://arxiv.org/abs/2405.04763v2 ) ライセンス: Link先を確認 | Neil Na, Chou-Yun Hsu, Erik Chen, Richard Soref, | (参考訳) 光量子コンピューティング(PQC)は、温度 < 4 K で作動するニオブ(Nb)に基づく超伝導ナノワイヤ単光子検出器(SNSPD)を頼りにしており、最近室温で作動するGeSi SPADに基づいて300Kの導波管集積型ゲルマニウムシリコン(GeSi)単光子アバランシェダイオード(SPAD)を提案、解析し、それらの性能がPQCの基準値でSNSPDと競合していることを示す。
これらのGeSi SPADは、M GeSi SPADの空間的に多重化されたM-折りたたみ導波路アレイを配置することにより、光子数分解アバランシェダイオード(PNRAD)となる。
このPQCアーキテクチャでは、オンチップの波動誘導自発4波混合(SFWM)と波動誘導フィールドプログラマブルインターフェロメータメッシュ(FPIM)回路を用い、室内温度での高速量子コンピューティングを予測した。
Most, if not all, photonic quantum computing (PQC) relies upon superconducting nanowire single-photon detectors (SNSPDs) based on niobium (Nb) operated at a temperature < 4 K. This paper proposes and analyzes 300 K waveguide-integrated germanium-silicon (GeSi) single-photon avalanche diodes (SPADs) based on the recently demonstrated normal-incidence GeSi SPADs operated at room temperature, and shows that their performance is competitive against that of SNSPDs in a series of metrics for PQC with a reasonable time-gating window to resolve the issue of dark-count rate (DCR). These GeSi SPADs become photon-number-resolving avalanche diodes (PNRADs) by deploying a spatially-multiplexed M-fold-waveguide array of M GeSi SPADs. Using on-chip waveguided spontaneous four-wave mixing (SFWM) sources and waveguided field-programmable interferometer mesh (FPIM) circuits, together with the high-metric SPADs and PNRADs, high-performance quantum computing at room temperature is predicted for this PQC architecture. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-26 |
# 凸性を超えた量子資源理論
Quantum Resource Theories beyond Convexity ( http://arxiv.org/abs/2405.05785v2 ) ライセンス: Link先を確認 | Roberto Salazar, Jakub Czartowski, Ricard Ravell Rodríguez, Grzegorz Rajchel-Mieldzioć, Paweł Horodecki, Karol Życzkowski, | (参考訳) この研究で提示された、非凸星形集合に基づく量子資源理論のクラスは、標準凸理論では研究できない重要な量子特性を捉えている。
我々は,このクラスの資源に対する運用的解釈を提供し,相関量子識別タスクの性能向上と量子コムのテストを行う上での優位性を示す。
提案された手法は、複合量子系における量子不協和、総相関を記述し、解析された量子力学の非マルコビアン性の度合いを推定するための有用なツールを提供する。
その他の応用としては、古典力学の量子化と高エネルギー物理学におけるCP対称性の破れの研究の関連性を含む、与えられたビスト確率行列の不定性の問題がある。
これらすべてのケースにおいて、ここで導入された非線形の証人は、標準的な線形の証人よりも優れています。
量子情報理論への我々の発見の重要性も強調される。
A class of quantum resource theories, based on non-convex star-shape sets, presented in this work captures the key quantum properties that cannot be studied by standard convex theories. We provide operational interpretations for a resource of this class and demonstrate its advantage to improve performance of correlated quantum discrimination tasks and testing of quantum combs. Proposed techniques provide useful tools to describe quantum discord, total correlations in composite quantum systems and to estimate the degree of non-Markovianity of an analyzed quantum dynamics. Other applications include the problem of unistochasticity of a given bistochastic matrix, with relevance for quantization of classical dynamics and studies of violation of CP-symmetry in high energy physics. In all these cases, the non-linear witnesses introduced here outperform the standard linear witnesses. Importance of our findings for quantum information theory is also emphasized. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-26 |
# 量子崩壊モデルから格子ゲージ理論へ
From the Quantum Breakdown Model to the Lattice Gauge Theory ( http://arxiv.org/abs/2405.08273v2 ) ライセンス: Link先を確認 | Yu-Min Hu, Biao Lian, | (参考訳) 電気分解現象をシミュレートする空間的非対称フェルミオン相互作用を特徴とする1次元量子分解モデルは、指数的U(1)対称性と、多体局在や量子スカー状態を伴う量子カオスを含む様々な動的相を示す。
我々は、相互作用に必要なオンサイトフェルミオン軌道の最小数で最小の量子分解モデルを調べ、モデル内の多数の局所的な電荷を同定する。
次に、ある電荷セクターにおける最小量子分解モデルと、U(1)格子ゲージ理論をシミュレートする量子リンクモデルとの写像を明らかにし、局所保存電荷がゲージ対称性生成器にマップされていることを示す。
モデルの特別な電荷セクターは、量子多体傷を示すPXPモデルにさらにマッピングする。
この写像は、量子分解モデルにおける異なるゲージ配置によって特徴づけられる異なるクリロフ部分空間におけるリッチダイナミクスを明らかにする。
The one-dimensional quantum breakdown model, which features spatially asymmetric fermionic interactions simulating the electrical breakdown phenomenon, exhibits an exponential U(1) symmetry and a variety of dynamical phases including many-body localization and quantum chaos with quantum scar states. We investigate the minimal quantum breakdown model with the minimal number of on-site fermion orbitals required for the interaction, and identify a large number of local conserved charges in the model. We then reveal a mapping between the minimal quantum breakdown model in certain charge sectors and a quantum link model which simulates the U(1) lattice gauge theory, and show that the local conserved charges map to the gauge symmetry generators. A special charge sector of the model further maps to the PXP model, which shows quantum many-body scars. This mapping unveils the rich dynamics in different Krylov subspaces characterized by different gauge configurations in the quantum breakdown model. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-26 |
# ケミカルLLMはメッセージパッシングの恩恵を受けるか?
Could Chemical LLMs benefit from Message Passing ( http://arxiv.org/abs/2405.08334v2 ) ライセンス: Link先を確認 | Jiaqing Xie, Ziheng Chi, | (参考訳) 事前訓練言語モデル(LM)は、分子テキストを処理する上で重要な機能を示し、同時に、メッセージパッシングニューラルネットワーク(MPNN)は、分子科学の領域におけるレジリエンスと汎用性を示している。
これらの進歩にもかかわらず、分子構造とそれに対応するテクスチャ表現の間の双方向相互作用を研究する研究は限られている。
そこで本稿では,MPNNを用いてLMのトレーニングを監督するコントラスト学習と,両モデルからの情報を活用する融合という2つの手法を提案する。
我々の経験的分析により、これらの積分法は、より小さな分子グラフに適用した場合のベースラインよりも優れた性能を示し、一方、これらの積分法は大規模グラフ上での性能向上を得られないことが明らかとなった。
Pretrained language models (LMs) showcase significant capabilities in processing molecular text, while concurrently, message passing neural networks (MPNNs) demonstrate resilience and versatility in the domain of molecular science. Despite these advancements, we find there are limited studies investigating the bidirectional interactions between molecular structures and their corresponding textual representations. Therefore, in this paper, we propose two strategies to evaluate whether an information integration can enhance the performance: contrast learning, which involves utilizing an MPNN to supervise the training of the LM, and fusion, which exploits information from both models. Our empirical analysis reveals that the integration approaches exhibit superior performance compared to baselines when applied to smaller molecular graphs, while these integration approaches do not yield performance enhancements on large scale graphs. | 翻訳日:2024-08-27 23:27:05 公開日:2024-08-26 |
# 誘導型グラフニューラルネットワークに対する効率的なモデルステアリング攻撃
Efficient Model-Stealing Attacks Against Inductive Graph Neural Networks ( http://arxiv.org/abs/2405.12295v3 ) ライセンス: Link先を確認 | Marcin Podhajski, Jan Dubiński, Franziska Boenisch, Adam Dziedzic, Agnieszka Pregowska And Tomasz Michalak, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造で組織された実世界のデータを処理するための強力なツールとして認識されている。
特に、事前に定義されたグラフ構造に依存しないグラフ構造化データの処理が可能なインダクティブGNNは、広範囲のアプリケーションにおいてますます重要になっている。
このようなネットワークは、敵が標的ネットワークの機能の複製を試みるモデルステアリング攻撃の魅力的なターゲットとなる。
画像やテキストで訓練されたモデルを抽出するモデルステアリング攻撃の開発に、重要な努力が注がれている。
しかし、グラフデータで訓練されたGNNを盗むことにはほとんど注意が払われていない。
本稿では, グラフコントラスト学習とスペクトルグラフ拡張を利用して, 対象モデルから効率的に情報を抽出し, 誘導型GNNに対する教師なしモデルステーリング攻撃を行う新しい手法を提案する。
新しいタイプの攻撃は6つのデータセットで徹底的に評価され、その結果、Shen et al (2021) による現在の最先端技術よりも優れた結果が得られた。
特に、我々の攻撃は全てのベンチマークでベースラインを超え、盗難モデルの忠実度と下流の精度が向上し、ターゲットモデルに向けられたクエリが少なくなる。
Graph Neural Networks (GNNs) are recognized as potent tools for processing real-world data organized in graph structures. Especially inductive GNNs, which allow for the processing of graph-structured data without relying on predefined graph structures, are becoming increasingly important in a wide range of applications. As such these networks become attractive targets for model-stealing attacks where an adversary seeks to replicate the functionality of the targeted network. Significant efforts have been devoted to developing model-stealing attacks that extract models trained on images and texts. However, little attention has been given to stealing GNNs trained on graph data. This paper identifies a new method of performing unsupervised model-stealing attacks against inductive GNNs, utilizing graph contrastive learning and spectral graph augmentations to efficiently extract information from the targeted model. The new type of attack is thoroughly evaluated on six datasets and the results show that our approach outperforms the current state-of-the-art by Shen et al. (2021). In particular, our attack surpasses the baseline across all benchmarks, attaining superior fidelity and downstream accuracy of the stolen model while necessitating fewer queries directed toward the target model. | 翻訳日:2024-08-27 23:27:05 公開日:2024-08-26 |
# テキストからPixelへ:MLLMにおける長期的理解の促進
From Text to Pixel: Advancing Long-Context Understanding in MLLMs ( http://arxiv.org/abs/2405.14213v2 ) ライセンス: Link先を確認 | Yujie Lu, Xiujun Li, Tsu-Jui Fu, Miguel Eckstein, William Yang Wang, | (参考訳) MLLM(Multimodal Large Language Models)の急速な進歩は、複雑な視覚情報やテキスト情報を処理し理解する能力を大幅に進歩させた。
しかし、長い入力シーケンスを効率的に処理するモデルの能力に固有の制限があるため、複数の画像と広範なテキストコンテキストの統合は依然として課題である。
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、固定トークン長の予算内で長文を効率的に扱えるようにすることで、長文のコンパクト符号化を最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実証実験により、SEEKERはOCRベースの手法に比べて少ない画像トークンを利用して同じ量のテキスト情報を伝達でき、また、長文マルチモーダル入力の理解と長文出力の生成がより効率的であり、既存のプロプライエタリおよびオープンソースMLLMを大きなマージンで上回ることを示した。
The rapid progress in Multimodal Large Language Models (MLLMs) has significantly advanced their ability to process and understand complex visual and textual information. However, the integration of multiple images and extensive textual contexts remains a challenge due to the inherent limitation of the models' capacity to handle long input sequences efficiently. In this paper, we introduce SEEKER, a multimodal large language model designed to tackle this issue. SEEKER aims to optimize the compact encoding of long text by compressing the text sequence into the visual pixel space via images, enabling the model to handle long text within a fixed token-length budget efficiently. Our empirical experiments on six long-context multimodal tasks demonstrate that SEEKER can leverage fewer image tokens to convey the same amount of textual information compared with the OCR-based approach, and is more efficient in understanding long-form multimodal input and generating long-form textual output, outperforming all existing proprietary and open-source MLLMs by large margins. | 翻訳日:2024-08-27 23:27:05 公開日:2024-08-26 |
# LoQT: 量子化トレーニングのための低ランクアダプタ
LoQT: Low Rank Adapters for Quantized Training ( http://arxiv.org/abs/2405.16528v2 ) ライセンス: Link先を確認 | Sebastian Loeschcke, Mads Toftrup, Michael J. Kastoryano, Serge Belongie, Vésteinn Snæbjarnarson, | (参考訳) 大規模なニューラルネットワークのトレーニングには、かなりの計算資源が必要である。
低ランクアダプタと量子化の進歩にもかかわらず、消費者ハードウェア上でのLCMのようなモデルの事前訓練は、モデルのシャーディング、トレーニング中のオフロード、層ごとの勾配更新なしでは不可能である。
これらの制約に対処するため、量子化モデルを効率的に訓練するLoQTを提案する。
LoQTは勾配に基づくテンソル分解を用いて、定期的に量子化されたフルランクの重み行列にマージされる低ランクのトレーニング可能な重み行列を初期化する。
提案手法は事前学習と微調整の両方に適しており,言語モデリングと下流タスク適応の実験的な実証を行った。
LoQTは、コンシューマグレードの24GB GPU上で、7Bパラメータまでのモデルの効率的なトレーニングを可能にする。
また,同一ハードウェア上での層間勾配更新による13Bパラメータモデルのトレーニングの実現可能性を示す。
Training of large neural networks requires significant computational resources. Despite advances using low-rank adapters and quantization, pretraining of models such as LLMs on consumer hardware has not been possible without model sharding, offloading during training, or per-layer gradient updates. To address these limitations, we propose LoQT, a method for efficiently training quantized models. LoQT uses gradient-based tensor factorization to initialize low-rank trainable weight matrices that are periodically merged into quantized full-rank weight matrices. Our approach is suitable for both pretraining and fine-tuning of models, which we demonstrate experimentally for language modeling and downstream task adaptation. We find that LoQT enables efficient training of models up to 7B parameters on a consumer-grade 24GB GPU. We also demonstrate the feasibility of training a 13B parameter model using per-layer gradient updates on the same hardware. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-26 |
# Cookie Monster: 異なるプロプライエタリな広告測定システムのためのデバイス上での効率的な予算化
Cookie Monster: Efficient On-device Budgeting for Differentially-Private Ad-Measurement Systems ( http://arxiv.org/abs/2405.16719v3 ) ライセンス: Link先を確認 | Pierre Tholoniat, Kelly Kostopoulou, Peter McNeely, Prabhpreet Singh Sodhi, Anirudh Varanasi, Benjamin Case, Asaf Cidon, Roxana Geambasu, Mathias Lécuyer, | (参考訳) 主要なブラウザからのサードパーティ製クッキーの削除や、新しいプライバシー保護広告APIの導入によって、調査コミュニティは、Webのプライバシーを質的に改善する業界を支援する機会を、タイムリーに持っている。
本稿では、既存のプライバシー保護広告計測APIを強化するため、W3Cコミュニティグループ内での取り組みについて論じる。
Google、Apple、Meta、Mozillaのデザインを分析し、より厳格で効率的な差分プライバシー(DP)予算コンポーネントでそれらを強化します。
当社のアプローチはAlistairと呼ばれ、明確に定義されたDP保証を強制し、広告主がより正確なプライベートな測定クエリを実行できるようにする。
DPの個々の形態でプライバシー保証をフレーミングすることで、従来のDP定義を使用するシステムよりもDP予算を効率的にすることができる。
AlistairをChromeに組み込んで、マイクロベンチマークや広告データセットで評価します。
すべてのワークロードにおいて、Alistairは、同等のDP保護の下でより多くの広告測定を可能にする点で、ベースラインを著しく上回る。
With the impending removal of third-party cookies from major browsers and the introduction of new privacy-preserving advertising APIs, the research community has a timely opportunity to assist industry in qualitatively improving the Web's privacy. This paper discusses our efforts, within a W3C community group, to enhance existing privacy-preserving advertising measurement APIs. We analyze designs from Google, Apple, Meta and Mozilla, and augment them with a more rigorous and efficient differential privacy (DP) budgeting component. Our approach, called Alistair, enforces well-defined DP guarantees and enables advertisers to conduct more private measurement queries accurately. By framing the privacy guarantee in terms of an individual form of DP, we can make DP budgeting more efficient than in current systems that use a traditional DP definition. We incorporate Alistair into Chrome and evaluate it on microbenchmarks and advertising datasets. Across all workloads, Alistair significantly outperforms baselines in enabling more advertising measurements under comparable DP protection. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-26 |
# Jump-Teaching: ノイズラベルによる超効率的かつロバストな学習
Jump-teaching: Ultra Efficient and Robust Learning with Noisy Label ( http://arxiv.org/abs/2405.17137v3 ) ライセンス: Link先を確認 | Kangye Ji, Fei Cheng, Zeqing Wang, Bohu Huang, | (参考訳) サンプル選択はラベルノイズに対処する最も簡単な手法であり、トレーニング中に誤ラベル付きサンプルを識別し、モデルの堅牢性の低下を避けることを目的としている。
ワークフローでは、$\textit{selecting potentially clean data}$と$\textit{model update}$が反復的である。
しかし、それらの相互作用と本質的な特徴は、ノイズラベルによる学習の堅牢性と効率を損なう。
1) モデルが選択バイアスでクリーンなデータを選択し, モデル更新におけるエラーの蓄積につながる。
2)ほとんどの選択戦略はパートナーネットワークや補助情報を利用してラベルの破損を軽減し,計算資源の増大とスループットの低下を図っている。
そこで我々は,ジャンプ方式の更新を施した1つのネットワークのみを用いて,対話を分離し,より正確な選択のために,損失からより多くの意味情報をマイニングする。
具体的には、各モデル更新のためのクリーンなデータの選択は、前回のイテレーションを除いて、前のモデルの1つに基づいています。
モデル更新の戦略は、フォームでジャンプ動作を示す。
さらに,ネットワークとラベルの出力をそれぞれ同じ意味的特徴空間にマッピングする。
この空間では、より効果的にクリーンサンプルを識別するために、詳細で単純な損失分布が生成される。
提案手法は,ピークメモリフットプリントを最大2.53\times$スピードアップ,0.46\times$ピークメモリフットプリントを実現し,各種ノイズ設定による最先端作業よりも優れたロバスト性を実現する。
Sample selection is the most straightforward technique to combat label noise, aiming to distinguish mislabeled samples during training and avoid the degradation of the robustness of the model. In the workflow, $\textit{selecting possibly clean data}$ and $\textit{model update}$ are iterative. However, their interplay and intrinsic characteristics hinder the robustness and efficiency of learning with noisy labels: 1) The model chooses clean data with selection bias, leading to the accumulated error in the model update. 2) Most selection strategies leverage partner networks or supplementary information to mitigate label corruption, albeit with increased computation resources and lower throughput speed. Therefore, we employ only one network with the jump manner update to decouple the interplay and mine more semantic information from the loss for a more precise selection. Specifically, the selection of clean data for each model update is based on one of the prior models, excluding the last iteration. The strategy of model update exhibits a jump behavior in the form. Moreover, we map the outputs of the network and labels into the same semantic feature space, respectively. In this space, a detailed and simple loss distribution is generated to distinguish clean samples more effectively. Our proposed approach achieves almost up to $2.53\times$ speedup, $0.46\times$ peak memory footprint, and superior robustness over state-of-the-art works with various noise settings. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-26 |
# 差動形変圧器の現況
Delving into Differentially Private Transformer ( http://arxiv.org/abs/2405.18194v3 ) ライセンス: Link先を確認 | Youlong Ding, Xueyang Wu, Yining Meng, Yonggang Luo, Hao Wang, Weike Pan, | (参考訳) ディファレンシャルプライバシ(DP)による深層学習は、ここ数年で大きな注目を集めており、モデルの精度向上とトレーニング効率の向上を目的とした多くの手法が開発されている。
本稿では,差分プライバシを用いたトランスフォーマーモデルのトレーニング問題について考察する。
我々の処理はモジュラーであり、DPトランスフォーマーをトレーニングする問題を、DPバニラニューラルネットをトレーニングするより基本的な問題に「還元」することである。
後者はよく理解されており、多くのモデルに依存しない方法に順応できる。
このような「還元」は、まずDPトランスフォーマートレーニング特有の硬さ、すなわち注意散逸現象と、効率的な勾配クリッピングのための既存の技術との互換性の欠如を識別する。
これら2つの問題に対処するために,我々はそれぞれ再注意機構とファントムクリッピングを提案する。
我々は,DPトランスフォーマーのトレーニングに新たな光を当てるだけでなく,差分的な私的深層学習の分野での研究を進めるために,モジュラー処理を推進していると信じている。
Deep learning with differential privacy (DP) has garnered significant attention over the past years, leading to the development of numerous methods aimed at enhancing model accuracy and training efficiency. This paper delves into the problem of training Transformer models with differential privacy. Our treatment is modular: the logic is to `reduce' the problem of training DP Transformer to the more basic problem of training DP vanilla neural nets. The latter is better understood and amenable to many model-agnostic methods. Such `reduction' is done by first identifying the hardness unique to DP Transformer training: the attention distraction phenomenon and a lack of compatibility with existing techniques for efficient gradient clipping. To deal with these two issues, we propose the Re-Attention Mechanism and Phantom Clipping, respectively. We believe that our work not only casts new light on training DP Transformers but also promotes a modular treatment to advance research in the field of differentially private deep learning. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-26 |
# データ適応型ノイズフィルタにおけるFusing Conditional VAEによるSMOTEの改善
Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering ( http://arxiv.org/abs/2405.19757v3 ) ライセンス: Link先を確認 | Sungchul Hong, Seunghwan An, Jong-June Jeon, | (参考訳) 生成ニューラルネットワークモデルの最近の進歩は、データ拡張手法の開発を拡張している。
しかし, 最新の生成モデルに基づく拡張手法は, 従来のモデルであるSMOTEと比較して, クラス不均衡データに対する顕著な性能を達成するには至らなかった。
不均衡な分類のための生成モデルの問題点を考察し、変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムを強化する枠組みを導入する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
そして、増大する可能性のあるデータポイントを体系的に排除し、そのデータ空間に隣接した観測を直接拡張する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
その結果、少数データの選択とデータ空間の補間は、比較的少数のデータポイントを持つ不均衡な分類問題に有効であると結論付けている。
Recent advances in a generative neural network model extend the development of data augmentation methods. However, the augmentation methods based on the modern generative models fail to achieve notable performance for class imbalance data compared to the conventional model, Synthetic Minority Oversampling Technique (SMOTE). We investigate the problem of the generative model for imbalanced classification and introduce a framework to enhance the SMOTE algorithm using Variational Autoencoders (VAE). Our approach systematically quantifies the density of data points in a low-dimensional latent space using the VAE, simultaneously incorporating information on class labels and classification difficulty. Then, the data points potentially degrading the augmentation are systematically excluded, and the neighboring observations are directly augmented on the data space. Empirical studies on several imbalanced datasets represent that this simple process innovatively improves the conventional SMOTE algorithm over the deep learning models. Consequently, we conclude that the selection of minority data and the interpolation in the data space are beneficial for imbalanced classification problems with a relatively small number of data points. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-26 |
# ChromeのWeb Storeのベットプロセス、ブラウザ拡張の類似性で評価
Did I Vet You Before? Assessing the Chrome Web Store Vetting Process through Browser Extension Similarity ( http://arxiv.org/abs/2406.00374v2 ) ライセンス: Link先を確認 | José Miguel Moreno, Narseo Vallina-Rodriguez, Juan Tapiador, | (参考訳) Webブラウザ、特にGoogle Chromeや他のChromiumベースのブラウザは、過去10年間に人気を博し、ブラウザ拡張が彼らのエコシステムの不可欠な部分となった。
これらの拡張機能は、広告ブロッカーから、最近ではAIアシスタントまで幅広い機能を提供することで、ユーザーエクスペリエンスをカスタマイズし、強化することができる。
Webブラウザの重要性がますます高まっていることを踏まえると、エクステンションの配布マーケットプレースは、虐待的または悪意のある振る舞いを示す提出書を審査することで、ユーザを安全に保つ上で重要な役割を担っている。
本稿では,Chrome Web Store (CWS) におけるマルウェアやその他の不正な拡張機能が,この種のソフトウェアで最大の配布プラットフォームとなっていることを特徴付ける。
そこで本研究では,静的および動的解析,自然言語処理(NLP),ベクトル埋め込みを利用した,類似の挙動拡張を検出する新しい手法であるSimExtを紹介する。
本研究は, 侵害拡大の86%が前回の拒否項目と非常によく似ているため, CWS拒否プロセスにおいて大きなギャップが明らかとなり, 削除には数ヶ月, 数年を要する。
83%がNew Tab Extensions(NTE)であり、CWSアナリストが割り当てたベッティングラベルの一貫性に関する懸念が浮かび上がっている。
また,CWSによってフラグ付けされたマルウェアの1%がマルウェア対策として悪用されていることが判明し,CWSモデレーターが見た脅威景観と脅威情報コミュニティの検知能力とのギャップが指摘された。
Web browsers, particularly Google Chrome and other Chromium-based browsers, have grown in popularity over the past decade, with browser extensions becoming an integral part of their ecosystem. These extensions can customize and enhance the user experience, providing functionality that ranges from ad blockers to, more recently, AI assistants. Given the ever-increasing importance of web browsers, distribution marketplaces for extensions play a key role in keeping users safe by vetting submissions that display abusive or malicious behavior. In this paper, we characterize the prevalence of malware and other infringing extensions in the Chrome Web Store (CWS), the largest distribution platform for this type of software. To do so, we introduce SimExt, a novel methodology for detecting similarly behaving extensions that leverages static and dynamic analysis, Natural Language Processing (NLP) and vector embeddings. Our study reveals significant gaps in the CWS vetting process, as 86% of infringing extensions are extremely similar to previously vetted items, and these extensions take months or even years to be removed. By characterizing the top kinds of infringing extension, we find that 83% are New Tab Extensions (NTEs) and raise some concerns about the consistency of the vetting labels assigned by CWS analysts. Our study also reveals that only 1% of malware extensions flagged by the CWS are detected as malicious by anti-malware engines, indicating a concerning gap between the threat landscape seen by CWS moderators and the detection capabilities of the threat intelligence community. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-26 |
# 自己監督型スケルトンに基づく行動表現学習 : ベンチマークとそれを超えるもの
Self-Supervised Skeleton-Based Action Representation Learning: A Benchmark and Beyond ( http://arxiv.org/abs/2406.02978v2 ) ライセンス: Link先を確認 | Jiahang Zhang, Lilang Lin, Shuai Yang, Jiaying Liu, | (参考訳) ラベルのないデータから有意義な事前表現を学習することを目的とした自己教師付き学習(SSL)が,骨格に基づく行動理解に有効であることが証明されている。
画像領域と異なり、スケルトンデータは背景手がかりの欠如と時間次元が付加されたスペーサー空間構造と多彩な表現形式を有しており、空間時間前文タスク設計の新たな課題が提示されている。
最近、多くのスケルトンベースのSSLへの取り組みが行われ、目覚ましい進歩を遂げている。
しかし、体系的で徹底的なレビューは依然として欠落している。
本稿では,自己教師型骨格に基づく行動表現学習に関する包括的調査を初めて実施する。
文脈に基づく、生成的学習、および対照的な学習アプローチの分類に続き、既存の研究の徹底的なレビューとベンチマークを行い、将来可能な方向性について光を当てる。
注目すべきは、ほとんどのSSL作業は単一のパラダイム、単一レベルの学習表現に依存しており、動作認識タスクのみに基づいて評価されており、スケルトンSSLモデルの一般化能力は未探索のままであることだ。
この目的のために、異なる粒度の多目的表現学習目標を統合し、複数のスケルトン下流タスクの一般化能力を大幅に向上する、新しい効率的なスケルトンSSL法が提案されている。
3つの大規模データセットによる大規模な実験により,認識,検索,検出,少数ショット学習など,下流タスクの一般化性能が向上することを示した。
Self-supervised learning (SSL), which aims to learn meaningful prior representations from unlabeled data, has been proven effective for skeleton-based action understanding. Different from the image domain, skeleton data possesses sparser spatial structures and diverse representation forms, with the absence of background clues and the additional temporal dimension, presenting new challenges for spatial-temporal motion pretext task design. Recently, many endeavors have been made for skeleton-based SSL, achieving remarkable progress. However, a systematic and thorough review is still lacking. In this paper, we conduct, for the first time, a comprehensive survey on self-supervised skeleton-based action representation learning. Following the taxonomy of context-based, generative learning, and contrastive learning approaches, we make a thorough review and benchmark of existing works and shed light on the future possible directions. Remarkably, our investigation demonstrates that most SSL works rely on the single paradigm, learning representations of a single level, and are evaluated on the action recognition task solely, which leaves the generalization power of skeleton SSL models under-explored. To this end, a novel and effective SSL method for skeleton is further proposed, which integrates versatile representation learning objectives of different granularity, substantially boosting the generalization capacity for multiple skeleton downstream tasks. Extensive experiments under three large-scale datasets demonstrate our method achieves superior generalization performance on various downstream tasks, including recognition, retrieval, detection, and few-shot learning. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-26 |
# GenAI著作権問題に対処する:オリジナル性の推定と生成
Tackling GenAI Copyright Issues: Originality Estimation and Genericization ( http://arxiv.org/abs/2406.03341v4 ) ライセンス: Link先を確認 | Hiroaki Chiba-Okabe, Weijie J. Su, | (参考訳) 生成AI技術の急速な進歩は、重要な著作権上の懸念を引き起こし、AI開発者に対する数多くの訴訟を引き起こした。
著作権問題を緩和するための様々な技術が研究されているが、重大なリスクは残されている。
本稿では、生成モデルの出力を一般化し、著作権を侵害しにくくする汎用化手法を提案する。
これを実現するために、法的な枠組みと整合した方法でデータの独創性のレベルを定量化する指標を導入する。
この計量は、生成モデルからサンプルを抽出し、一般化過程に使用することにより、実際に推定することができる。
そこで本研究では,ジェネリゼーション手法と既存の緩和手法を組み合わせたPrepreGenを紹介する。
提案手法は,テキストから画像への生成モデルの出力を改良し,より汎用的で著作権に適合した画像を生成する。
既存の方法と比較して、Pregenは、著作権付き文字名をプロンプトとして使用する場合、著作権付き文字を半分以上生成する可能性を減らし、性能を劇的に向上させる。
さらに、生成モデルは、プロンプトに名前が直接言及されていない場合でも、著作権付き文字を生成できるが、PreGenはそのような文字の生成をほとんど完全に妨げている。
The rapid progress of generative AI technology has sparked significant copyright concerns, leading to numerous lawsuits filed against AI developers. While various techniques for mitigating copyright issues have been studied, significant risks remain. Here, we propose a genericization method that modifies the outputs of a generative model to make them more generic and less likely to infringe copyright. To achieve this, we introduce a metric for quantifying the level of originality of data in a manner that is consistent with the legal framework. This metric can be practically estimated by drawing samples from a generative model, which is then used for the genericization process. As a practical implementation, we introduce PREGen, which combines our genericization method with an existing mitigation technique. Experiments demonstrate that our genericization method successfully modifies the output of a text-to-image generative model so that it produces more generic, copyright-compliant images. Compared to the existing method, PREGen reduces the likelihood of generating copyrighted characters by more than half when the names of copyrighted characters are used as the prompt, dramatically improving the performance. Additionally, while generative models can produce copyrighted characters even when their names are not directly mentioned in the prompt, PREGen almost entirely prevents the generation of such characters in these cases. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-26 |
# 属性正規化による心臓MRIの解釈型表現学習
Interpretable Representation Learning of Cardiac MRI via Attribute Regularization ( http://arxiv.org/abs/2406.08282v3 ) ライセンス: Link先を確認 | Maxime Di Folco, Cosmin I. Bercea, Emily Chan, Julia A. Schnabel, | (参考訳) 臨床医が人工知能モデルの理解と信頼を確実にするためには、医療画像の解釈可能性が不可欠である。
最近では、その解釈可能性を高めるために、属性を潜在空間にエンコードするいくつかのアプローチが検討されている。
特に属性正規化は、潜在表現の次元に沿って属性のセットを符号化することを目的としている。
しかし、このアプローチは変分オートエンコーダに基づいており、ぼやけた再構築に悩まされている。
本稿では,分散正規化されたソフトイントロスペクティブ変分オートエンコーダを提案し,逆向きに訓練された変分オートエンコーダのフレームワーク内に潜時空間の属性正規化を組み合わせた。
本稿では,英国バイオバンクの短軸磁気共鳴画像を用いて,潜時空間の解釈性を維持しつつ,変動型オートエンコーダ法のぼやけた再構成問題に対処する手法を提案する。
Interpretability is essential in medical imaging to ensure that clinicians can comprehend and trust artificial intelligence models. Several approaches have been recently considered to encode attributes in the latent space to enhance its interpretability. Notably, attribute regularization aims to encode a set of attributes along the dimensions of a latent representation. However, this approach is based on Variational AutoEncoder and suffers from blurry reconstruction. In this paper, we propose an Attributed-regularized Soft Introspective Variational Autoencoder that combines attribute regularization of the latent space within the framework of an adversarially trained variational autoencoder. We demonstrate on short-axis cardiac Magnetic Resonance images of the UK Biobank the ability of the proposed method to address blurry reconstruction issues of variational autoencoder methods while preserving the latent space interpretability. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-26 |
# OLGA: 1-cLassグラフオートエンコーダ
OLGA: One-cLass Graph Autoencoder ( http://arxiv.org/abs/2406.09131v2 ) ライセンス: Link先を確認 | M. P. S. Gôlo, J. G. B. M. Junior, D. F. Silva, R. M. Marcacini, | (参考訳) ワンクラスラーニング(英: One-class learning、OCL)は、現実世界の問題に1つの関心のクラスがある場合に適用される一連のテクニックである。
OCLの通常の手順は、このクラスのインスタンスを含むハイパースフィアを学習し、理想的には、他のクラスから見えないインスタンスを再現する。
さらに、グラフ表現学習が様々な分野で成功して以来、グラフのためのOCLアルゴリズムがいくつか提案されている。
これらのメソッドは、最初はグラフを表現し、2番目のステップでノードを分類する2段階の戦略を使用することができる。
一方、エンドツーエンドの手法では、ノードを1つの学習プロセスで分類しながらノード表現を学習する。
グラフのOCLに関する文献の3つの主要なギャップを強調します。
i) OCLの非カスタマイズ表現
(II)ハイパースフィアパラメータ学習における制約の欠如
(三)解釈可能性の欠如及び可視化。
本稿では,One-cLass Graph Autoencoder (OLGA)を提案する。
OLGAはエンドツーエンドであり、2つの損失関数を組み合わせることで、関心のインスタンスをカプセル化しながらグラフノードの表現を学習する。
そこで本研究では,関心事をカプセル化するハイパースフィアロス関数を提案する。
OLGAは、この新たなハイパースフィアロスとグラフオートエンコーダ再構築損失を組み合わせて、モデル学習を改善する。
OLGAは最先端の結果を達成し、5つの手法と統計的に有意な差がある他の6つの手法よりも優れていた。
さらに、OLGAは、解釈可能なモデル表現学習と結果を用いて分類性能を維持する低次元表現を学習する。
One-class learning (OCL) comprises a set of techniques applied when real-world problems have a single class of interest. The usual procedure for OCL is learning a hypersphere that comprises instances of this class and, ideally, repels unseen instances from any other classes. Besides, several OCL algorithms for graphs have been proposed since graph representation learning has succeeded in various fields. These methods may use a two-step strategy, initially representing the graph and, in a second step, classifying its nodes. On the other hand, end-to-end methods learn the node representations while classifying the nodes in one learning process. We highlight three main gaps in the literature on OCL for graphs: (i) non-customized representations for OCL; (ii) the lack of constraints on hypersphere parameters learning; and (iii) the methods' lack of interpretability and visualization. We propose One-cLass Graph Autoencoder (OLGA). OLGA is end-to-end and learns the representations for the graph nodes while encapsulating the interest instances by combining two loss functions. We propose a new hypersphere loss function to encapsulate the interest instances. OLGA combines this new hypersphere loss with the graph autoencoder reconstruction loss to improve model learning. OLGA achieved state-of-the-art results and outperformed six other methods with a statistically significant difference from five methods. Moreover, OLGA learns low-dimensional representations maintaining the classification performance with an interpretable model representation learning and results. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-26 |
# 結合制約を用いた二値最適化のための2次法則法の一手法
A Primal-Dual-Assisted Penalty Approach to Bilevel Optimization with Coupled Constraints ( http://arxiv.org/abs/2406.10148v2 ) ライセンス: Link先を確認 | Liuyuan Jiang, Quan Xiao, Victor M. Tenorio, Fernando Real-Rojas, Antonio G. Marques, Tianyi Chen, | (参考訳) 近年、二段階最適化への関心が高まっており、部分的には機械学習問題に挑戦するために応用されているためである。
最近のいくつかのエキサイティングな研究は、2レベル最適化問題を証明可能な保証で解決できる効率的な勾配に基づくアルゴリズムの開発に焦点を当てている。
しかし、既存の文献は主に制約のない双レベル問題に焦点を合わせており、複雑なアプリケーションを除いて、上層と下層の変数を混同しない単純な制約のみを特徴としている。
本稿では,この難易度は低いが検討の少ないシナリオを考察し,結合制約によるビリーベル最適化問題に対処するため,BLOCCと呼ばれる(完全に)1次アルゴリズムを開発した。
本研究では,提案アルゴリズムの厳密な収束理論を確立し,サポートベクトルマシン(SVM)におけるハイパーパラメータ選択と,セビリア市からの実際のデータを用いた交通ネットワークにおけるインフラ計画という,よく知られた実世界の2つの応用にその効果を示す。
Interest in bilevel optimization has grown in recent years, partially due to its applications to tackle challenging machine-learning problems. Several exciting recent works have been centered around developing efficient gradient-based algorithms that can solve bilevel optimization problems with provable guarantees. However, the existing literature mainly focuses on bilevel problems either without constraints, or featuring only simple constraints that do not couple variables across the upper and lower levels, excluding a range of complex applications. Our paper studies this challenging but less explored scenario and develops a (fully) first-order algorithm, which we term BLOCC, to tackle BiLevel Optimization problems with Coupled Constraints. We establish rigorous convergence theory for the proposed algorithm and demonstrate its effectiveness on two well-known real-world applications - hyperparameter selection in support vector machine (SVM) and infrastructure planning in transportation networks using the real data from the city of Seville. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-26 |
# 感情分析のための言語モデルの改善:認知科学からの洞察
Improving Language Models for Emotion Analysis: Insights from Cognitive Science ( http://arxiv.org/abs/2406.10265v2 ) ライセンス: Link先を確認 | Constant Bonard, Gustave Cortal, | (参考訳) 本稿では、感情分析のための言語モデルを改善するために、認知科学研究を感情とコミュニケーションに活用することを提案する。
まず,心理学と認知科学の主な感情理論について述べる。
次に、自然言語処理における感情アノテーションの主な方法とその心理理論との関係について紹介する。
また、認知実用論における感情コミュニケーションの2つの主要な分析方法について述べる。
最後に,認知科学研究に基づき,感情分析のための言語モデルを改善するための方向性を提案する。
これらの研究は、人間の感情とコミュニケーションの異なる側面を考慮し、新たな注釈体系の構築方法、方法、および感情理解のためのベンチマークを提案する。
We propose leveraging cognitive science research on emotions and communication to improve language models for emotion analysis. First, we present the main emotion theories in psychology and cognitive science. Then, we introduce the main methods of emotion annotation in natural language processing and their connections to psychological theories. We also present the two main types of analyses of emotional communication in cognitive pragmatics. Finally, based on the cognitive science research presented, we propose directions for improving language models for emotion analysis. We suggest that these research efforts pave the way for constructing new annotation schemes, methods, and a possible benchmark for emotional understanding, considering different facets of human emotion and communication. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-26 |
# BlockPruner: 大規模言語モデルのためのきめ細かいプルーニング
BlockPruner: Fine-grained Pruning for Large Language Models ( http://arxiv.org/abs/2406.10594v3 ) ライセンス: Link先を確認 | Longguang Zhong, Fanqi Wan, Ruijun Chen, Xiaojun Quan, Liangzhi Li, | (参考訳) 大規模言語モデル(LLM)のサイズと複雑さの急速な増加に伴い、トレーニングや推論に伴うコストは大幅に増大した。
LLMの特定の層は、かなりの冗長性を持ち、これらの層を刈り取ることは、全体的なパフォーマンスに最小限の影響を与える。
この知見に基づいて様々な層刈り法が開発されているが、一般的には層自体の微細な冗長性を見落としている。
本稿では,LLMのアーキテクチャを深く掘り下げ,マルチヘッドアテンション(MHA)およびマルチ層パーセプトロン(MLP)ブロックにおける冗長性を目標にすることで,よりきめ細かなプルーニングを実現することを実証する。
そこで我々は,BlockPrunerと呼ばれる新しい,トレーニング不要な構造化プルーニング手法を提案する。
既存の層プルーニング法とは異なり、BlockPrunerは各トランスフォーマー層をMHAとMLPブロックに分割する。
次に、これらのブロックの重要性をパープレキシティ尺度を用いて評価し、反復的なプルーニングにヒューリスティックな探索を適用した。
我々はBlockPrunerを様々なサイズとアーキテクチャのLLMに適用し、その性能を幅広い下流タスクで検証した。
実験結果から,BlockPrunerは最先端のベースラインに比べて粒度と有効プルーニングを実現していることがわかった。
With the rapid growth in the size and complexity of large language models (LLMs), the costs associated with their training and inference have escalated significantly. Research indicates that certain layers in LLMs harbor substantial redundancy, and pruning these layers has minimal impact on the overall performance. While various layer pruning methods have been developed based on this insight, they generally overlook the finer-grained redundancies within the layers themselves. In this paper, we delve deeper into the architecture of LLMs and demonstrate that finer-grained pruning can be achieved by targeting redundancies in multi-head attention (MHA) and multi-layer perceptron (MLP) blocks. We propose a novel, training-free structured pruning approach called BlockPruner. Unlike existing layer pruning methods, BlockPruner segments each Transformer layer into MHA and MLP blocks. It then assesses the importance of these blocks using perplexity measures and applies a heuristic search for iterative pruning. We applied BlockPruner to LLMs of various sizes and architectures and validated its performance across a wide range of downstream tasks. Experimental results show that BlockPruner achieves more granular and effective pruning compared to state-of-the-art baselines. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-26 |
# 動的ドメイン、動的ソリューション: 連続的なテスト時間適応のためのDPCore
Dynamic Domains, Dynamic Solutions: DPCore for Continual Test-Time Adaptation ( http://arxiv.org/abs/2406.10737v2 ) ライセンス: Link先を確認 | Yunbei Zhang, Akshay Mehra, Jihun Hamm, | (参考訳) 連続テスト時間適応(CTTA)は、ソース事前訓練されたモデルを、継続的な変更、ラベルなしのターゲットドメインに適応させようとする。
既存のTTAメソッドは通常、ドメインの変更が順次発生する環境向けに設計されており、図1に示すように、より動的なシナリオで苦労する可能性がある。
オンラインK-Meansの原理に触発されて,視覚的プロンプトを通してCTTAに新しいアプローチを導入する。
我々は,これまで訪れたドメインから知識を保存するだけでなく,新たな潜在的ドメインからの学習も可能とする「emph{Dynamic Prompt Coreset」を提案する。
これは距離ベースの \emph{Weight Updating Mechanism {\displaystyle \emph{Weight Updating Mechanism} によって補完される。
提案手法では,コアセットに付随する固定モデルアーキテクチャと,破滅的な忘れ込みやエラー蓄積といった課題を効果的に軽減する革新的な更新システムを採用している。
広範に使用されている4つのベンチマークにおいて、我々の手法は構造化されたCTTA設定と動的CTTA設定の両方において最先端のCTTAタスクを一貫して上回り、99\%$トレーニング可能なパラメータを減らしていることを示す。
Continual Test-Time Adaptation (CTTA) seeks to adapt a source pre-trained model to continually changing, unlabeled target domains. Existing TTA methods are typically designed for environments where domain changes occur sequentially and can struggle in more dynamic scenarios, as illustrated in Figure \ref{fig:settings}. Inspired by the principles of online K-Means, we introduce a novel approach to CTTA through visual prompting. We propose a \emph{Dynamic Prompt Coreset} that not only preserves knowledge from previously visited domains but also accommodates learning from new potential domains. This is complemented by a distance-based \emph{Weight Updating Mechanism} that ensures the coreset remains current and relevant. Our approach employs a fixed model architecture alongside the coreset and an innovative updating system to effectively mitigate challenges such as catastrophic forgetting and error accumulation. Extensive testing on four widely-used benchmarks demonstrates that our method consistently outperforms state-of-the-art alternatives in both classification and segmentation CTTA tasks across the structured and dynamic CTTA settings, with $99\%$ fewer trainable parameters. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-26 |
# 科学的大規模言語モデルの包括的調査と科学的発見への応用
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery ( http://arxiv.org/abs/2406.10833v2 ) ライセンス: Link先を確認 | Yu Zhang, Xiusi Chen, Bowen Jin, Sheng Wang, Shuiwang Ji, Wei Wang, Jiawei Han, | (参考訳) 多くの科学分野において、大規模言語モデル(LLM)は、テキストやその他のデータ(例えば分子やタンパク質)の処理方法に革命をもたらし、様々な応用において優れた性能を達成し、科学的発見プロセスを強化する。
それにもかかわらず、科学 LLM に関する以前の調査は、しばしば1つまたは2つの分野または1つのモダリティに集中していた。
本稿では,学術的なLLMのアーキテクチャと事前学習技術との関係を明らかにすることで,研究の展望をより包括的に把握することを目的としている。
この目的のために,250以上の科学LLMを総合的に調査し,それらの共通点と相違点について考察するとともに,各分野とモダリティに関する事前学習データセットと評価タスクを要約した。
さらに,LLMが科学的発見のためにどのように展開されているかを検討する。
この調査に関するリソースは、https://github.com/yuzhimanhua/Awesome-Scientific-Language-Modelsで公開されている。
In many scientific fields, large language models (LLMs) have revolutionized the way text and other modalities of data (e.g., molecules and proteins) are handled, achieving superior performance in various applications and augmenting the scientific discovery process. Nevertheless, previous surveys on scientific LLMs often concentrate on one or two fields or a single modality. In this paper, we aim to provide a more holistic view of the research landscape by unveiling cross-field and cross-modal connections between scientific LLMs regarding their architectures and pre-training techniques. To this end, we comprehensively survey over 250 scientific LLMs, discuss their commonalities and differences, as well as summarize pre-training datasets and evaluation tasks for each field and modality. Moreover, we investigate how LLMs have been deployed to benefit scientific discovery. Resources related to this survey are available at https://github.com/yuzhimanhua/Awesome-Scientific-Language-Models. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-26 |
# 屋内3次元物体検出のための非教師なし領域適応
Syn-to-Real Unsupervised Domain Adaptation for Indoor 3D Object Detection ( http://arxiv.org/abs/2406.11311v2 ) ライセンス: Link先を確認 | Yunsong Wang, Na Zhao, Gim Hee Lee, | (参考訳) 室内3Dオブジェクト検出における合成データの利用は、3Dアノテーションと効果的なゼロショット検出器の訓練に関わる手作業を大幅に削減する可能性を秘めている。
しかし、シン・トゥ・リアル屋内データセット間の複雑なドメインシフトはいまだに未調査である。
本稿では,室内3次元物体検出における非教師なし領域適応のための新しいオブジェクト指向階層型ドメインアライメント(OHDA)フレームワークを提案する。
提案手法は,ソースドメインデータを効果的に多様化するためのオブジェクト認識拡張戦略を含む。また,汎用レベルとクラスレベルのドメインアライメントを同時に達成するために,逆トレーニングブランチと擬ラベリングブランチからなる2ブランチ適応フレームワークを導入する。
擬似ラベリングは、室内UDA用に特別に設計された2つのスキームによってさらに洗練されている。
合成データセット3D-FRONTから実世界のデータセットScanNetV2とSUN RGB-Dへの適応結果は、それぞれソースオンリーベースラインよりも9.7%と9.1%のmAP25の改善を示し、2Dおよび3D屋外シナリオから適用した手法を一貫して上回っている。
コードは、論文の受理時に公開される。
The use of synthetic data in indoor 3D object detection offers the potential of greatly reducing the manual labor involved in 3D annotations and training effective zero-shot detectors. However, the complicated domain shifts across syn-to-real indoor datasets remains underexplored. In this paper, we propose a novel Object-wise Hierarchical Domain Alignment (OHDA) framework for syn-to-real unsupervised domain adaptation in indoor 3D object detection. Our approach includes an object-aware augmentation strategy to effectively diversify the source domain data, and we introduce a two-branch adaptation framework consisting of an adversarial training branch and a pseudo labeling branch, in order to simultaneously reach holistic-level and class-level domain alignment. The pseudo labeling is further refined through two proposed schemes specifically designed for indoor UDA. Our adaptation results from synthetic dataset 3D-FRONT to real-world datasets ScanNetV2 and SUN RGB-D demonstrate remarkable mAP25 improvements of 9.7% and 9.1% over Source-Only baselines, respectively, and consistently outperform the methods adapted from 2D and 3D outdoor scenarios. The code will be publicly available upon paper acceptance. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-26 |
# 時間差学習における待ち時間ヒューリスティックのデミステレーション
Demystifying the Recency Heuristic in Temporal-Difference Learning ( http://arxiv.org/abs/2406.12284v2 ) ライセンス: Link先を確認 | Brett Daley, Marlos C. Machado, Martha White, | (参考訳) 強化学習における回帰ヒューリスティック(recency heuristic)とは、獲得した報酬に間に合った刺激が、より強く強化されるべきである、という仮定である。
直流ヒューリスティックはTD($\lambda$)によってなされた重要な仮定の1つであり、指数関数的に減衰する重み付けに従って最近の経験を補強する。
実際、他の広く使われているTD学習のための戻り値推定器(例えば$n$-step return)は、より弱い(非単調な)回帰ヒューリスティックを満たす。
経時的信用割当てになぜリレーレンシーヒューリスティックが有効か?
このヒューリスティックに反する方法でクレジットが割り当てられたらどうなるのか?
本稿では,直流ヒューリスティックをTD学習に適用する際の数学的意味を分析する。
このヒューリスティックを満たす回帰推定器を証明します。
1)は正しい値関数に収束することが保証される。
2)比較的速い収縮率で、
3) 効果的なクレジット割り当ての窓口は長いが、最悪の場合のばらつきがある。
また,直流ヒューリスティックな分岐に反する,オンラインな表型TD手法も提案する。
以上の結果から,直流ヒューリスティックに基づく信用割当が学習を促進するという理論的証拠が得られた。
The recency heuristic in reinforcement learning is the assumption that stimuli that occurred closer in time to an acquired reward should be more heavily reinforced. The recency heuristic is one of the key assumptions made by TD($\lambda$), which reinforces recent experiences according to an exponentially decaying weighting. In fact, all other widely used return estimators for TD learning, such as $n$-step returns, satisfy a weaker (i.e., non-monotonic) recency heuristic. Why is the recency heuristic effective for temporal credit assignment? What happens when credit is assigned in a way that violates this heuristic? In this paper, we analyze the specific mathematical implications of adopting the recency heuristic in TD learning. We prove that any return estimator satisfying this heuristic: 1) is guaranteed to converge to the correct value function, 2) has a relatively fast contraction rate, and 3) has a long window of effective credit assignment, yet bounded worst-case variance. We also give a counterexample where on-policy, tabular TD methods violating the recency heuristic diverge. Our results offer some of the first theoretical evidence that credit assignment based on the recency heuristic facilitates learning. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-26 |
# タキオンの共変量子場論は非物理的である
Covariant quantum field theory of tachyons is unphysical ( http://arxiv.org/abs/2406.14225v3 ) ライセンス: Link先を確認 | Krzysztof Jodłowski, | (参考訳) Paczos et al (Phys)。
D 110, 015006 (2024) は自由で相互作用するタキオン場に対する量子場理論を提案したが、これは以前の試みとは異なり共変であり、下からエネルギースペクトルが有界であり、ローレンツ不変(LI)真空である。
提案したタキオン場の可換体はLIではなく、無限の速度で動くタキオンを除いて微小な因果性に反することを示す。
提案したFeynman propagator (FP) はQEDと欠点のある類似性に基づいており、実際にユニタリティ違反を引き起こす。
2点時間順序相関関数である実際のFPは、LIでもグリーン関数でもない。
さらに、相互作用するタキオンのポテンシャルは、タキオン真空の安定性に影響を与えるタキオン自己相互作用を生成する量子補正から保護されないことが示されている。
我々の分析は、提案された理論は共変ではなく、タキオン真空は不安定であり、超光度観測者が物理的ではないことを示している。
したがって、拡張された相対性理論は無効であり、量子力学に類似した自然の非決定論的記述を導出することはできない。
Recently, Paczos et al. (Phys. Rev. D 110, 015006 (2024)) proposed a quantum field theory for free and interacting tachyon fields, which - unlike previous such attempts - is (claimed to be) covariant, have energy spectrum bounded from below, and Lorentz invariant (LI) vacuum. We show that the commutator of the proposed tachyon fields is not LI, and it violates microcausality except for tachyons moving with infinite speed. The proposed Feynman propagator (FP) is based on flawed analogy with QED and actually leads to unitarity violation. The actual FP, the two-point time-ordered correlation function, is neither LI nor a Green's function. Moreover, the potential for an interacting tachyon is shown to be unprotected from quantum corrections that generate tachyon self-interactions, which affects the stability of the tachyonic vacuum. Our analysis indicates that the proposed theory is not covariant, and that the tachyonic vacuum is likely unstable, indicating that superluminal observers are not physical. Therefore, the extended principle of relativity is void and cannot be used to derive nondeterministic description of Nature similar to quantum mechanics. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-26 |
# サイレンスを超えて: ロスによるバイアス分析と非対称アプローチ
Beyond Silence: Bias Analysis through Loss and Asymmetric Approach in Audio Anti-Spoofing ( http://arxiv.org/abs/2406.17246v2 ) ライセンス: Link先を確認 | Hye-jin Shim, Md Sahidullah, Jee-weon Jung, Shinji Watanabe, Tomi Kinnunen, | (参考訳) 音声の反偽造検出研究の現在の傾向は、様々な偽造品を識別することを学ぶことによって、目に見えない攻撃を一般化するモデルの能力を改善することを目指している。
この強調は、主にスプーフクラスに焦点を当てている。
近年、いくつかの研究で、沈黙の分布は2つのクラスによって異なることが指摘されており、これはショートカットとして機能する。
本稿では,沈黙を超えてクラスワイズ解釈を拡張する。
我々は、損失分析と非対称手法を用いて、従来の攻撃に焦点を当てた結果指向の評価から、モデル行動のより深い検証へと移行する。
本研究は,2つのクラス間のトレーニングダイナミクスの有意な差異を強調し,ボナフィドクラスの堅牢なモデリングに焦点を合わせるための今後の研究の必要性を強調した。
Current trends in audio anti-spoofing detection research strive to improve models' ability to generalize across unseen attacks by learning to identify a variety of spoofing artifacts. This emphasis has primarily focused on the spoof class. Recently, several studies have noted that the distribution of silence differs between the two classes, which can serve as a shortcut. In this paper, we extend class-wise interpretations beyond silence. We employ loss analysis and asymmetric methodologies to move away from traditional attack-focused and result-oriented evaluations towards a deeper examination of model behaviors. Our investigations highlight the significant differences in training dynamics between the two classes, emphasizing the need for future research to focus on robust modeling of the bonafide class. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-26 |
# QAOA-in-QAOAを用いたMaxCutのハイブリッド古典量子シミュレーション
Hybrid Classical-Quantum Simulation of MaxCut using QAOA-in-QAOA ( http://arxiv.org/abs/2406.17383v2 ) ライセンス: Link先を確認 | Aniello Esposito, Tamuz Danzig, | (参考訳) 量子近似最適化アルゴリズム(QAOA)は、複雑な組合せ最適化問題の解法である。
QAOA-in-QAOA (QAOA^2) は、多くのサブグラフ問題を並列に解くことができる大規模最大カット(MaxCut)問題を解くために、分割とコンカリストのヒューリスティックを使用する。
そこで本研究では,Classiq プラットフォームに基づく MaxCut 問題のスケーラブルな解に対する QAOA2 法の実装について述べる。
このフレームワークは、MPI(Message Passing Interface)とSLURMのワークロードマネージャを用いて、HPE-Cray EXスーパーコンピュータ上で実行される。
QAOA^2が古典的な部分グラフを解く利点があるかどうかを理解するために、QAOAの純粋に古典的な代替品としてのゴーマン・ウィリアムソン(GW)アルゴリズムの限界について検討した。
最大33量子ビットの大規模シミュレーションの結果は、特定のケースにおけるQAOAの利点と実装の効率、および実際の量子デバイスの準備におけるワークフローの妥当性を示す。
検討されたグラフに対して、サブグラフの最良の選択は、結果を著しく改善するものではなく、GWよりも優れています。
The Quantum approximate optimization algorithm (QAOA) is a leading hybrid classical-quantum algorithm for solving complex combinatorial optimization problems. QAOA-in-QAOA (QAOA^2) uses a divide-and-conquer heuristic to solve large-scale Maximum Cut (MaxCut) problems, where many subgraph problems can be solved in parallel. In this work, an implementation of the QAOA2 method for the scalable solution of the MaxCut problem is presented, based on the Classiq platform. The framework is executed on an HPE-Cray EX supercomputer by means of the Message Passing Interface (MPI) and the SLURM workload manager. The limits of the Goemans-Williamson (GW) algorithm as a purely classical alternative to QAOA are investigated to understand if QAOA^2 could benefit from solving certain sub-graphs classically. Results from large-scale simulations of up to 33 qubits are presented, showing the advantage of QAOA in certain cases and the efficiency of the implementation, as well as the adequacy of the workflow in the preparation of real quantum devices. For the considered graphs, the best choice for the sub-graphs does not significantly improve results and is still outperformed by GW. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-26 |
# 4つのステムを超える音源分離のためのステム非依存シングルデコーダシステム
A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems ( http://arxiv.org/abs/2406.18747v2 ) ライセンス: Link先を確認 | Karn N. Watcharasupat, Alexander Lerch, | (参考訳) オーディオソース分離の複数のサブタスクにまたがる最近の進歩にもかかわらず、4つのステムボーカル、ドラム、ベース、その他の(VDBO)設定以外の分離をサポートする音源分離システムはほとんどない。
このセットアップ以外のソース分離をサポートする現在のシステムの中で、ほとんどのシステムは、固定された定義済みのステムセットしかサポートできない、柔軟性のないデコーダのセットアップに依存している。
これらの非フレキシブルシステムにおけるステムサポートの増大は、計算複雑性の増大を必要とし、これらのシステムの拡張は、ロングテール機器では計算不可能である。
本研究では,1つのデコーダを用いて複数の幹のソース分離を可能にするシステムであるBanquetを提案する。
バンドスプリットソース分離モデルは、楽器認識PaSSTモデルと共にタンデムでクエリベースのセットアップで動作するように拡張される。
MoisesDBのデータセットでは、わずか24.9Mのトレーニング可能なパラメータで、VDBOステム上のより複雑な6ステムのハイブリッドトランスフォーマーデモークのパフォーマンスレベルにアプローチし、ギターとピアノでパフォーマンスを向上した。
クエリベースの設定により、クリーンなアコースティックギターのような細い楽器のクラスを分離することができ、リードやオルガンのようなあまり一般的でない茎の抽出にうまく適用することができる。
実装はhttps://github.com/kwatcharasupat/query-bandit.comで公開されている。
Despite significant recent progress across multiple subtasks of audio source separation, few music source separation systems support separation beyond the four-stem vocals, drums, bass, and other (VDBO) setup. Of the very few current systems that support source separation beyond this setup, most continue to rely on an inflexible decoder setup that can only support a fixed pre-defined set of stems. Increasing stem support in these inflexible systems correspondingly requires increasing computational complexity, rendering extensions of these systems computationally infeasible for long-tail instruments. In this work, we propose Banquet, a system that allows source separation of multiple stems using just one decoder. A bandsplit source separation model is extended to work in a query-based setup in tandem with a music instrument recognition PaSST model. On the MoisesDB dataset, Banquet, at only 24.9 M trainable parameters, approached the performance level of the significantly more complex 6-stem Hybrid Transformer Demucs on VDBO stems and outperformed it on guitar and piano. The query-based setup allows for the separation of narrow instrument classes such as clean acoustic guitars, and can be successfully applied to the extraction of less common stems such as reeds and organs. Implementation is available at https://github.com/kwatcharasupat/query-bandit. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-26 |
# 語彙データに対する機械学習モデルの評価に関するデータ中心的視点
A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data ( http://arxiv.org/abs/2407.02112v2 ) ライセンス: Link先を確認 | Andrej Tschalzev, Sascha Marton, Stefan Lüdtke, Christian Bartelt, Heiner Stuckenschmidt, | (参考訳) タブラルデータは実世界の機械学習アプリケーションで広く使われており、表形式のデータの教師付き学習のための新しいモデルが頻繁に提案されている。
モデルの性能を評価する比較研究は、典型的には、過度に標準化されたデータ前処理を伴うモデル中心の評価設定から成り立っている。
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、そのようなモデル中心の評価は偏りがあることを実証する。
そこで本研究では,データ中心評価フレームワークを提案する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
我々は、モデル選択、HPO、機能工学、テスト時間適応の影響を定量化するために、異なる前処理パイプラインとハイパーパラメータ最適化(HPO)システムを用いて実験を行う。
主な発見は次のとおりである。
1. データセット固有の特徴工学の後, モデルランキングは大幅に変化し, 性能差が減少し, モデル選択の重要性が低下する。
2.最近のモデルは、測定可能な進歩にもかかわらず、手動機能工学の恩恵は大きい。
これはツリーベースモデルとニューラルネットワークの両方に当てはまる。
3. 表形式のデータは一般的に静的と考えられるが, サンプルは時間とともに収集されることが多く, 分布シフトへの適応は, 静的と思われるデータにおいても重要である。
これらの洞察は、研究努力がデータ中心の視点に向けられるべきであることを示唆し、表形式のデータには機能エンジニアリングが必要であり、しばしば時間的特性が現れることを認めている。
私たちのフレームワークは、https://github.com/atschalz/dc_tabeval.com/で利用可能です。
Tabular data is prevalent in real-world machine learning applications, and new models for supervised learning of tabular data are frequently proposed. Comparative studies assessing the performance of models typically consist of model-centric evaluation setups with overly standardized data preprocessing. This paper demonstrates that such model-centric evaluations are biased, as real-world modeling pipelines often require dataset-specific preprocessing and feature engineering. Therefore, we propose a data-centric evaluation framework. We select 10 relevant datasets from Kaggle competitions and implement expert-level preprocessing pipelines for each dataset. We conduct experiments with different preprocessing pipelines and hyperparameter optimization (HPO) regimes to quantify the impact of model selection, HPO, feature engineering, and test-time adaptation. Our main findings are: 1. After dataset-specific feature engineering, model rankings change considerably, performance differences decrease, and the importance of model selection reduces. 2. Recent models, despite their measurable progress, still significantly benefit from manual feature engineering. This holds true for both tree-based models and neural networks. 3. While tabular data is typically considered static, samples are often collected over time, and adapting to distribution shifts can be important even in supposedly static data. These insights suggest that research efforts should be directed toward a data-centric perspective, acknowledging that tabular data requires feature engineering and often exhibits temporal characteristics. Our framework is available under: https://github.com/atschalz/dc_tabeval. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-26 |
# 機械学習アンサンブルにおける予測不安定性
Prediction Instability in Machine Learning Ensembles ( http://arxiv.org/abs/2407.03194v5 ) ライセンス: Link先を確認 | Jeremy Kedziora, | (参考訳) 機械学習では、複数のモデルからの予測が集約される。
応用問題におけるアンサンブルの広範な使用と強力な性能にもかかわらず、アグリゲーションモデルの数学的性質や、そのようなモデルの安全で説明可能な使用に関する結果についてはほとんど知られていない。
本稿では,任意のアンサンブルが以下の予測不安定性の少なくとも1つの形式を示すことを示す定理を証明した。
基礎となるすべてのモデル間の合意を無視したり、基礎となるモデルが存在しない場合、その考えを変更したり、実際に予測することのないオプションを除外したりすることで、操作可能になります。
結果として、アンサンブルアグリゲーションの手順は、情報利用の利点とこれらの予測不安定性のリスクのバランスをとる必要がある。
この分析はまた、特定のアンサンブルアルゴリズムから予想される特定の形の予測不安定性(例えば、ランダムな森やxgboostのような一般的な樹木のアンサンブル)が、基本的な直感的なフェアネス特性に反する、ということにも光を当てている。
最後に、これは漸近的条件下で一貫したモデルを用いて改善可能であることを示す。
In machine learning ensembles predictions from multiple models are aggregated. Despite widespread use and strong performance of ensembles in applied problems little is known about the mathematical properties of aggregating models and associated consequences for safe, explainable use of such models. In this paper we prove a theorem that shows that any ensemble will exhibit at least one of the following forms of prediction instability. It will either ignore agreement among all underlying models, change its mind when none of the underlying models have done so, or be manipulable through inclusion or exclusion of options it would never actually predict. As a consequence, ensemble aggregation procedures will always need to balance the benefits of information use against the risk of these prediction instabilities. This analysis also sheds light on what specific forms of prediction instability to expect from particular ensemble algorithms; for example popular tree ensembles like random forest, or xgboost will violate basic, intuitive fairness properties. Finally, we show that this can be ameliorated by using consistent models in asymptotic conditions. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-26 |
# 推論タスクにおけるLLM性能向上のための質問分析プロンプト
Question-Analysis Prompting Improves LLM Performance in Reasoning Tasks ( http://arxiv.org/abs/2407.03624v2 ) ライセンス: Link先を確認 | Dharunish Yugeswardeenoo, Kevin Zhu, Sean O'Brien, | (参考訳) LLMは、多くの分野を変換する可能性があるが、それでも推論タスクにおいて人間を過小評価している。
既存の手法は、ステップバイステップの計算をモデルに誘導するが、本研究では、問題を探究する。
本稿では,QAP(Qarguage Analysis Prompting)と呼ばれる新しいプロンプト戦略を提案する。
n$の値は、モデルによって生成されたレスポンスの長さに影響を与える。
算術データセット GSM8K, AQuA, SAT および常識データセット StrategyQA を用いて, GPT 3.5 Turbo と GPT 4 Turbo でQAPを評価した。
QAPは、Chain-of-Thought(CoT)、Plan and Solve Prompting(PS+)、Take A Deep Breath(TADB)といった最先端のプロンプトと比較される。
QAPは、GPT3.5とGPT4の両方でAQuAとSATのデータセットの最先端のプロンプトをすべて上回っている。
QAPは、テストの75%で、常にトップ2のプロンプトにランクインしている。
QAPのパフォーマンスの重要な要因は応答長であり、より難しい質問に答えるときに詳細な応答が有用であるが、簡単な質問に悪影響を及ぼす可能性がある。
Although LLMs have the potential to transform many fields, they still underperform humans in reasoning tasks. Existing methods induce the model to produce step-by-step calculations, but this research explores the question: Does making the LLM analyze the question improve its performance? We propose a novel prompting strategy called Question Analysis Prompting (QAP), in which the model is prompted to explain the question in $n$ words before solving. The value of $n$ influences the length of response generated by the model. QAP is evaluated on GPT 3.5 Turbo and GPT 4 Turbo on arithmetic datasets GSM8K, AQuA, and SAT and commonsense dataset StrategyQA. QAP is compared with other state-of-the-art prompts including Chain-of-Thought (CoT), Plan and Solve Prompting (PS+) and Take A Deep Breath (TADB). QAP outperforms all state-of-the-art prompts on AQuA and SAT datasets on both GPT3.5 and GPT4. QAP consistently ranks among the top-2 prompts on 75\% of the tests. A key factor of QAP performance can be attributed to response length, where detailed responses are beneficial when answering harder questions, but can negatively affect easy questions. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-26 |
# SpikeGS:素早く動くバイオインスパイアされたセンサーで3Dシーンを再構築
SpikeGS: Reconstruct 3D scene via fast-moving bio-inspired sensors ( http://arxiv.org/abs/2407.03771v2 ) ライセンス: Link先を確認 | Yijia Guo, Liwen Hu, Lei Ma, Tiejun Huang, | (参考訳) 3次元ガウススプラッティング(3DGS)は3次元シーン再構成において非並列的に優れた性能を示す。
しかし、3DGSはシャープな画像に大きく依存している。
この要件を満たすことは、特にカメラが速く動いた場合、現実のシナリオでは困難であり、3DGSの適用を著しく制限する。
これらの課題に対処するため、我々は、スパイクストリームを3DGSパイプラインに統合し、素早く動くバイオインスパイアされたカメラで3Dシーンを再構築する最初のフレームワークであるSpike Gausian Splatting (SpikeGS)を提案した。
蓄積ラスタ化、間隔の監督、特別に設計されたパイプラインにより、SpikeGSは高時間分解能から詳細な幾何学とテクスチャを抽出するが、スパイクストリームを欠いたテクスチャを抽出し、1秒で撮影された3Dシーンを再構成する。
複数の合成および実世界のデータセットに対する大規模な実験は、既存のスパイクベースの3Dシーン再構成法と比較して、SpikeGSの優位性を示している。
コードとデータはまもなくリリースされる。
3D Gaussian Splatting (3DGS) demonstrates unparalleled superior performance in 3D scene reconstruction. However, 3DGS heavily relies on the sharp images. Fulfilling this requirement can be challenging in real-world scenarios especially when the camera moves fast, which severely limits the application of 3DGS. To address these challenges, we proposed Spike Gausian Splatting (SpikeGS), the first framework that integrates the spike streams into 3DGS pipeline to reconstruct 3D scenes via a fast-moving bio-inspired camera. With accumulation rasterization, interval supervision, and a specially designed pipeline, SpikeGS extracts detailed geometry and texture from high temporal resolution but texture lacking spike stream, reconstructs 3D scenes captured in 1 second. Extensive experiments on multiple synthetic and real-world datasets demonstrate the superiority of SpikeGS compared with existing spike-based and deblur 3D scene reconstruction methods. Codes and data will be released soon. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-26 |
# M5 -- 多言語・多文化視覚言語課題における大規模マルチモーダルモデルの性能評価のための多変量ベンチマーク
M5 -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks ( http://arxiv.org/abs/2407.03791v2 ) ライセンス: Link先を確認 | Florian Schneider, Sunayana Sitaram, | (参考訳) ChatGPTのリリース以来、自然言語処理の分野は、特にLarge Language Models (LLMs)とそのマルチモーダルモデルであるLarge Multimodal Models (LMMs)において、急速に進歩してきた。
その印象的な能力にもかかわらず、LLMは様々なテキストのみのベンチマークで示されるように、様々な言語や文化的文脈で大きなパフォーマンス格差を示すことが多い。
しかし、現在の研究ではマルチモーダルビオラスティックな設定のためのベンチマークが欠落している。
この研究は、多言語および多文化の文脈における多様な視覚言語タスクのLMMを評価するために設計された最初の総合ベンチマークであるM5を導入することで、このギャップを埋める。
M5には5つのタスクと41ドルの言語をカバーする8つのデータセットが含まれている。
さらに,M5-VGRとM5-VLODという2つの新しいデータセットを導入し,新しいVisio-Linguistic Outlier Detectionタスクを導入した。
広範囲な評価と分析を通じて,高次言語と低次言語のタスク非依存性能の相違を強調した。
さらに、より大規模なモデルは、多言語環境では必ずしもより小さなモデルよりも優れているとは限らないことを示す。
Since the release of ChatGPT, the field of Natural Language Processing has experienced rapid advancements, particularly in Large Language Models (LLMs) and their multimodal counterparts, Large Multimodal Models (LMMs). Despite their impressive capabilities, LLMs often exhibit significant performance disparities across different languages and cultural contexts, as demonstrated by various text-only benchmarks. However, current research lacks such benchmarks for multimodal visio-linguistic settings. This work fills this gap by introducing M5, the first comprehensive benchmark designed to evaluate LMMs on diverse vision-language tasks within a multilingual and multicultural context. M5 includes eight datasets covering five tasks and $41$ languages, with a focus on underrepresented languages and culturally diverse images. Furthermore, we introduce two novel datasets, M5-VGR and M5-VLOD, including a new Visio-Linguistic Outlier Detection task, in which all evaluated open-source models fail to significantly surpass the random baseline. Through extensive evaluation and analyses, we highlight substantial task-agnostic performance disparities between high- and low-resource languages. Moreover, we show that larger models do not necessarily outperform smaller ones in a multilingual setting. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-26 |
# 電力グリッドのためのグラフ強化学習:包括的調査
Graph Reinforcement Learning for Power Grids: A Comprehensive Survey ( http://arxiv.org/abs/2407.04522v3 ) ライセンス: Link先を確認 | Mohamed Hassouna, Clara Holzhüter, Pawel Lytaev, Josephine Thomas, Bernhard Sick, Christoph Scholz, | (参考訳) 再生可能エネルギーと分散型発電の台頭は、従来の方法の限界を克服するための新しいアプローチを必要とする。
この文脈では、グラフ構造化データから学習できるため、グラフニューラルネットワークは有望である。
強化学習(Reinforcement Learning)と組み合わせることで、リメディアルネットワークアクションを決定するための制御アプローチとして機能する。
本稿では,グラフ強化学習(GRL)が電力グリッドのユースケースにおける表現学習と意思決定をいかに改善できるかを概観する。
GRLは予測不可能な事象やノイズの多いデータへの適応性を示したが、主に概念実証段階にある。
現実世界のアプリケーションに関して、オープンな課題と制限を強調します。
The rise of renewable energy and distributed generation requires new approaches to overcome the limitations of traditional methods. In this context, Graph Neural Networks are promising due to their ability to learn from graph-structured data. Combined with Reinforcement Learning, they can serve as control approaches to determine remedial network actions. This review analyses how Graph Reinforcement Learning (GRL) can improve representation learning and decision making in power grid use cases. Although GRL has demonstrated adaptability to unpredictable events and noisy data, it is primarily at a proof-of-concept stage. We highlight open challenges and limitations with respect to real-world applications. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-26 |
# Helios:常時オンのスマートアイウェアのための極めて低消費電力なイベントベースのジェスチャー認識
Helios: An extremely low power event-based gesture recognition for always-on smart eyewear ( http://arxiv.org/abs/2407.05206v4 ) ライセンス: Link先を確認 | Prarthana Bhattacharyya, Joshua Mitton, Ryan Page, Owen Morgan, Ben Menzies, Gabriel Homewood, Kemi Jacobs, Paolo Baesso, David Trickett, Chris Mair, Taru Muhonen, Rory Clark, Louis Berridge, Richard Vigars, Iain Wallace, | (参考訳) 本稿では,スマートアイウェアの日中使用用に設計された,非常に低消費電力でリアルタイムなイベントベースの手ジェスチャー認識システムであるHeliosを紹介する。
拡張現実(AR)が進化するにつれて、Meta Ray-Bansのような現在のスマートグラスは、機能を犠牲にして視覚とウェアラブルの快適さを優先する。
これらのデバイスに既存のヒューマンマシンインタフェース(HMI)(Capacitive Touch and Voice Control)は、エルゴノミクス、プライバシ、電力消費の制限を提示する。
Heliosは、より直感的で快適なユーザエクスペリエンスのために、自然なハンドインタラクションを活用することで、これらの課題に対処する。
本システムは,超低消費電力でコンパクトな3mmx4mm/20mWイベントカメラを用いて,常時オン型スマートアイウェアの自然な手動ジェスチャー認識を行う。
カメラの出力は、NXP Nano UltraLite計算プラットフォーム上で動作する畳み込みニューラルネットワーク(CNN)によって処理され、350mW未満を消費する。
Heliosは、スワイプやピンチなどの微妙なマイクロジェスチャーを含む7種類のジェスチャーを91%の精度で認識できる。
また、60ミリ秒という極めて低いレイテンシで、20ユーザにわたるリアルタイムパフォーマンスを実演しています。
ユーザテストの結果は、先日のAWE-USA-2024でのデモで得られた肯定的なフィードバックと一致しています。
This paper introduces Helios, the first extremely low-power, real-time, event-based hand gesture recognition system designed for all-day on smart eyewear. As augmented reality (AR) evolves, current smart glasses like the Meta Ray-Bans prioritize visual and wearable comfort at the expense of functionality. Existing human-machine interfaces (HMIs) in these devices, such as capacitive touch and voice controls, present limitations in ergonomics, privacy and power consumption. Helios addresses these challenges by leveraging natural hand interactions for a more intuitive and comfortable user experience. Our system utilizes a extremely low-power and compact 3mmx4mm/20mW event camera to perform natural hand-based gesture recognition for always-on smart eyewear. The camera's output is processed by a convolutional neural network (CNN) running on a NXP Nano UltraLite compute platform, consuming less than 350mW. Helios can recognize seven classes of gestures, including subtle microgestures like swipes and pinches, with 91% accuracy. We also demonstrate real-time performance across 20 users at a remarkably low latency of 60ms. Our user testing results align with the positive feedback we received during our recent successful demo at AWE-USA-2024. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-26 |
# 物理世界とサイバー空間の整合性: 体操AIに関する包括的調査
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI ( http://arxiv.org/abs/2407.06886v7 ) ライセンス: Link先を確認 | Yang Liu, Weixing Chen, Yongjie Bai, Xiaodan Liang, Guanbin Li, Wen Gao, Liang Lin, | (参考訳) Embodied Artificial Intelligence (Embodied AI)は、AGI(Artificial General Intelligence)を達成するために不可欠であり、サイバースペースと物理世界を橋渡しする様々なアプリケーションの基盤として機能する。
近年,MLM(Multi-modal Large Models)やWM(World Models)の出現が注目されている。
しかし、MLMの時代には、Embodied AIに関する包括的な調査は行われていない。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
まず,ロボットとシミュレータの代表的な研究の最前線をナビゲートし,研究の焦点とその限界を十分に理解する。
そして、主な研究対象を4つ分析する。
1)知覚の具体化。
2) 相互作用の具体化。
3)具体化剤、及び
4)シム・トゥ・リアルな適応、最先端の手法、必須パラダイム、包括的なデータセットを網羅する。
さらに,仮想および実実施エージェントにおけるMLMの複雑さを考察し,動的デジタルおよび物理環境における相互作用を促進することの重要性を強調した。
最後に、具体化AIの課題と限界を要約し、今後の方向性について論じる。
この調査が研究コミュニティの基礎的な参考として役立ち、継続的なイノベーションを刺激することを期待しています。
関連するプロジェクトはhttps://github.com/HCPLab-SYSU/Embodied_AI_Paper_Listにある。
Embodied Artificial Intelligence (Embodied AI) is crucial for achieving Artificial General Intelligence (AGI) and serves as a foundation for various applications that bridge cyberspace and the physical world. Recently, the emergence of Multi-modal Large Models (MLMs) and World Models (WMs) have attracted significant attention due to their remarkable perception, interaction, and reasoning capabilities, making them a promising architecture for the brain of embodied agents. However, there is no comprehensive survey for Embodied AI in the era of MLMs. In this survey, we give a comprehensive exploration of the latest advancements in Embodied AI. Our analysis firstly navigates through the forefront of representative works of embodied robots and simulators, to fully understand the research focuses and their limitations. Then, we analyze four main research targets: 1) embodied perception, 2) embodied interaction, 3) embodied agent, and 4) sim-to-real adaptation, covering the state-of-the-art methods, essential paradigms, and comprehensive datasets. Additionally, we explore the complexities of MLMs in virtual and real embodied agents, highlighting their significance in facilitating interactions in dynamic digital and physical environments. Finally, we summarize the challenges and limitations of embodied AI and discuss their potential future directions. We hope this survey will serve as a foundational reference for the research community and inspire continued innovation. The associated project can be found at https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List. | 翻訳日:2024-08-27 22:47:47 公開日:2024-08-26 |
# Remastering Divide and Remaster: マルチ言語サポートを備えたシネマティックオーディオソース分離データセット
Remastering Divide and Remaster: A Cinematic Audio Source Separation Dataset with Multilingual Support ( http://arxiv.org/abs/2407.07275v2 ) ライセンス: Link先を確認 | Karn N. Watcharasupat, Chih-Wei Wu, Iroro Orife, | (参考訳) 映像音源分離(CASS)は,音声音源分離の比較的新しいサブタスクである。
現在、CASSで利用可能なデータセットは、Divide and Remaster(DnR)データセットのみである。
DnR v2はCASSにとって非常に有用なリソースであるが、特に2023年のサウンド・デミックス・チャレンジ(Sound Demixing Challenge)においていくつかの改善点が特定されている。
本研究では,DnRデータセットのバージョン3を開発し,非対話幹の音声内容,大音量分布,習得過程,言語多様性に関する問題に対処する。
特に、DnR v3の対話語幹には、ゲルマン語、ロマンス語、インド・アーリア語、ドラヴィディア語、マラヨ・ポリネシア語、バントゥー語を含む複数の語族の30以上の言語からの音声コンテンツが含まれている。
Banditモデルを用いたベンチマーク結果から,データ可用性の低い言語であっても,多言語データのトレーニングがモデルに多大な一般化性をもたらすことが示唆された。
高いデータ可用性を持つ言語でも、多言語モデルはモノリンガルCASSデータセットでトレーニングされた専用モデルよりも、同等かそれ以上で実行されることが多い。
Datasetとモデルの実装はhttps://github.com/kwatcharasupat/source-separation-landing.comで公開される。
Cinematic audio source separation (CASS), as a problem of extracting the dialogue, music, and effects stems from their mixture, is a relatively new subtask of audio source separation. To date, only one publicly available dataset exists for CASS, that is, the Divide and Remaster (DnR) dataset, which is currently at version 2. While DnR v2 has been an incredibly useful resource for CASS, several areas of improvement have been identified, particularly through its use in the 2023 Sound Demixing Challenge. In this work, we develop version 3 of the DnR dataset, addressing issues relating to vocal content in non-dialogue stems, loudness distributions, mastering process, and linguistic diversity. In particular, the dialogue stem of DnR v3 includes speech content from more than 30 languages from multiple families including but not limited to the Germanic, Romance, Indo-Aryan, Dravidian, Malayo-Polynesian, and Bantu families. Benchmark results using the Bandit model indicated that training on multilingual data yields significant generalizability to the model even in languages with low data availability. Even in languages with high data availability, the multilingual model often performs on par or better than dedicated models trained on monolingual CASS datasets. Dataset and model implementation will be made available at https://github.com/kwatcharasupat/source-separation-landing. | 翻訳日:2024-08-27 22:47:47 公開日:2024-08-26 |
# 知識集約型タスクのための軌道学習を用いた相乗的多エージェントフレームワーク
Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks ( http://arxiv.org/abs/2407.09893v2 ) ライセンス: Link先を確認 | Shengbin Yue, Siyuan Wang, Wei Chen, Xuanjing Huang, Zhongyu Wei, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらしている。
しかし, 覚醒, 長期的知識獲得の難しさ, メモリ拡張の制限などの問題により, 知識集約シナリオにおいて, 現実的に一貫した応答を生成することは依然として課題である。
本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
SMARTは4つの特殊エージェントから構成され、それぞれが複雑な知識集約タスクをナビゲートするための特定のサブ軌道アクションを実行する。
本稿では,エージェント間の相乗的協調を保証するとともに,エージェント毎のきめ細かい実行を維持できるマルチエージェント協調学習パラダイムであるLong-Short Trajectory Learningを提案する。
5つの知識集約的なタスクに関する大規模な実験は、SMARTが広く採用されている知識の内部化と知識強化手法と比較して優れた性能を示した。
私たちのフレームワークは、知識集約的なタスクから、より複雑なシナリオにまで拡張できます。
私たちのコードはhttps://github.com/yueshengbin/SMART.comから入手可能です。
Recent advancements in Large Language Models (LLMs) have led to significant breakthroughs in various natural language processing tasks. However, generating factually consistent responses in knowledge-intensive scenarios remains a challenge due to issues such as hallucination, difficulty in acquiring long-tailed knowledge, and limited memory expansion. This paper introduces SMART, a novel multi-agent framework that leverages external knowledge to enhance the interpretability and factual consistency of LLM-generated responses. SMART comprises four specialized agents, each performing a specific sub-trajectory action to navigate complex knowledge-intensive tasks. We propose a multi-agent co-training paradigm, Long-Short Trajectory Learning, which ensures synergistic collaboration among agents while maintaining fine-grained execution by each agent. Extensive experiments on five knowledge-intensive tasks demonstrate SMART's superior performance compared to widely adopted knowledge internalization and knowledge enhancement methods. Our framework can extend beyond knowledge-intensive tasks to more complex scenarios. Our code is available at https://github.com/yueshengbin/SMART. | 翻訳日:2024-08-27 22:47:47 公開日:2024-08-26 |
# AdapTable:Shift-Aware Uncertainty Calibrator と Label Distribution Handler によるタブラルデータのテスト時間適応
AdapTable: Test-Time Adaptation for Tabular Data via Shift-Aware Uncertainty Calibrator and Label Distribution Handler ( http://arxiv.org/abs/2407.10784v3 ) ライセンス: Link先を確認 | Changhun Kim, Taewon Kim, Seungyeon Woo, June Yong Yang, Eunho Yang, | (参考訳) 現実のシナリオでは、表データはしばしば、機械学習モデルのパフォーマンスを脅かす分散シフトに悩まされる。
その頻度と重要性にもかかわらず、表データ自体に固有の課題があるため、表領域における分布シフトの扱いはいまだに探索されていない。
この意味で、テスト時間適応(TTA)は、プライバシに敏感な表ドメインにとって重要なソースデータにアクセスせずに、ターゲットデータにモデルを適用することで、有望なソリューションを提供する。
しかし、既存のTTAメソッドもそうである。
1)表の分布シフトの性質を見落とし、しばしばラベルの分布シフトにかかわる
2) モデルにアーキテクチャ上の制約を課し、適用性の欠如につながります。
そこで本稿では,表データのための新しいTTAフレームワークであるAdapTableを提案する。
AdapTableは以下の2段階で動作する。
1)シフト対応不確実性校正器を用いたモデル予測の校正、及び
2) 対象ラベル分布とラベル分布ハンドラとを一致させるためにこれらの予測を調整する。
本稿では,AdapTableの有効性を理論的解析および様々な分散シフトシナリオに関する広範な実験を通じて検証する。
以上の結果から,HELOCデータセットでは最大16%の改善が達成された。
In real-world scenarios, tabular data often suffer from distribution shifts that threaten the performance of machine learning models. Despite its prevalence and importance, handling distribution shifts in the tabular domain remains underexplored due to the inherent challenges within the tabular data itself. In this sense, test-time adaptation (TTA) offers a promising solution by adapting models to target data without accessing source data, crucial for privacy-sensitive tabular domains. However, existing TTA methods either 1) overlook the nature of tabular distribution shifts, often involving label distribution shifts, or 2) impose architectural constraints on the model, leading to a lack of applicability. To this end, we propose AdapTable, a novel TTA framework for tabular data. AdapTable operates in two stages: 1) calibrating model predictions using a shift-aware uncertainty calibrator, and 2) adjusting these predictions to match the target label distribution with a label distribution handler. We validate the effectiveness of AdapTable through theoretical analysis and extensive experiments on various distribution shift scenarios. Our results demonstrate AdapTable's ability to handle various real-world distribution shifts, achieving up to a 16% improvement on the HELOC dataset. | 翻訳日:2024-08-27 22:47:47 公開日:2024-08-26 |
# エンジニア付きラテント空間距離を用いたグラフニューラルネットワークポテンシャルの不確かさ推定の改善
Improved Uncertainty Estimation of Graph Neural Network Potentials Using Engineered Latent Space Distances ( http://arxiv.org/abs/2407.10844v2 ) ライセンス: Link先を確認 | Joseph Musielewicz, Janice Lan, Matt Uyttendaele, John R. Kitchin, | (参考訳) グラフニューラルネットワーク(GNN)は、特に新しい物質発見のための緩和エネルギーの高価な密度汎関数理論計算のためのサロゲートとして、分子特性予測のための驚くほど有能なモデルであることが示されている。
しかし、この文脈におけるGNNの制限の1つは、物質発見パイプラインにとって重要であるため、有用な不確実性予測手法が欠如していることである。
本研究では、構造最適化が誤差分布に与える影響から、緩和エネルギー計算の不確実性定量化は他の分子特性予測の不確実性定量化よりも複雑であることを示す。
本研究では,GNNの校正,校正,再校正,不確実性予測手法の開発において,分散フリー手法がより有用なツールであることが示唆された。
また,分散のない再校正とOpen Catalyst Projectデータセットを用いた同変GNNの不確実性評価のための緩和エネルギータスクも開発した。
我々は,この課題に対する一般的な不確実性予測手法のセットをベンチマークし,新しい改良とともに,遅延距離法が緩和エネルギー計算における最もよく校正された経済的な手法であることを示す。
最後に、我々の潜在空間距離法は、クラスタリングの例、および特定の状態方程式、およびトレーニングデータセットの外部からのカバレッジ例に基づいて、我々の期待に沿う結果を生成することを実証する。
Graph neural networks (GNNs) have been shown to be astonishingly capable models for molecular property prediction, particularly as surrogates for expensive density functional theory calculations of relaxed energy for novel material discovery. However, one limitation of GNNs in this context is the lack of useful uncertainty prediction methods, as this is critical to the material discovery pipeline. In this work, we show that uncertainty quantification for relaxed energy calculations is more complex than uncertainty quantification for other kinds of molecular property prediction, due to the effect that structure optimizations have on the error distribution. We propose that distribution-free techniques are more useful tools for assessing calibration, recalibrating, and developing uncertainty prediction methods for GNNs performing relaxed energy calculations. We also develop a relaxed energy task for evaluating uncertainty methods for equivariant GNNs, based on distribution-free recalibration and using the Open Catalyst Project dataset. We benchmark a set of popular uncertainty prediction methods on this task, and show that latent distance methods, with our novel improvements, are the most well-calibrated and economical approach for relaxed energy calculations. Finally, we demonstrate that our latent space distance method produces results which align with our expectations on a clustering example, and on specific equation of state and adsorbate coverage examples from outside the training dataset. | 翻訳日:2024-08-27 22:47:47 公開日:2024-08-26 |
# パスを作る - 情報検索のためのロバストなクエリ書き換え
Crafting the Path: Robust Query Rewriting for Information Retrieval ( http://arxiv.org/abs/2407.12529v2 ) ライセンス: Link先を確認 | Ingeol Baek, Jimin Lee, Joonho Yang, Hwanhee Lee, | (参考訳) クエリの書き直しは、元のクエリを補完して情報検索システムを改善する新しいクエリを生成することを目的としている。
query2doc、Query2expand、querey2cotなどのクエリ書き換えに関する最近の研究は、クエリに情報を追加するための関連するパスを生成するために、Large Language Models (LLMs)の内部知識に依存している。
それでも、これらの方法論の有効性は、モデル固有のパラメータに必須知識がカプセル化されていない場合において著しく低下する可能性がある。
本稿では,検索システム用に最適化された Crafting the Path という,構造化されたクエリ書き換え手法を提案する。
Pathを作るには3段階のプロセスが必要で、各ステップで検索されるパスを見つけるのに必要なクエリ関連情報を作成する。
具体的には、Crafting the PathはQuery Concept Comprehensionから始まり、Query Type Identificationに進み、最後に期待されたAnswer extractを実行する。
実験結果から,本手法は従来の書き直し手法,特にLLMの慣れ親しみのない領域において,優れた性能を示した。
本研究では,本手法がモデルの内部パラメータの知識に依存せず,事実的不正確なクエリを生成することを示す。
さらに,検索拡張生成シナリオにおいて,name{} が優れた性能を示すことを示す。
Query rewriting aims to generate a new query that can complement the original query to improve the information retrieval system. Recent studies on query rewriting, such as query2doc, query2expand and querey2cot, rely on the internal knowledge of Large Language Models (LLMs) to generate a relevant passage to add information to the query. Nevertheless, the efficacy of these methodologies may markedly decline in instances where the requisite knowledge is not encapsulated within the model's intrinsic parameters. In this paper, we propose a novel structured query rewriting method called Crafting the Path tailored for retrieval systems. Crafting the Path involves a three-step process that crafts query-related information necessary for finding the passages to be searched in each step. Specifically, the Crafting the Path begins with Query Concept Comprehension, proceeds to Query Type Identification, and finally conducts Expected Answer Extraction. Experimental results show that our method outperforms previous rewriting methods, especially in less familiar domains for LLMs. We demonstrate that our method is less dependent on the internal parameter knowledge of the model and generates queries with fewer factual inaccuracies. Furthermore, we observe that \name{} demonstrates superior performance in the retrieval-augmented generation scenarios. | 翻訳日:2024-08-27 22:47:47 公開日:2024-08-26 |
# 多項式表現による自律走行における軌道予測のアウト・オブ・ディストリビューション一般化の改善
Improving Out-of-Distribution Generalization of Trajectory Prediction for Autonomous Driving via Polynomial Representations ( http://arxiv.org/abs/2407.13431v2 ) ライセンス: Link先を確認 | Yue Yao, Shengchao Yan, Daniel Goehring, Wolfram Burgard, Joerg Reichardt, | (参考訳) OoD(Out-of-Distribution)サンプルに対するロバスト性は、軌道予測モデルの重要な性能指標である。
しかし、最先端(SotA)モデルの開発とランキングは、個々の競合データセット上でのID(In-Distribution)パフォーマンスによって駆動される。
本稿では,2つの大規模動作データセット間でデータセットと予測タスクを均質化するOoDテストプロトコルを提案する。
本稿では,エージェント軌道の多項式表現と,入力側と出力側の両方の道路形状に基づく新しい予測アルゴリズムを提案する。
モデルのサイズ、トレーニングの労力、推論時間を大幅に小さくすることで、IDテストのSotAに近いパフォーマンスに達し、OoDテストの堅牢性を大幅に向上します。
OoDテストプロトコルでは、SotAモデルの2つの拡張戦略とモデル一般化に対するそれらの効果についてさらに検討する。
軌道予測モデルの評価基準にOoDテストを追加することを提案する。
Robustness against Out-of-Distribution (OoD) samples is a key performance indicator of a trajectory prediction model. However, the development and ranking of state-of-the-art (SotA) models are driven by their In-Distribution (ID) performance on individual competition datasets. We present an OoD testing protocol that homogenizes datasets and prediction tasks across two large-scale motion datasets. We introduce a novel prediction algorithm based on polynomial representations for agent trajectory and road geometry on both the input and output sides of the model. With a much smaller model size, training effort, and inference time, we reach near SotA performance for ID testing and significantly improve robustness in OoD testing. Within our OoD testing protocol, we further study two augmentation strategies of SotA models and their effects on model generalization. Highlighting the contrast between ID and OoD performance, we suggest adding OoD testing to the evaluation criteria of trajectory prediction models. | 翻訳日:2024-08-27 22:47:47 公開日:2024-08-26 |
# SNNGX:RRAMベースのニューロモルフィック加速器上での遺伝的XOR暗号化によるスパイクニューラルネットワークのセキュア化
SNNGX: Securing Spiking Neural Networks with Genetic XOR Encryption on RRAM-based Neuromorphic Accelerator ( http://arxiv.org/abs/2407.15152v2 ) ライセンス: Link先を確認 | Kwunhang Wong, Songqi Wang, Wei Huang, Xinyuan Zhang, Yangu He, Karl M. H. Lai, Yuzhong Jiao, Ning Lin, Xiaojuan Qi, Xiaoming Chen, Zhongrui Wang, | (参考訳) スパイクスパシティを特徴とする生物学的にもっともらしいスパイキングニューラルネットワーク(SNN)は、人工知能ニューラルネットワーク(ANN)と比較して、知的エッジデバイスや重要なバイオメディカル応用に対して大きな注目を集めている。
しかしながら、攻撃者はよく訓練されたSNNを利益とホワイトボックスの敵の懸念のために活用できるため、悪意あるSNNからホワイトボックス情報(すなわち重み)を抽出しようとする試みからかなりのリスクがある。
知的財産権(IP)の保護措置は困難である。
本稿では,SNNのIPを保護するために,セキュアなソフトウェアハードウェアを共設計したRRAMベースのニューロモルフィックアクセラレータを提案する。
ソフトウェア面では、暗号化を必要とする最小限の重みをターゲットとして、古典的なXOR暗号化を備えた調整された遺伝的アルゴリズムを設計する。
ハードウェアの観点からは,復号遅延をゼロにする低エネルギー復号モジュールを開発した。
NMNIST, DVSGesture, EEGMMIDB, Braille Letter, SHD などの各種データセットによる広範な結果から, 提案手法は, 極小のステルスウェイトビットを0.00005%から0.016%で暗号化することにより, SNN を効果的に保護することを示した。
さらに、x59からx6780までのエネルギー消費を大幅に削減し、x175からx4250までの復号遅延を大幅に低減する。
さらに,本手法では,クラスタ毎に1つのサンプルを暗号化し,ヘシアン/漸進的な探索不感な問題に対処する。
この戦略は、多様なアプリケーションでSNNをセキュアにするための、非常に効率的で柔軟なソリューションを提供する。
Biologically plausible Spiking Neural Networks (SNNs), characterized by spike sparsity, are growing tremendous attention over intellectual edge devices and critical bio-medical applications as compared to artificial neural networks (ANNs). However, there is a considerable risk from malicious attempts to extract white-box information (i.e., weights) from SNNs, as attackers could exploit well-trained SNNs for profit and white-box adversarial concerns. There is a dire need for intellectual property (IP) protective measures. In this paper, we present a novel secure software-hardware co-designed RRAM-based neuromorphic accelerator for protecting the IP of SNNs. Software-wise, we design a tailored genetic algorithm with classic XOR encryption to target the least number of weights that need encryption. From a hardware perspective, we develop a low-energy decryption module, meticulously designed to provide zero decryption latency. Extensive results from various datasets, including NMNIST, DVSGesture, EEGMMIDB, Braille Letter, and SHD, demonstrate that our proposed method effectively secures SNNs by encrypting a minimal fraction of stealthy weights, only 0.00005% to 0.016% weight bits. Additionally, it achieves a substantial reduction in energy consumption, ranging from x59 to x6780, and significantly lowers decryption latency, ranging from x175 to x4250. Moreover, our method requires as little as one sample per class in dataset for encryption and addresses hessian/gradient-based search insensitive problems. This strategy offers a highly efficient and flexible solution for securing SNNs in diverse applications. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-26 |
# 深部絡み付き処理効果評価における無関係変数の影響について
On the Effects of Irrelevant Variables in Treatment Effect Estimation with Deep Disentanglement ( http://arxiv.org/abs/2407.20003v2 ) ライセンス: Link先を確認 | Ahmad Saeed Khan, Erik Schaffernicht, Johannes Andreas Stork, | (参考訳) 医療、教育、経済学では、観察データから治療効果を推定することが最重要であるが、現在、選択バイアスに対処する深い絡み合いに基づく方法では、無関係な変数を十分に扱えない。
実験では、これが予測誤差につながることを示す。
深層埋込法により前処理変数をアンタングルし,無関係な変数を明示的に識別し,表現する。
この目的を達成するために、アタッチメントされたオートエンコーダを用いて、無関係変数に対する再構成目標を導入し、埋め込み空間を作成する。
従来の深遠角化アプローチのように無関係変数のセレンディピティー抑制に頼る代わりに、無関係変数をこの埋め込み空間に明示的に強制し、無関係情報が他の因子の潜在空間表現に漏れることを防ぐために直交化を用いる。
実世界および実世界のベンチマーク・データセットを用いた実験により,無関係変数を同定し,従来手法よりも精度の高い処理効果を予測できる一方で,付加的無関係変数を導入すると予測品質が低下することが示された。
Estimating treatment effects from observational data is paramount in healthcare, education, and economics, but current deep disentanglement-based methods to address selection bias are insufficiently handling irrelevant variables. We demonstrate in experiments that this leads to prediction errors. We disentangle pre-treatment variables with a deep embedding method and explicitly identify and represent irrelevant variables, additionally to instrumental, confounding and adjustment latent factors. To this end, we introduce a reconstruction objective and create an embedding space for irrelevant variables using an attached autoencoder. Instead of relying on serendipitous suppression of irrelevant variables as in previous deep disentanglement approaches, we explicitly force irrelevant variables into this embedding space and employ orthogonalization to prevent irrelevant information from leaking into the latent space representations of the other factors. Our experiments with synthetic and real-world benchmark datasets show that we can better identify irrelevant variables and more precisely predict treatment effects than previous methods, while prediction quality degrades less when additional irrelevant variables are introduced. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-26 |
# 半構造適応スパース学習を用いた大規模言語モデルの構築
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training ( http://arxiv.org/abs/2407.20584v2 ) ライセンス: Link先を確認 | Weiyu Huang, Yuezhou Hu, Guohao Jian, Jun Zhu, Jianfei Chen, | (参考訳) 様々な複雑なタスクにわたる大規模言語モデル(LLM)の驚異的な成功は、その相当な規模に大きく依存しています。
近年, ワンショットプルーニング法を用いてLLMを圧縮する研究が数多く行われている。
しかし、これらの手法は複雑な言語理解タスクにおいてかなりの性能劣化を経験し、LLMにおけるプルーニングの可能性に疑問を投げかける。
この問題に対処するために,適応スパーストレーナー (AST) と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
従来のワンショットプルーニング法とは異なり、ASTは、トレーニングプロセスを通して、モデルを適応的にマスクを選択することを可能にしながら、マスクの重みに減衰を施すことによって、密度の高いモデルをスパースモデルに段階的に変換する。
さらに,教師が高密度モデルを用いて蒸留を行うことで,スパースモデルが局所最適状態に陥るのを防止し,収束を加速できることを示す。
さらに,メモリフットプリントが最小限に抑えられ,モデル性能をさらに向上させるために,高度に初期化パラメータを付加した。
ASTはモデル性能を大幅に向上させ、高密度モデルのレベルに近づくことができる。
LLaMA2-7Bモデルに適用すると、ASTは密集したスパースモデルと半構造化されたスパースモデルのゼロショット精度ギャップを複数のゼロショットタスクで1.12%に減らし、事前訓練されたトークンの0.4%未満を利用する。
本研究は,半構造化されたスパース言語モデルの展開の実現可能性を示すとともに,既存の量子化技術と組み合わせることで,高度に圧縮されたモデルを実現する新しい手法を提案する。
The tremendous success of Large Language Models (LLMs) across various complex tasks relies heavily on their substantial scale, which raises challenges during model deployment due to their large memory consumption. Recently, numerous studies have attempted to compress LLMs using one-shot pruning methods. However, these methods often experience considerable performance degradation on complex language understanding tasks, calling into question the feasibility of pruning in LLMs. To address this issue, we propose a pruning pipeline for semi-structured sparse models via retraining, termed Adaptive Sparse Trainer (AST). Unlike previous one-shot pruning methods, AST incrementally transforms dense models into sparse ones by applying decay to masked weights while allowing the model to adaptively select masks throughout the training process. Furthermore, we observe that using distillation with a dense model as the teacher can prevent the sparse model from falling into local optima and accelerate convergence. In addition, we incorporate extra well-initialized parameters to further enhance model performance with minimal increase in memory footprint. AST can significantly enhance model performance, approaching the level of dense models. When applied to the LLaMA2-7B model, AST reduces the zero-shot accuracy gap between dense and semi-structured sparse models to 1.12% across multiple zero-shot tasks, utilizing less than 0.4% of the pretraining tokens. Our work demonstrates the feasibility of deploying semi-structured sparse large language models and introduces a novel method for achieving highly compressed models when combined with existing quantization techniques. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-26 |
# 散乱波束の2次非局所シフト:Goos-HänchenとImbert-Fedorov効果で何が測定できるのか?
Second-order nonlocal shifts of scattered wave-packets: What can be measured by Goos-Hänchen and Imbert-Fedorov effects ? ( http://arxiv.org/abs/2408.00375v2 ) ライセンス: Link先を確認 | K. Morawetz, | (参考訳) 表面における任意のエネルギー分散を伴うウェーブパペットの散乱を解析した。
散乱シフトの2階まで拡大すると、既知のグース・アンチェンやイムベルト・フェドロフ空間オフセットに加えて、ウィグナー遅延時間、新しい運動量、周波数シフトが現れる。
さらに、散乱波パケットの幅も変更され、多重散乱によるパルスの縮小につながる可能性がある。
縦・横の誘電関数を特徴とする誘電体モデルでは、シフトを解析的に計算する。
Goos-H\ と Imbert-Fedorov シフトから、縦方向と横方向の誘電関数にアクセスできる。
散乱ビームに対する完全な配向結晶対称性軸は、イムベルト=フェドロフ効果を示さない。
等質材料には、グース・アンチェンとイムベルト・フェドロフ効果が欠如していることが判明した。
反対に、ウィグナー遅延時間と時間パルス幅の縮小は、ビーム幾何学に依存しない誘電関数にアクセスすることができる。
The scattering of wavepackets with arbitrary energy dispersion on surfaces has been analyzed. Expanding up to second order in scattering shifts, it is found that besides the known Goos-H\"anchen or Imbert-Fedorov spatial offset, as well as the Wigner delay time, new momentum and frequency shifts appear. Furthermore, the width of the scattered wave packet becomes modified as well, which can lead to a shrinking of pulses by multiple scattering. For a model of dielectric material characterized by a longitudinal and transverse dielectric function the shifts are calculated analytically. From the Goos-H\"anchen and Imbert-Fedorov shifts one can access the longitudinal and transversal dielectric function. Perfectly aligned crystal symmetry axes with respect to scattering beam shows no Imbert-Fedorov effect. It is found that the Goos-H\"anchen and Imbert-Fedorov effect are absent for homogeneous materials. Oppositely it is found that the Wigner delay time and the shrinking of the temporal pulse width allows to access the dielectric function independent on the beam geometry. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-26 |
# ハイパースペクトル画像分類のためのマルチヘッド空間スペクトルマンバ
Multi-head Spatial-Spectral Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2408.01224v3 ) ライセンス: Link先を確認 | Muhammad Ahmad, Muhammad Hassaan Farooq Butt, Muhammad Usama, Hamad Ahmed Altuwaijri, Manuel Mazzara, Salvatore Distefano, | (参考訳) 空間スペクトルマンバ(SSM)は計算効率を改善し、トランスフォーマーの制限に対処して長距離依存をキャプチャする。
しかし、伝統的なマンバモデルは、HSIの豊富なスペクトル情報を見落とし、高次元とシーケンシャルなデータに苦しむ。
これらの課題に対処するため,マルチヘッド自己注意・トークン拡張(MHSSMamba)を用いたSSMを提案する。
このモデルは、スペクトルトークンの強化とマルチヘッドアテンションを用いてスペクトルバンドと空間位置の複雑な関係を捉えることで、スペクトル情報と空間情報を統合する。
また、スペクトル帯域にまたがるコンテキスト情報を保存し、長距離依存やHSIデータのシーケンシャルな性質も管理する。
MHSSMambaはパヴィア大学で97.62 %、ヒューストン大学で96.92 %、サリナスで96.85 %、武漢長クーのデータセットで99.49 %という顕著な分類精度を達成した。
ソースコードは \href{https://github.com/MHassaanButt/MHA\_SS\_Mamba}{GitHub} で公開されている。
Spatial-Spectral Mamba (SSM) improves computational efficiency and captures long-range dependencies, addressing Transformer limitations. However, traditional Mamba models overlook rich spectral information in HSIs and struggle with high dimensionality and sequential data. To address these issues, we propose the SSM with multi-head self-attention and token enhancement (MHSSMamba). This model integrates spectral and spatial information by enhancing spectral tokens and using multi-head attention to capture complex relationships between spectral bands and spatial locations. It also manages long-range dependencies and the sequential nature of HSI data, preserving contextual information across spectral bands. MHSSMamba achieved remarkable classification accuracies of 97.62\% on Pavia University, 96.92\% on the University of Houston, 96.85\% on Salinas, and 99.49\% on Wuhan-longKou datasets. The source code is available at \href{https://github.com/MHassaanButt/MHA\_SS\_Mamba}{GitHub}. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-26 |
# 多出力因果グラフの視覚的解析
Visual Analysis of Multi-outcome Causal Graphs ( http://arxiv.org/abs/2408.02679v2 ) ライセンス: Link先を確認 | Mengjie Fan, Jinlu Yu, Daniel Weiskopf, Nan Cao, Huai-Yu Wang, Liang Zhou, | (参考訳) 結果変数の異なる複数の因果グラフの視覚的解析法,すなわちマルチアウトカム因果グラフを提案する。
マルチ・アウトカム因果グラフは、マルチモービディティーとコオービディティを理解するために医療において重要である。
視覚分析を支援するために,我々は医療専門家と共同で,分析プロセスの異なる段階における2つの比較可視化手法を考案した。
まず,複数の最先端因果探索アルゴリズムを比較するために,プログレッシブ・ビジュアライゼーション法を提案する。
連続変数とカテゴリー変数の両方からなる混合型データセットを処理し、単一結果の微調整因果グラフの作成を支援する。
次に,複数の因果グラフを高速に比較するために,比較グラフレイアウト法と特殊視覚符号化法を考案した。
視覚分析アプローチでは,まず各結果変数に対して個別の因果グラフを構築することから始め,これらの因果グラフの違いや共通点を分析するための比較手法を用いて,多出力因果グラフを生成し,視覚化する。
評価には、ベンチマークデータセットの定量的測定、医療専門家によるケーススタディ、現実世界の健康調査データによる専門家のユーザスタディが含まれる。
We introduce a visual analysis method for multiple causal graphs with different outcome variables, namely, multi-outcome causal graphs. Multi-outcome causal graphs are important in healthcare for understanding multimorbidity and comorbidity. To support the visual analysis, we collaborated with medical experts to devise two comparative visualization techniques at different stages of the analysis process. First, a progressive visualization method is proposed for comparing multiple state-of-the-art causal discovery algorithms. The method can handle mixed-type datasets comprising both continuous and categorical variables and assist in the creation of a fine-tuned causal graph of a single outcome. Second, a comparative graph layout technique and specialized visual encodings are devised for the quick comparison of multiple causal graphs. In our visual analysis approach, analysts start by building individual causal graphs for each outcome variable, and then, multi-outcome causal graphs are generated and visualized with our comparative technique for analyzing differences and commonalities of these causal graphs. Evaluation includes quantitative measurements on benchmark datasets, a case study with a medical expert, and expert user studies with real-world health research data. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# 漁業情報メトリクスの教師なし機械学習による量子・古典相転移の検出
Detecting Quantum and Classical Phase Transitions via Unsupervised Machine Learning of the Fisher Information Metric ( http://arxiv.org/abs/2408.03418v2 ) ライセンス: Link先を確認 | Victor Kasatkin, Evgeny Mozgunov, Nicholas Ezzell, Daniel Lidar, | (参考訳) 秩序パラメータがない場合の量子および古典相転移の検出は、フィッシャー情報メートル法(Fisher information metric,FIM)を用いて可能であり、フィデリティ感受性(fidelity susceptibility)とも呼ばれる。
そこで本稿では, 位相図を通して行った測定値の多変量確率分布から, FIMが与えられた限られたサンプルを推定する, 教師なし機械学習(ML)タスクを提案し, 検討する。
この課題を解決するためにClassiFIMと呼ばれる教師なしML手法を用い、様々なスピンおよびフェルミオンモデルを用いて量子相転移と古典相転移の両方を検出する経験的効果を実証した。
クラスiFIMは、トポロジカル(例えば、XXZ鎖)と動的(例えば、ハバードモデルにおける金属絶縁体遷移)の両方を確実に検出する。
我々は、量子相転移を検出するための教師なしML手法と、より詳細な定量的比較を行う。
そこで本研究では,従来の手法に比べて,資源集約的なトレーニングデータを必要とする一方で,これらの手法と適切な精度の指標で競合することが実証された。
特に、ClassiFIMは古典的な(単一基底)測定しか必要としない。
方法論開発の一環として、古典的および量子的フィデリティの感受性を等式や境界を通じて結合するいくつかの定理を証明した。
また, 標準微分可能性条件を緩和することにより, 忠実度感受性の存在条件, 例えば, を著しく拡張する。
これらの結果は、数学物理学のコミュニティには独立した関心を持つかもしれない。
The detection of quantum and classical phase transitions in the absence of an order parameter is possible using the Fisher information metric (FIM), also known as fidelity susceptibility. Here, we propose and investigate an unsupervised machine learning (ML) task: estimating the FIM given limited samples from a multivariate probability distribution of measurements made throughout the phase diagram. We utilize an unsupervised ML method called ClassiFIM (developed in a companion paper) to solve this task and demonstrate its empirical effectiveness in detecting both quantum and classical phase transitions using a variety of spin and fermionic models, for which we generate several publicly available datasets with accompanying ground-truth FIM. We find that ClassiFIM reliably detects both topological (e.g., XXZ chain) and dynamical (e.g., metal-insulator transition in Hubbard model) quantum phase transitions. We perform a detailed quantitative comparison with prior unsupervised ML methods for detecting quantum phase transitions. We demonstrate that ClassiFIM is competitive with these prior methods in terms of appropriate accuracy metrics while requiring significantly less resource-intensive training data compared to the original formulation of the prior methods. In particular, ClassiFIM only requires classical (single-basis) measurements. As part of our methodology development, we prove several theorems connecting the classical and quantum fidelity susceptibilities through equalities or bounds. We also significantly expand the existence conditions of the fidelity susceptibility, e.g., by relaxing standard differentiability conditions. These results may be of independent interest to the mathematical physics community. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# Facing the Music: 映像音源分離における歌声分離処理
Facing the Music: Tackling Singing Voice Separation in Cinematic Audio Source Separation ( http://arxiv.org/abs/2408.03588v2 ) ライセンス: Link先を確認 | Karn N. Watcharasupat, Chih-Wei Wu, Iroro Orife, | (参考訳) シネマティックオーディオソース分離(CASS、Cinematic Audio Source separation)は、個々の幹細胞をその混合物から抽出する独立した問題であり、オーディオソース分離のかなり新しいサブタスクである。
CASSの典型的なセットアップは3段階の問題であり、混合物を対話(DX)、音楽(MX)、エフェクト(FX)に分離することを目的としている。
しかし、映画のサウンドプロダクションの創造性を考えると、いくつかのエッジケースがあり、これらの3つのステムのいずれかに適切に適合しない音源があるため、追加の補助ステムを生産に使用する必要がある。
映画音声における歌声は、DXまたはMXのいずれにも属さないが、映画的文脈によって大きく異なる。
本研究では,専用デコーダBanditとクエリベースの単一デコーダBanquetモデルを4段階問題に拡張し,非音楽対話,楽器音楽,歌唱音声,エフェクトを別々のステムとして扱う。
興味深いことに、クエリベースのBanquetモデルは、専用デコーダのBanditモデルよりも優れていた。
これは、バンド非依存のFiLM層が実施するボトルネックにおいて、より優れた機能アライメントが原因である、という仮説を立てた。
Datasetとモデルの実装はhttps://github.com/kwatcharasupat/source-separation-landing.comで公開される。
Cinematic audio source separation (CASS), as a standalone problem of extracting individual stems from their mixture, is a fairly new subtask of audio source separation. A typical setup of CASS is a three-stem problem, with the aim of separating the mixture into the dialogue (DX), music (MX), and effects (FX) stems. Given the creative nature of cinematic sound production, however, several edge cases exist; some sound sources do not fit neatly in any of these three stems, necessitating the use of additional auxiliary stems in production. One very common edge case is the singing voice in film audio, which may belong in either the DX or MX or neither, depending heavily on the cinematic context. In this work, we demonstrate a very straightforward extension of the dedicated-decoder Bandit and query-based single-decoder Banquet models to a four-stem problem, treating non-musical dialogue, instrumental music, singing voice, and effects as separate stems. Interestingly, the query-based Banquet model outperformed the dedicated-decoder Bandit model. We hypothesized that this is due to a better feature alignment at the bottleneck as enforced by the band-agnostic FiLM layer. Dataset and model implementation will be made available at https://github.com/kwatcharasupat/source-separation-landing. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# CARE: ユーザマニュアルを読むためのCSRのためのクローズガイドアシスタント
CARE: A Clue-guided Assistant for CSRs to Read User Manuals ( http://arxiv.org/abs/2408.03633v3 ) ライセンス: Link先を確認 | Weihong Du, Jia Liu, Zujie Wen, Dingnan Jin, Hongru Liang, Wenqiang Lei, | (参考訳) ユーザマニュアル、特に情報豊富なものを読む際に、顧客サービス表現(CSR)のための読書アシスタントを構築するのに時間がかかります。
現在のソリューションは、ユーザの質問への注意の欠如やレスポンスの可能性のため、オンラインカスタムサービスのシナリオに適していません。
そこで我々は,CARE という,CSR のための時間節約かつ注意深い読解アシスタントを開発することを提案する。
これにより、CSRは明示的な手がかりチェーンを通じて、ユーザマニュアルから適切なレスポンスを素早く見つけることができる。
具体的には、各手がかり連鎖は、ユーザマニュアルを推測して形成され、ユーザ質問に一致した質問ヒントから始まり、可能な応答で終了する。
教師付きデータの不足を克服するために,モデル学習のための自己教師型戦略を採用する。
オフライン実験は、CAREがユーザマニュアルから正確なレスポンスを自動的に推測するのに効率的であることを示している。
オンライン実験は、CAREがCSRの読み込み負担を減らし、高いサービス品質を維持するために、特に35%の時間を消費し、0.75 ICCスコアを維持するために優れていることをさらに示している。
It is time-saving to build a reading assistant for customer service representations (CSRs) when reading user manuals, especially information-rich ones. Current solutions don't fit the online custom service scenarios well due to the lack of attention to user questions and possible responses. Hence, we propose to develop a time-saving and careful reading assistant for CSRs, named CARE. It can help the CSRs quickly find proper responses from the user manuals via explicit clue chains. Specifically, each of the clue chains is formed by inferring over the user manuals, starting from the question clue aligned with the user question and ending at a possible response. To overcome the shortage of supervised data, we adopt the self-supervised strategy for model learning. The offline experiment shows that CARE is efficient in automatically inferring accurate responses from the user manual. The online experiment further demonstrates the superiority of CARE to reduce CSRs' reading burden and keep high service quality, in particular with >35% decrease in time spent and keeping a >0.75 ICC score. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# 長期臨床時系列予測による医療における原因(効果)の早期予測
Early Prediction of Causes (not Effects) in Healthcare by Long-Term Clinical Time Series Forecasting ( http://arxiv.org/abs/2408.03816v2 ) ライセンス: Link先を確認 | Michael Staniek, Marius Fracarolli, Michael Hagmann, Stefan Riezler, | (参考訳) 早期症候群診断のための機械学習は、観測された臨床測定(原因)に適用される医学的コンセンサス定義の結果(効果)が、数時間前に観察された臨床測定から最も多いという、基礎的な真理ラベルを予測するという複雑なタスクを解決することを目的としている。
そこで本研究では,臨床変数の時系列予測(TSF)を通じて原因を直接予測し,ゴールド標準コンセンサス定義を予測値に適用することにより効果を決定することを提案する。
モデルトレーニングは特定のラベルに依存しないため、予測されたデータはコンセンサスに基づくラベルの予測に使用することができる。
本稿では,SOFAをベースとしたSepsis-3定義とSAPS-II(Simplified acute Physiology Score)定義に係わるスパース臨床変数の正確な予測に着目し,Transformerモデルを用いた長期的TSFを用いて本手法を実証する。
2つのデータセットを用いて実験を行い、時系列と直接多重ステップデコーダのセット関数エンコーダを提唱する最近の提案とは対照的に、標準密度エンコーダと反復多重ステップデコーダを組み合わせることで最良の結果が得られることを示した。
反復的多段階復号化の成功の鍵は、多変量依存関係をキャプチャする能力と、モデルに次のステップ予測のために独自のタイムステップ予測に依存するように教える学生の強制訓練戦略にある。
Machine learning for early syndrome diagnosis aims to solve the intricate task of predicting a ground truth label that most often is the outcome (effect) of a medical consensus definition applied to observed clinical measurements (causes), given clinical measurements observed several hours before. Instead of focusing on the prediction of the future effect, we propose to directly predict the causes via time series forecasting (TSF) of clinical variables and determine the effect by applying the gold standard consensus definition to the forecasted values. This method has the invaluable advantage of being straightforwardly interpretable to clinical practitioners, and because model training does not rely on a particular label anymore, the forecasted data can be used to predict any consensus-based label. We exemplify our method by means of long-term TSF with Transformer models, with a focus on accurate prediction of sparse clinical variables involved in the SOFA-based Sepsis-3 definition and the new Simplified Acute Physiology Score (SAPS-II) definition. Our experiments are conducted on two datasets and show that contrary to recent proposals which advocate set function encoders for time series and direct multi-step decoders, best results are achieved by a combination of standard dense encoders with iterative multi-step decoders. The key for success of iterative multi-step decoding can be attributed to its ability to capture cross-variate dependencies and to a student forcing training strategy that teaches the model to rely on its own previous time step predictions for the next time step prediction. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# 任意の誤り訂正符号を用いた線形光学量子計算
Linear-optical quantum computation with arbitrary error-correcting codes ( http://arxiv.org/abs/2408.04126v2 ) ライセンス: Link先を確認 | Blayney W. Walshe, Ben Q. Baragiola, Hugo Ferretti, José Gefaell, Michael Vasmer, Ryohei Weil, Takaya Matsuura, Thomas Jaeken, Giacomo Pantaleoni, Zhihua Han, Timo Hillmann, Nicolas C. Menicucci, Ilan Tzitrin, Rafael N. Alexander, | (参考訳) 高速量子誤り訂正符号は、フォールトトレラント量子コンピュータの命令スケールを緩和するが、非局所多体絡みの効率的な生成を必要とする。
我々はこれらの特性を持つ線形光学アーキテクチャを提供し、任意の符号や一般格子上のゴッテマン・キタエフ・プレスキルキュービットと互換性があり、物理的雑音バイアスを利用する自然な方法を備えている。
双曲曲面符号を含むシミュレーションでは、量子的低密度パリティチェック符号は符号化率の約10倍の改善で2次元曲面符号に匹敵する閾値を示す。
High-rate quantum error correcting codes mitigate the imposing scale of fault-tolerant quantum computers but require the efficient generation of non-local many-body entanglement. We provide a linear-optical architecture with these properties, compatible with arbitrary codes and Gottesman-Kitaev-Preskill qubits on generic lattices, and featuring a natural way to leverage physical noise bias. Simulations involving hyperbolic surface codes, promising quantum low-density parity-check codes, reveal a threshold comparable to the 2D surface code at about a ten-fold improvement in encoding rate. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# InstantStyleGaussian: 3D Gaussian Splatting を用いた効率的なアートスタイルトランスファー
InstantStyleGaussian: Efficient Art Style Transfer with 3D Gaussian Splatting ( http://arxiv.org/abs/2408.04249v2 ) ライセンス: Link先を確認 | Xin-Yi Yu, Jun-Xin Yu, Li-Bo Zhou, Yan Wei, Lin-Lin Ou, | (参考訳) InstantStyleGaussianは3D Gaussian Splatting(3DGS)シーン表現に基づく革新的な3Dスタイルのトランスファー手法である。
ターゲットスタイルの画像を入力することで、新しい3DGSシーンを素早く生成する。
提案手法は,拡散モデルと改良された反復的データセット更新戦略を組み合わせた,事前再構成されたGSシーンで動作する。
拡散モデルを使用して、ターゲットのスタイル画像を生成し、トレーニングデータセットにこれらの新しいイメージを追加し、このデータセットを使用してGSシーンを反復的に更新し、最適化し、生成されたシーンの品質を確保しながら、スタイル編集プロセスを著しく加速する。
大規模な実験結果から,本手法は高品質なスタイリングシーンを確保できると同時に,スタイル転送速度と一貫性に大きな利点があることが示された。
We present InstantStyleGaussian, an innovative 3D style transfer method based on the 3D Gaussian Splatting (3DGS) scene representation. By inputting a target-style image, it quickly generates new 3D GS scenes. Our method operates on pre-reconstructed GS scenes, combining diffusion models with an improved iterative dataset update strategy. It utilizes diffusion models to generate target style images, adds these new images to the training dataset, and uses this dataset to iteratively update and optimize the GS scenes, significantly accelerating the style editing process while ensuring the quality of the generated scenes. Extensive experimental results demonstrate that our method ensures high-quality stylized scenes while offering significant advantages in style transfer speed and consistency. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# XMainframe: メインフレームの近代化のための大規模言語モデル
XMainframe: A Large Language Model for Mainframe Modernization ( http://arxiv.org/abs/2408.04660v3 ) ライセンス: Link先を確認 | Anh T. V. Dau, Hieu Trung Dao, Anh Tuan Nguyen, Hieu Trung Tran, Phong X. Nguyen, Nghi D. Q. Bui, | (参考訳) メインフレームオペレーティングシステムは1940年代に誕生したにもかかわらず、金融や政府といった重要な分野のサポートを続けている。
しかし、これらのシステムは時代遅れと見なされ、大規模な保守と近代化を必要としている。
この課題に対処するには、レガシーコードベースを理解して操作できる革新的なツールが必要である。
この目的のために,メインフレームレガシシステムやCOBOLコードベースの知識に特化して設計された,最先端の大規模言語モデル(LLM)であるXMainframeを紹介した。
私たちのソリューションは、高品質なトレーニングデータセットを生成するための広範なデータ収集パイプラインの作成と、この特殊なドメインにおけるXMainframeのパフォーマンスの向上です。
さらに、メインフレームの知識を総合的に評価するためのベンチマークであるMainframeBenchを紹介します。
XMainframeは、これらのタスクにおいて、既存の最先端のLCMよりも一貫して優れています。
具体的には、XMainframeは複数の質問に対してDeepSeek-Coderよりも30%高い精度を達成し、質問応答においてMixtral-Instruct 8x7BのBLEUスコアを倍増させ、COBOL要約においてGPT-3.5よりも6倍高いスコアを得る。
我々の研究は、XMainframeがレガシーシステムの管理と近代化において大きな進歩をもたらし、それによって生産性が向上し、ソフトウェア開発者の時間を節約できる可能性を強調しています。
Mainframe operating systems, despite their inception in the 1940s, continue to support critical sectors like finance and government. However, these systems are often viewed as outdated, requiring extensive maintenance and modernization. Addressing this challenge necessitates innovative tools that can understand and interact with legacy codebases. To this end, we introduce XMainframe, a state-of-the-art large language model (LLM) specifically designed with knowledge of mainframe legacy systems and COBOL codebases. Our solution involves the creation of an extensive data collection pipeline to produce high-quality training datasets, enhancing XMainframe's performance in this specialized domain. Additionally, we present MainframeBench, a comprehensive benchmark for assessing mainframe knowledge, including multiple-choice questions, question answering, and COBOL code summarization. Our empirical evaluations demonstrate that XMainframe consistently outperforms existing state-of-the-art LLMs across these tasks. Specifically, XMainframe achieves 30% higher accuracy than DeepSeek-Coder on multiple-choice questions, doubles the BLEU score of Mixtral-Instruct 8x7B on question answering, and scores six times higher than GPT-3.5 on COBOL summarization. Our work highlights the potential of XMainframe to drive significant advancements in managing and modernizing legacy systems, thereby enhancing productivity and saving time for software developers. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# reCSE: 自己教師型コントラスト学習における文埋め込みのための可搬型変換機能
reCSE: Portable Reshaping Features for Sentence Embedding in Self-supervised Contrastive Learning ( http://arxiv.org/abs/2408.04975v4 ) ライセンス: Link先を確認 | Fufangchen Zhao, Jian Gao, Danfeng Yan, | (参考訳) 特徴再構成に基づく自己教師付きコントラスト学習文表現フレームワークreCSEを提案する。
このフレームワークは、離散データ拡張手法を使用する現在の先進モデルとは異なるが、代わりに元の文の入力特徴を再評価し、文中の各トークンのグローバル情報を集約し、現在の先進モデルにおける表現極性やGPUメモリ消費の線形増加に関する一般的な問題を緩和する。
さらに,我々のreCSEはセマンティック類似性タスクにおける競合性能を達成している。
また,提案手法は,他の自己指導型コントラスト学習フレームワークに移植し,その表現能力を向上し,最先端の性能を達成できるような,強力な普遍性を有することを示す。
私たちのコードはhttps://github.com/heavenhellchen/reCSEで公開されています。
We propose reCSE, a self supervised contrastive learning sentence representation framework based on feature reshaping. This framework is different from the current advanced models that use discrete data augmentation methods, but instead reshapes the input features of the original sentence, aggregates the global information of each token in the sentence, and alleviates the common problems of representation polarity and GPU memory consumption linear increase in current advanced models. In addition, our reCSE has achieved competitive performance in semantic similarity tasks. And the experiment proves that our proposed feature reshaping method has strong universality, which can be transplanted to other self supervised contrastive learning frameworks and enhance their representation ability, even achieving state-of-the-art performance. Our code is available at https://github.com/heavenhellchen/reCSE. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# 複合推論における包括的強化型ハイブリッドRAGシステム
A Hybrid RAG System with Comprehensive Enhancement on Complex Reasoning ( http://arxiv.org/abs/2408.05141v2 ) ライセンス: Link先を確認 | Ye Yuan, Chengwu Liu, Jingyang Yuan, Gongbo Sun, Siqi Li, Ming Zhang, | (参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)がそれらの精度を高め、外部知識ベースを統合することで幻覚を減らすことを可能にするフレームワークである。
本稿では,検索品質,拡張推論能力,数値計算能力の向上など,総合的な最適化によって強化されたハイブリッドRAGシステムを提案する。
我々はWebページのテキストチャンクとテーブルを洗練し、幻覚を減らす属性予測器を追加し、LLMナレッジ・エクストラクタとナレッジ・グラフ・エクストラクタを実行し、最後にすべての参照で推論戦略を構築した。
我々は,メタCRAG KDD Cup 2024コンペティションを通じてCRAGデータセットのシステム評価を行った。
局所評価とオンライン評価の両方で,我々のシステムは複雑な推論能力を大幅に向上させることを示した。
局所評価では,ベースラインモデルと比較して精度が大幅に向上し,誤差率も大幅に低下し,スコアの顕著な増加を実現した。
一方,提案システムの性能と一般化能力を実証し,オンラインアセスメントにおける卓越した成果を得た。
我々のシステムのソースコードは \url{https://gitlab.aicrowd.com/shizueyy/crag-new} で公開されている。
Retrieval-augmented generation (RAG) is a framework enabling large language models (LLMs) to enhance their accuracy and reduce hallucinations by integrating external knowledge bases. In this paper, we introduce a hybrid RAG system enhanced through a comprehensive suite of optimizations that significantly improve retrieval quality, augment reasoning capabilities, and refine numerical computation ability. We refined the text chunks and tables in web pages, added attribute predictors to reduce hallucinations, conducted LLM Knowledge Extractor and Knowledge Graph Extractor, and finally built a reasoning strategy with all the references. We evaluated our system on the CRAG dataset through the Meta CRAG KDD Cup 2024 Competition. Both the local and online evaluations demonstrate that our system significantly enhances complex reasoning capabilities. In local evaluations, we have significantly improved accuracy and reduced error rates compared to the baseline model, achieving a notable increase in scores. In the meanwhile, we have attained outstanding results in online assessments, demonstrating the performance and generalization capabilities of the proposed system. The source code for our system is released in \url{https://gitlab.aicrowd.com/shizueyy/crag-new}. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# 都市地域の事前学習とプロンプト:グラフに基づくアプローチ
Urban Region Pre-training and Prompting: A Graph-based Approach ( http://arxiv.org/abs/2408.05920v3 ) ライセンス: Link先を確認 | Jiahui Jin, Yifan Song, Dong Kan, Haojia Zhu, Xiangguo Sun, Zhicheng Li, Xigang Sun, Jinghui Zhang, | (参考訳) 都市域の表現は、様々な都市下流業務に不可欠である。
しかし, 手法の普及とその成功にもかかわらず, 都市部における一般知識の獲得と異なる課題への適応は依然として困難である。
以前の研究は、しばしば実体間の空間構造と機能的レイアウトを無視し、領域間で伝達可能な知識を捕捉する能力を制限する。
さらに、これらの手法は、異なる下流タスクに必要なユニークな特徴や関係を適切に扱えないため、特定の下流タスクに効果的に適応するのに苦労する。
本稿では、地域表現学習のための$\textbf{G}$raph-based $\textbf{U}$rban $\textbf{R}$egion $\textbf{P}$re-trainingおよび$\textbf{P}$rompting framework$\textbf{GURPP}$)を提案する。
具体的には、まず、より効果的な都市域表現のための詳細な空間実体データを統合する都市域グラフを構築する。
そこで我々は,サブグラフ中心の都市域事前学習モデルを構築し,異種・移動可能な実体間の相互作用パターンを抽出する。
異なるタスクへの埋め込みの適応性をさらに向上するため、明示的/隠蔽的なタスク知識を組み込むグラフベースの2つのプロンプト手法を設計する。
GURPPフレームワークの優れた性能を示すため,様々な都市域予測タスクと異なる都市を対象とした大規模な実験を行った。
Urban region representation is crucial for various urban downstream tasks. However, despite the proliferation of methods and their success, acquiring general urban region knowledge and adapting to different tasks remains challenging. Previous work often neglects the spatial structures and functional layouts between entities, limiting their ability to capture transferable knowledge across regions. Further, these methods struggle to adapt effectively to specific downstream tasks, as they do not adequately address the unique features and relationships required for different downstream tasks. In this paper, we propose a $\textbf{G}$raph-based $\textbf{U}$rban $\textbf{R}$egion $\textbf{P}$re-training and $\textbf{P}$rompting framework ($\textbf{GURPP}$) for region representation learning. Specifically, we first construct an urban region graph that integrates detailed spatial entity data for more effective urban region representation. Then, we develop a subgraph-centric urban region pre-training model to capture the heterogeneous and transferable patterns of interactions among entities. To further enhance the adaptability of these embeddings to different tasks, we design two graph-based prompting methods to incorporate explicit/hidden task knowledge. Extensive experiments on various urban region prediction tasks and different cities demonstrate the superior performance of our GURPP framework. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-26 |
# 計画における行動コスト予測のための意思決定型学習
Decision-Focused Learning to Predict Action Costs for Planning ( http://arxiv.org/abs/2408.06876v2 ) ライセンス: Link先を確認 | Jayanta Mandi, Marco Foschini, Daniel Holler, Sylvie Thiebaux, Jorg Hoffmann, Tias Guns, | (参考訳) 多くの自動計画アプリケーションでは、アクションコストを特定するのは難しい。
例えば、ある道路区間を移動するのに必要な時間は、現在の気象条件など、多くの要因に依存する。
この問題に対処するための自然な方法は、入力特徴(例えば天気予報)に基づいてこれらのパラメータを予測し、その後に予測されたアクションコストを自動計画に使用することである。
DFL(Decision-Focused Learning)は、組合せ最適化問題のパラメータを、予測品質よりも解品質を最適化する方法で予測する学習に成功している。
このアプローチは、予測と最適化を別のタスクとして扱うよりも、よりよい結果をもたらす。
本稿では,DFLを自動計画に導入する際の課題を初めて考察し,アクションコストの予測について考察する。
1) 計画において支持されない負の行動コストを伴う計画問題の解決を目的として, 勾配降下学習中に計画システムを呼び出す。
本稿では,この問題を回避するために,勾配計算の新しい手法を提案する。
2) DFLは、トレーニング中に繰り返しプランナーコールを必要とするため、メソッドのスケーラビリティを制限できる。
本研究では,学習過程を高速化するキャッシング機構とともに,最適計画の近似方法を試行する。
自動計画のためのDFLに対処する最初の研究として、提案した勾配計算が予測誤差の最小化を目的とした予測よりもずっと優れた計画を生成することを示し、キャッシングが計算要求を抑えることを示した。
In many automated planning applications, action costs can be hard to specify. An example is the time needed to travel through a certain road segment, which depends on many factors, such as the current weather conditions. A natural way to address this issue is to learn to predict these parameters based on input features (e.g., weather forecasts) and use the predicted action costs in automated planning afterward. Decision-Focused Learning (DFL) has been successful in learning to predict the parameters of combinatorial optimization problems in a way that optimizes solution quality rather than prediction quality. This approach yields better results than treating prediction and optimization as separate tasks. In this paper, we investigate for the first time the challenges of implementing DFL for automated planning in order to learn to predict the action costs. There are two main challenges to overcome: (1) planning systems are called during gradient descent learning, to solve planning problems with negative action costs, which are not supported in planning. We propose novel methods for gradient computation to avoid this issue. (2) DFL requires repeated planner calls during training, which can limit the scalability of the method. We experiment with different methods approximating the optimal plan as well as an easy-to-implement caching mechanism to speed up the learning process. As the first work that addresses DFL for automated planning, we demonstrate that the proposed gradient computation consistently yields significantly better plans than predictions aimed at minimizing prediction error; and that caching can temper the computation requirements. | 翻訳日:2024-08-27 20:30:25 公開日:2024-08-26 |
# QLDPCコードのスケーラブルデコードのための機械学習メッセージパッシング
Machine Learning Message-Passing for the Scalable Decoding of QLDPC Codes ( http://arxiv.org/abs/2408.07038v2 ) ライセンス: Link先を確認 | Arshpreet Singh Maan, Alexandru Paler, | (参考訳) 本稿では,グラフニューラルネットワークを用いた新規でスケーラブルなデコーダであるAstraを紹介する。
我々のデコーダは、タナーグラフで表される制約のスドゥークパズルを解くのと同様に機能する。
一般に、量子低密度パリティチェック(QLDPC)復号法は、メッセージパッシングの変種であるBelief Propagation(BP)に基づいており、順序付き統計復号法(OSD)のような時間を要する。
後処理を一切使わずに、AstraはBP+OSDよりも高いしきい値とより良い論理誤差率を達成する。
さらに、より低い距離で訓練されたデコーダを用いて、高い距離(地上コード25およびBBコード34まで)をデコードする。
Astra+OSDはBP+OSDより速い。
物理誤り率の低下に伴い,Astra+OSDは外挿復号の文脈においても,BP+OSDと比較してOSDへの呼び出しを徐々に少なくすることを示す。
Astra(+OSD)は、BP(+OSD)と比較してBB符号の論理誤り率を桁違いに低くする。
ソースコードは \url{https://github.com/arshpreetmaan/astra} でオープンソース化されている。
We present Astra, a novel and scalable decoder using graph neural networks. Our decoder works similarly to solving a Sudoku puzzle of constraints represented by the Tanner graph. In general, Quantum Low Density Parity Check (QLDPC) decoding is based on Belief Propagation (BP, a variant of message-passing) and requires time intensive post-processing methods such as Ordered Statistics Decoding (OSD). Without using any post-processing, Astra achieves higher thresholds and better logical error rates when compared to BP+OSD, both for surface codes trained up to distance 11 and Bivariate Bicycle (BB) codes trained up to distance 18. Moreover, we can successfully extrapolate the decoding functionality: we decode high distances (surface code up to distance 25 and BB code up to distance 34) by using decoders trained on lower distances. Astra+OSD is faster than BP+OSD. We show that with decreasing physical error rates, Astra+OSD makes progressively fewer calls to OSD when compared to BP+OSD, even in the context of extrapolated decoding. Astra(+OSD) achieves orders of magnitude lower logical error rates for BB codes compared to BP(+OSD). The source code is open-sourced at \url{https://github.com/arshpreetmaan/astra}. | 翻訳日:2024-08-27 20:30:25 公開日:2024-08-26 |
# パウリ指数の定数深さ実装について
On the Constant Depth Implementation of Pauli Exponentials ( http://arxiv.org/abs/2408.08265v3 ) ライセンス: Link先を確認 | Ioana Moflic, Alexandru Paler, | (参考訳) Z は任意の長さの指数関数を $\mathcal{O}(n)$ ancillae と 2 体 XX と ZZ の相互作用を用いて一定深さの回路に分解する。
したがって、同様の方法は任意のパウリ指数に対して作用する。
クビットリサイクルの恩恵を受ける回路の書き直し規則を導入し,本手法の正しさを実証する。
この分解は、フォールトトレラント格子演算の効率的な実装から、二体相互作用のみによる任意の安定化回路の表現、VQEのようなNISQ計算の深さの低減まで、幅広い応用がある。
We decompose for the first time, under the very restrictive linear nearest-neighbour connectivity, $Z\otimes Z \ldots \otimes Z$ exponentials of arbitrary length into circuits of constant depth using $\mathcal{O}(n)$ ancillae and two-body XX and ZZ interactions. Consequently, a similar method works for arbitrary Pauli exponentials. We prove the correctness of our approach, after introducing novel rewrite rules for circuits which benefit from qubit recycling. The decomposition has a wide variety of applications ranging from the efficient implementation of fault-tolerant lattice surgery computations, to expressing arbitrary stabilizer circuits via two-body interactions only, and to reducing the depth of NISQ computations, such as VQE. | 翻訳日:2024-08-27 20:30:25 公開日:2024-08-26 |
# Beyond Kan: CTR予測における適応的高次特徴相互作用モデリングのためのKarSeinの導入
Beyond KAN: Introducing KarSein for Adaptive High-Order Feature Interaction Modeling in CTR Prediction ( http://arxiv.org/abs/2408.08713v2 ) ライセンス: Link先を確認 | Yunxiao Shi, Wujiang Xu, Mingyu Jin, Haimin Zhang, Qiang Wu, Yongfeng Zhang, Min Xu, | (参考訳) 特徴的相互作用のモデル化はクリックスルー率(CTR)予測に不可欠である。
従来の手法は、しばしば、事前知識に大きく依存し、モデルの有効性を制限できる最大限の相互作用順序を事前に定義するため、このタスクに苦労する。
さらに、高次相互作用のモデリングは一般的に計算コストの増大につながる。
したがって、効率を保ちながら高次特徴相互作用を適応的にモデル化することが課題である。
この問題に対処するために,予測精度と計算効率の両方を最適化するために設計されたKarSein(Kolmogorov-Arnold Represented Sparse Efficient Interaction Network)を導入する。
まず,CTRにKANを直接適用することの限界を特定し,これらの問題を克服するためにKarSeinを導入する。
これはkanの計算コストを削減し、特徴入力として埋め込みベクトルをサポートする新しいアーキテクチャである。
さらに、KarSeinは、自然に乗法関係を学習するカンの課題に対処するために、ガイド付き記号レグレッションを採用している。
大規模な実験はKarlSeinの優れた性能を示し、計算オーバーヘッドを最小限に抑えて予測精度を著しく向上させる。
さらに、KarSeinは、冗長な機能の削除を可能にしながら、強力なグローバルな説明可能性を維持し、その結果、疎結合なネットワーク構造となる。
これらの利点は、KarSeinを効率的な推論の有望な方法として位置づけている。
Modeling feature interactions is crucial for click-through rate (CTR) prediction, particularly when it comes to high-order explicit interactions. Traditional methods struggle with this task because they often predefine a maximum interaction order, which relies heavily on prior knowledge and can limit the model's effectiveness. Additionally, modeling high-order interactions typically leads to increased computational costs. Therefore, the challenge lies in adaptively modeling high-order feature interactions while maintaining efficiency. To address this issue, we introduce Kolmogorov-Arnold Represented Sparse Efficient Interaction Network (KarSein), designed to optimize both predictive accuracy and computational efficiency. We firstly identify limitations of directly applying Kolmogorov-Arnold Networks (KAN) to CTR and then introduce KarSein to overcome these issues. It features a novel architecture that reduces the computational costs of KAN and supports embedding vectors as feature inputs. Additionally, KarSein employs guided symbolic regression to address the challenge of KAN in spontaneously learning multiplicative relationships. Extensive experiments demonstrate KarSein's superior performance, achieving significant predictive accuracy with minimal computational overhead. Furthermore, KarSein maintains strong global explainability while enabling the removal of redundant features, resulting in a sparse network structure. These advantages also position KarSein as a promising method for efficient inference. | 翻訳日:2024-08-27 20:30:25 公開日:2024-08-26 |
# 量子暗号設計はシャノンの定理を克服し、再利用可能な鍵で完全な秘密を達成する
Quantum encryption design overcomes Shannon's theorem to achieve perfect secrecy with reusable keys ( http://arxiv.org/abs/2408.09088v2 ) ライセンス: Link先を確認 | Zixuan Hu, Zhenyu Li, | (参考訳) シャノンの完全秘密定理(英語版)は、敵にゼロ情報をもたらす完全暗号システムは、ランダムに生成され再利用されない鍵を持つワンタイムパッド(OTP)でなければならないと述べている。
しかし、最近発見された量子絡み合いのエキゾチックな性質は、量子状態におけるシャノンの定理を再考する動機となった。
本研究では、シャノンの定理を克服し、再利用可能な鍵で完全な秘密化を実現する量子暗号法を設計する。
このメカニズムは基本的に量子であり、量子システムと古典システムでは情報がどのように処理されるかという微妙だが重要な違いを示している。
Shannon's perfect-secrecy theorem states that a perfect encryption system that yields zero information to the adversary must be a one-time pad (OTP) with the keys randomly generated and never reused. However, recently discovered exotic properties of quantum entanglement have motivated us to reconsider Shannon's theorem in the quantum regime. In this work we design a quantum encryption method that overcomes Shannon's theorem to achieve perfect secrecy with reusable keys. The mechanism used is fundamentally quantum, demonstrating subtle but critical differences in how information is processed in quantum versus classical systems. | 翻訳日:2024-08-27 20:30:25 公開日:2024-08-26 |
# CRNN-SNN変換によるシーケンス学習における最適スパイクニューラルネットワークの実現
Obtaining Optimal Spiking Neural Network in Sequence Learning via CRNN-SNN Conversion ( http://arxiv.org/abs/2408.09403v2 ) ライセンス: Link先を確認 | Jiahao Su, Kang You, Zekai Xu, Weizhi Xu, Zhezhi He, | (参考訳) スパイキングニューラルネットワーク(SNN)は、リッチニューラルネットワークとエネルギー効率のよいニューロモルフィックチップの実装により、従来の人工知能ニューラルネットワーク(ANN)に代わる有望な選択肢になりつつある。
しかし、この非微分二元通信機構は、SNNをANNレベルの精度に収束させることを困難にしている。
SNNがシーケンス学習に遭遇すると、長距離依存関係のモデリングが困難になるため、状況は悪化する。
これらの困難を克服するため、研究者たちはLIFニューロンの変種と異なる代理勾配を開発したが、配列が長くなると良い結果が得られなかった(例:$>500)。
それらとは異なり、量子化されたCRNNから直接パラメータをマッピングすることで、シーケンス学習における最適なSNNを得る。
CNN-Morph(CNN $\rightarrow$ QCNN $\rightarrow$ BIFSNN)とRNN-Morph(RNN $\rightarrow$ QRNN $\rightarrow$ RBIFSNN)と呼ばれる2つのサブパイプを設計する。
変換パイプラインとs-analog符号化法を用いることで,フレームワークの変換誤差はゼロとなる。
さらに,損失のないCRNN-SNN変換の理論的,実験的実証を行った。
提案手法の有効性を,最先端の学習法や変換法と比較し,短時間・長期の時間スケール課題に対する提案手法の有効性を示す。
我々は、S-MNISTの99.16% (0.46$\uparrow$)、PS-MNISTの94.95% (3.95$\uparrow$)、衝突回避データセットの8ステップ以内の0.057 (0.013$\downarrow$)の最も高い精度に達する。
Spiking neural networks (SNNs) are becoming a promising alternative to conventional artificial neural networks (ANNs) due to their rich neural dynamics and the implementation of energy-efficient neuromorphic chips. However, the non-differential binary communication mechanism makes SNN hard to converge to an ANN-level accuracy. When SNN encounters sequence learning, the situation becomes worse due to the difficulties in modeling long-range dependencies. To overcome these difficulties, researchers developed variants of LIF neurons and different surrogate gradients but still failed to obtain good results when the sequence became longer (e.g., $>$500). Unlike them, we obtain an optimal SNN in sequence learning by directly mapping parameters from a quantized CRNN. We design two sub-pipelines to support the end-to-end conversion of different structures in neural networks, which is called CNN-Morph (CNN $\rightarrow$ QCNN $\rightarrow$ BIFSNN) and RNN-Morph (RNN $\rightarrow$ QRNN $\rightarrow$ RBIFSNN). Using conversion pipelines and the s-analog encoding method, the conversion error of our framework is zero. Furthermore, we give the theoretical and experimental demonstration of the lossless CRNN-SNN conversion. Our results show the effectiveness of our method over short and long timescales tasks compared with the state-of-the-art learning- and conversion-based methods. We reach the highest accuracy of 99.16% (0.46 $\uparrow$) on S-MNIST, 94.95% (3.95 $\uparrow$) on PS-MNIST (sequence length of 784) respectively, and the lowest loss of 0.057 (0.013 $\downarrow$) within 8 time-steps in collision avoidance dataset. | 翻訳日:2024-08-27 20:30:25 公開日:2024-08-26 |
# ドッキング技術報告
Docling Technical Report ( http://arxiv.org/abs/2408.09869v2 ) ライセンス: Link先を確認 | Christoph Auer, Maksym Lysak, Ahmed Nassar, Michele Dolfi, Nikolaos Livathinos, Panos Vagenas, Cesar Berrospi Ramis, Matteo Omenetti, Fabian Lindlbauer, Kasper Dinkla, Valery Weber, Lucas Morin, Ingmar Meijer, Viktor Kuropiatnyk, Peter W. J. Staar, | (参考訳) この技術レポートではDoclingを紹介します。Doclingは簡単に使える、自己完結型の、MITライセンスのPDFドキュメント変換用オープンソースパッケージです。
レイアウト分析(DocLayNet)とテーブル構造認識(TableFormer)のための最先端の専門的なAIモデルを活用し、小さなリソース予算でコモディティハードウェア上で効率的に動作する。
コードインターフェースにより、簡単に拡張でき、新しい機能やモデルの追加が可能になる。
This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models. | 翻訳日:2024-08-27 20:20:40 公開日:2024-08-26 |
# SMILE: プレトレーニング基礎モデルによる低ランクエキスパートのゼロショットスパース混合
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models ( http://arxiv.org/abs/2408.10174v2 ) ライセンス: Link先を確認 | Anke Tang, Li Shen, Yong Luo, Shuai Xie, Han Hu, Lefei Zhang, Bo Du, Dacheng Tao, | (参考訳) 広範囲なデータセットの深層モデルトレーニングはコストを抑えつつあり、既存のモデルから知識を活用するための深層モデル融合技術が広く採用されている。
単純なウェイト平均化からAdaMergingのようなより洗練されたメソッドまで、モデル融合はモデルの性能を効果的に改善し、新しいモデルの開発を加速します。
しかし、個々のモデルのパラメータ間の潜在的な干渉と融合進行における解釈可能性の欠如は重要な課題である。
既存の手法は、しばしばパラメータ干渉の問題を、その大きさや符号などのパラメータの属性を評価したり、パラメータのプルーニングによって解決しようとする。
本研究では,線形層をサブスペース解析のレンズで微調整し,パラメータ干渉をこの問題に光を当てるための最適化問題として明確に定義することから始める。
その後,ゼロショット・スパース・ミクチャー・オブ・ローランクエキスパート(SMILE)構築と呼ばれるモデル融合の革新的アプローチを導入し,余分なデータやトレーニングを伴わずに,ソースモデルをMoEモデルにアップスケーリングできるようにする。
私たちのアプローチは、微調整が主にトレーニング前の重要な部分を維持することに依存していますが、新しいタスクに適応するためには、重要または未使用の領域があまり使われません。
また、元のパラメータ空間で本質的に抽出可能なパラメータ干渉の問題は、次元を拡大することで管理できる。
画像分類やテキスト生成タスク,フル微調整やLoRA微調整など,さまざまなシナリオを対象とした広範な実験を行い,大言語モデル(CLIPモデル,Flan-T5モデル,Mistral-7Bモデル)に適用し,SMILEの適応性と拡張性を強調した。
コードはhttps://github.com/tanganke/fusion_benchで入手できる。
Deep model training on extensive datasets is increasingly becoming cost-prohibitive, prompting the widespread adoption of deep model fusion techniques to leverage knowledge from pre-existing models. From simple weight averaging to more sophisticated methods like AdaMerging, model fusion effectively improves model performance and accelerates the development of new models. However, potential interference between parameters of individual models and the lack of interpretability in the fusion progress remain significant challenges. Existing methods often try to resolve the parameter interference issue by evaluating attributes of parameters, such as their magnitude or sign, or by parameter pruning. In this study, we begin by examining the fine-tuning of linear layers through the lens of subspace analysis and explicitly define parameter interference as an optimization problem to shed light on this subject. Subsequently, we introduce an innovative approach to model fusion called zero-shot Sparse MIxture of Low-rank Experts (SMILE) construction, which allows for the upscaling of source models into an MoE model without extra data or further training. Our approach relies on the observation that fine-tuning mostly keeps the important parts from the pre-training, but it uses less significant or unused areas to adapt to new tasks. Also, the issue of parameter interference, which is intrinsically intractable in the original parameter space, can be managed by expanding the dimensions. We conduct extensive experiments across diverse scenarios, such as image classification and text generation tasks, using full fine-tuning and LoRA fine-tuning, and we apply our method to large language models (CLIP models, Flan-T5 models, and Mistral-7B models), highlighting the adaptability and scalability of SMILE. Code is available at https://github.com/tanganke/fusion_bench | 翻訳日:2024-08-27 20:20:40 公開日:2024-08-26 |
# 適応影響関数による学習データへの言語モデルのプライバシ漏洩の追跡
Tracing Privacy Leakage of Language Models to Training Data via Adjusted Influence Functions ( http://arxiv.org/abs/2408.10468v3 ) ライセンス: Link先を確認 | Jinxin Liu, Zao Yang, | (参考訳) LLM(Large Language Models)が生成する応答には、個人や組織からの機密情報が含まれて、潜在的なプライバシー漏洩につながる可能性がある。
この研究は、インフルエンス関数(IF)を実装して、トレーニングデータにプライバシリークをトレースすることで、言語モデル(LM)のプライバシに関する懸念を軽減する。
しかし、現在のIFは、大きな勾配ノルムを持つトークンの影響を正確に見積もることに苦労しており、その影響を過大評価する可能性がある。
最も影響力のあるサンプルをトレースする場合、これは大きな勾配のノルムトークンを持つサンプルに頻繁にトレースし、その影響が十分に見積もられている場合でも、実際の最も影響力のあるサンプルをオーバーシェードする。
この問題に対処するため,Huristically Adjusted IF (HAIF) を提案する。
PII-E と PII-CR という2つの異なるシナリオを,モデル出力と事前学習データに同一のテキストを持つモデルと,その推論能力を利用して事前学習データからテキストを逸脱させる2つのデータセットを構築した。
HAIFは追跡精度を大幅に改善し、PII-Eデータセットでは20.96%から73.71%、PII-CRデータセットでは3.21%から45.93%に向上した。
また、HAIFは現実世界の事前訓練データCLUECorpus2020においてSOTA IFよりも優れており、プロンプトや応答長に関わらず強い堅牢性を示している。
The responses generated by Large Language Models (LLMs) can include sensitive information from individuals and organizations, leading to potential privacy leakage. This work implements Influence Functions (IFs) to trace privacy leakage back to the training data, thereby mitigating privacy concerns of Language Models (LMs). However, we notice that current IFs struggle to accurately estimate the influence of tokens with large gradient norms, potentially overestimating their influence. When tracing the most influential samples, this leads to frequently tracing back to samples with large gradient norm tokens, overshadowing the actual most influential samples even if their influences are well estimated. To address this issue, we propose Heuristically Adjusted IF (HAIF), which reduces the weight of tokens with large gradient norms, thereby significantly improving the accuracy of tracing the most influential samples. To establish easily obtained groundtruth for tracing privacy leakage, we construct two datasets, PII-E and PII-CR, representing two distinct scenarios: one with identical text in the model outputs and pre-training data, and the other where models leverage their reasoning abilities to generate text divergent from pre-training data. HAIF significantly improves tracing accuracy, enhancing it by 20.96% to 73.71% on the PII-E dataset and 3.21% to 45.93% on the PII-CR dataset, compared to the best SOTA IFs against various GPT-2 and QWen-1.5 models. HAIF also outperforms SOTA IFs on real-world pretraining data CLUECorpus2020, demonstrating strong robustness regardless prompt and response lengths. | 翻訳日:2024-08-27 20:20:40 公開日:2024-08-26 |
# 両眼モデル:デュアル波長イメージング熱量計を用いたオンラインメルトプール温度解析のための深層学習ソリューション
Binocular Model: A deep learning solution for online melt pool temperature analysis using dual-wavelength Imaging Pyrometry ( http://arxiv.org/abs/2408.11126v2 ) ライセンス: Link先を確認 | Javid Akhavan, Chaitanya Krishna Vallabh, Xiayun Zhao, Souran Manoochehri, | (参考訳) 金属添加物製造(AM)において, メルトプール(MP)の温度監視は, 部品品質, プロセス安定性, 欠陥防止, プロセス全体の最適化の確保に不可欠である。
従来の手法は収束が遅く、データを実行可能な洞察に変換するために広範囲な手作業が必要であり、リアルタイムの監視と制御には実用的ではない。
この課題に対処するために,手作業によるデータ処理の信頼性の低減と,データから洞察への遷移効率の向上を目的とした人工知能(AI)ベースのソリューションを提案する。
本研究では,2波長リアルタイムプロセス監視データと対応する温度マップからなるデータセットを利用する。
レーザー粉体融合(L-PBF)におけるMP温度の高精度な解析を行うために,双対入力観測を利用した深層学習モデル「双眼鏡モデル」を導入する。
先進的な深層学習技術により、生データを温度マップにシームレスに変換し、プロセスを大幅に合理化し、バッチ処理を1秒あたり750フレームまで、従来の手法の約1000倍の速度で行えるようにした。
我々の両眼モデルでは、0.95R二乗スコアで証明された温度推定の精度が向上し、同時に処理効率を$\sim1000x$倍に向上させる。
このモデルは、リアルタイムMP温度モニタリングの課題に直接対処し、遭遇した制約とディープラーニングベースのアプローチの利点についての洞察を提供する。
本研究は, 効率と精度を組み合わせることにより, L-PBFの温度モニタリングの進展に寄与し, 金属AM分野の進展を推し進める。
In metal Additive Manufacturing (AM), monitoring the temperature of the Melt Pool (MP) is crucial for ensuring part quality, process stability, defect prevention, and overall process optimization. Traditional methods, are slow to converge and require extensive manual effort to translate data into actionable insights, rendering them impractical for real-time monitoring and control. To address this challenge, we propose an Artificial Intelligence (AI)-based solution aimed at reducing manual data processing reliance and improving the efficiency of transitioning from data to insight. In our study, we utilize a dataset comprising dual-wavelength real-time process monitoring data and corresponding temperature maps. We introduce a deep learning model called the "Binocular model," which exploits dual input observations to perform a precise analysis of MP temperature in Laser Powder Bed Fusion (L-PBF). Through advanced deep learning techniques, we seamlessly convert raw data into temperature maps, significantly streamlining the process and enabling batch processing at a rate of up to 750 frames per second, approximately 1000 times faster than conventional methods. Our Binocular model achieves high accuracy in temperature estimation, evidenced by a 0.95 R-squared score, while simultaneously enhancing processing efficiency by a factor of $\sim1000x$ times. This model directly addresses the challenge of real-time MP temperature monitoring and offers insights into the encountered constraints and the benefits of our Deep Learning-based approach. By combining efficiency and precision, our work contributes to the advancement of temperature monitoring in L-PBF, thus driving progress in the field of metal AM. | 翻訳日:2024-08-27 20:20:40 公開日:2024-08-26 |
# LLMプルーニングと蒸留の実践:ミニトロンアプローチ
LLM Pruning and Distillation in Practice: The Minitron Approach ( http://arxiv.org/abs/2408.11796v2 ) ライセンス: Link先を確認 | Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov, | (参考訳) Llama 3.1 8B と Mistral NeMo 12B をそれぞれ 4B と 8B のパラメータに圧縮する。
本研究は,(1)深度刈り込みと(2)隠れ/保持/MLP(幅)刈り込みの2つの異なるプルーニング戦略について検討し,LM評価ハーネスによる共通ベンチマークの結果について検討する。
モデルはNeMo Alignerと整列し、インストラクションされたバージョンでテストされる。
このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8B(MN-Minitron-8B)モデルを生成する。
元のデータにアクセスできなくても、蒸留データセット上でわずかに微調整された教師モデルを構築することは有益であることがわかった。
私たちはHugging Faceのベースモデルの重みを寛容なライセンスでオープンソースにしています。
We present a comprehensive report on compressing the Llama 3.1 8B and Mistral NeMo 12B models to 4B and 8B parameters, respectively, using pruning and distillation. We explore two distinct pruning strategies: (1) depth pruning and (2) joint hidden/attention/MLP (width) pruning, and evaluate the results on common benchmarks from the LM Evaluation Harness. The models are then aligned with NeMo Aligner and tested in instruct-tuned versions. This approach produces a compelling 4B model from Llama 3.1 8B and a state-of-the-art Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo 12B. We found that with no access to the original data, it is beneficial to slightly fine-tune teacher models on the distillation dataset. We open-source our base model weights on Hugging Face with a permissive license. | 翻訳日:2024-08-27 20:20:40 公開日:2024-08-26 |
# 水中画像伝送のための大規模言語モデルに基づく意味コミュニケーション
Semantic Communication based on Large Language Model for Underwater Image Transmission ( http://arxiv.org/abs/2408.12616v2 ) ライセンス: Link先を確認 | Weilong Chen, Wenxuan Xu, Haoran Chen, Xinran Zhang, Zhijin Qin, Yanru Zhang, Zhu Han, | (参考訳) 水中通信は、環境モニタリング、海洋生物学研究、水中探査に不可欠である。
従来の水中通信は、低帯域幅、高レイテンシ、ノイズに対する感受性といった制限に直面しているが、セマンティック通信(SC)はシンボルやビットではなくセマンティクスの交換に焦点を当てることで、有望な解決策を提供する。
しかし、SCは、セマンティックな情報ミスマッチや、水中アプリケーションの多様な要件に沿った重要な情報を正確に識別し伝達することの難しさなど、水中環境における課題に直面している。
これらの課題に対処するため,我々はLarge Language Models (LLMs) に基づいた新しいセマンティックコミュニケーション(SC)フレームワークを提案する。
本フレームワークは,ユーザからの問い合わせに応じて,視覚的LLMを利用して水中画像データのセマンティック圧縮と優先順位付けを行う。
画像内のキーセマンティック要素を識別し、符号化することにより、低臨界領域に高い圧縮率を適用しながら、高優先度情報を選択的に送信する。
受信側では、LLMベースのリカバリ機構とGlobal Vision ControlNetとKey Region ControlNetネットワークが画像の再構成を支援し、通信効率と堅牢性を向上させる。
我々のフレームワークは、データ全体のサイズをオリジナルの0.8\%に減らします。
実験の結果,提案手法は既存の手法よりも優れており,高品質でセマンティックな画像再構成の精度が保証されている。
Underwater communication is essential for environmental monitoring, marine biology research, and underwater exploration. Traditional underwater communication faces limitations like low bandwidth, high latency, and susceptibility to noise, while semantic communication (SC) offers a promising solution by focusing on the exchange of semantics rather than symbols or bits. However, SC encounters challenges in underwater environments, including semantic information mismatch and difficulties in accurately identifying and transmitting critical information that aligns with the diverse requirements of underwater applications. To address these challenges, we propose a novel Semantic Communication (SC) framework based on Large Language Models (LLMs). Our framework leverages visual LLMs to perform semantic compression and prioritization of underwater image data according to the query from users. By identifying and encoding key semantic elements within the images, the system selectively transmits high-priority information while applying higher compression rates to less critical regions. On the receiver side, an LLM-based recovery mechanism, along with Global Vision ControlNet and Key Region ControlNet networks, aids in reconstructing the images, thereby enhancing communication efficiency and robustness. Our framework reduces the overall data size to 0.8\% of the original. Experimental results demonstrate that our method significantly outperforms existing approaches, ensuring high-quality, semantically accurate image reconstruction. | 翻訳日:2024-08-27 20:20:40 公開日:2024-08-26 |
# 大規模言語モデルに基づく橋梁設計仕様の質問応答システム
Question answering system of bridge design specification based on large language model ( http://arxiv.org/abs/2408.13282v1 ) ライセンス: Link先を確認 | Leye Zhang, Xiangxiang Tian, Hongjun Zhang, | (参考訳) 本稿では,大規模言語モデルに基づく橋梁設計仕様のための質問応答システムを構築する。
3つの実装方式が試みられている: Bert事前学習モデルの完全な微調整、Bert事前学習モデルのパラメータ効率の高い微調整、およびゼロから自己構築言語モデル。
テンソルフローとケラスのディープラーニングプラットフォームフレームワークに基づいて,自己構築された質問・回答タスクデータセットを通じて,ユーザが指定したブリッジ設計仕様において,回答の開始位置と終了位置を予測するためにモデルを構築,訓練する。
実験結果から,Bert事前学習モデルの完全微調整は,トレーニングデータセット,検証データセット,テストデータセットにおいて100%の精度を達成でき,利用者の様々な質問に答えるために橋梁設計仕様から回答を抽出できることがわかった。
本研究は,専門分野における質問応答システムの開発に有用な参考資料を提供する。
This paper constructs question answering system for bridge design specification based on large language model. Three implementation schemes are tried: full fine-tuning of the Bert pretrained model, parameter-efficient fine-tuning of the Bert pretrained model, and self-built language model from scratch. Through the self-built question and answer task dataset, based on the tensorflow and keras deep learning platform framework, the model is constructed and trained to predict the start position and end position of the answer in the bridge design specification given by the user. The experimental results show that full fine-tuning of the Bert pretrained model achieves 100% accuracy in the training-dataset, validation-dataset and test-dataset, and the system can extract the answers from the bridge design specification given by the user to answer various questions of the user; While parameter-efficient fine-tuning of the Bert pretrained model and self-built language model from scratch perform well in the training-dataset, their generalization ability in the test-dataset needs to be improved. The research of this paper provides a useful reference for the development of question answering system in professional field. | 翻訳日:2024-08-27 20:20:40 公開日:2024-08-26 |
# 低コスト化:短絡用クロスプロンプトプレファイバ
Reducing the Cost: Cross-Prompt Pre-Finetuning for Short Answer Scoring ( http://arxiv.org/abs/2408.13966v1 ) ライセンス: Link先を確認 | Hiroaki Funayama, Yuya Asazuma, Yuichiroh Matsubayashi, Tomoya Mizumoto, Kentaro Inui, | (参考訳) SAS(Automated Short Answer Scoring)は、ルーブリックと参照回答に基づいて、与えられた入力をプロンプトに自動的にスコアするタスクである。
SASは現実世界のアプリケーションでは有用であるが、ルーブリックと参照の回答はプロンプトによって異なるため、新しいデータを取得して新しいプロンプトごとにモデルをトレーニングする必要がある。
このような要件は、特にリソースが限られており、いくつかのプロンプトしか使用されていない学校やオンラインコースにおいて、コストがかかる。
本研究では,既存のルーリック上でモデルを訓練し,ゴールドスコア信号で回答し,新しいプロンプトで微調整するという2段階のアプローチにより,このコスト削減を試みる。
具体的には、各プロンプトごとにスコアと基準回答が異なることを考慮し、キーフレーズ、あるいはその答えに含まれるべき代表表現を利用し、既に注釈付きプロンプト(例えばクロスプロンプト)を用いて、キーフレーズと回答の関係を学習するためにSASモデルを訓練する。
実験結果から,既存のクロスプロンプトデータのキーフレーズによる微調整は,特にトレーニングデータに制限がある場合,評価精度を著しく向上することが示された。
最後に,タスクの一般的な特性を学習するためには,モデルの設計が不可欠であることを示す。
Automated Short Answer Scoring (SAS) is the task of automatically scoring a given input to a prompt based on rubrics and reference answers. Although SAS is useful in real-world applications, both rubrics and reference answers differ between prompts, thus requiring a need to acquire new data and train a model for each new prompt. Such requirements are costly, especially for schools and online courses where resources are limited and only a few prompts are used. In this work, we attempt to reduce this cost through a two-phase approach: train a model on existing rubrics and answers with gold score signals and finetune it on a new prompt. Specifically, given that scoring rubrics and reference answers differ for each prompt, we utilize key phrases, or representative expressions that the answer should contain to increase scores, and train a SAS model to learn the relationship between key phrases and answers using already annotated prompts (i.e., cross-prompts). Our experimental results show that finetuning on existing cross-prompt data with key phrases significantly improves scoring accuracy, especially when the training data is limited. Finally, our extensive analysis shows that it is crucial to design the model so that it can learn the task's general property. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# 自閉症社会化のためのゲームにおける非自閉症ピアを含める
Including Non-Autistic Peers in Games Designed for Autistic Socialization ( http://arxiv.org/abs/2408.13967v1 ) ライセンス: Link先を確認 | Yiqi Xiao, | (参考訳) 著者らは、現在のゲーム実践のレビューを通じて、公的なソーシャルゲームの安全性と、自閉症のための真剣なゲームデザインに対する特異な医療的アプローチに関する懸念を強調した。
本論文は,自閉症児のニーズと既存ソリューションとの切り離しを明らかにする。
このギャップを埋めるために、真剣なゲームデザインに対する神経多様性アプローチを提案する。
このアプローチの目的は、自閉症児の社会的ニーズに対処し、ニューロタイプな仲間と直接、自信を持って、安全に対話できるようにすることである。
Through a review of current game practices, the author highlights concerns regarding the safety of public social games and the singular medical approach to serious game design for autism. The paper identifies a disconnect between the needs of autistic children and the existing solutions. To fill this gap, a neurodiversity approach to serious game design is proposed. This approach aims to address the social needs of autistic children, enabling them to interact with their neurotypical peers directly, confidently, and safely. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# DynaSurfGS:平面型ガウス平板による動的表面再構成
DynaSurfGS: Dynamic Surface Reconstruction with Planar-based Gaussian Splatting ( http://arxiv.org/abs/2408.13972v1 ) ライセンス: Link先を確認 | Weiwei Cai, Weicai Ye, Peng Ye, Tong He, Tao Chen, | (参考訳) 近年,動的なシーン再構築が注目されているのは,高品質でリアルタイムなレンダリング機能のためである。
様々な手法の中で、4D-GSのような4次元空間時間表現の構築は高品質なレンダリング画像で人気を集めている。
しかしながら、これらの方法は、離散的な3次元ガウス点雲が物体の表面と正確に一致しないため、しばしば準最適曲面を生成する。
この問題に対処するために,動的シナリオのフォトリアリスティックレンダリングと高忠実な表面再構成を実現するDynaSurfGSを提案する。
具体的には、DynaSurfGSフレームワークは、まず4Dニューラルボクセルからガウスの特徴をプラナーベースのガウススプラッティングに組み込んで、表面の正確な再構築を容易にする。
正規正規化を利用して、動的対象の表面の滑らかさを強制する。
また、ARAP(as-rigid-as-possible)の制約を組み込んで、3Dガウシアン地区の時間ステップ間の密接な厳密性を維持し、隣接する3Dガウシアンが常に密接な整合性を維持する。
大規模な実験により、DynaSurfGSは高忠実な表面再構成とフォトリアリスティックレンダリングの両方において最先端の手法を超越していることが示された。
Dynamic scene reconstruction has garnered significant attention in recent years due to its capabilities in high-quality and real-time rendering. Among various methodologies, constructing a 4D spatial-temporal representation, such as 4D-GS, has gained popularity for its high-quality rendered images. However, these methods often produce suboptimal surfaces, as the discrete 3D Gaussian point clouds fail to align with the object's surface precisely. To address this problem, we propose DynaSurfGS to achieve both photorealistic rendering and high-fidelity surface reconstruction of dynamic scenarios. Specifically, the DynaSurfGS framework first incorporates Gaussian features from 4D neural voxels with the planar-based Gaussian Splatting to facilitate precise surface reconstruction. It leverages normal regularization to enforce the smoothness of the surface of dynamic objects. It also incorporates the as-rigid-as-possible (ARAP) constraint to maintain the approximate rigidity of local neighborhoods of 3D Gaussians between timesteps and ensure that adjacent 3D Gaussians remain closely aligned throughout. Extensive experiments demonstrate that DynaSurfGS surpasses state-of-the-art methods in both high-fidelity surface reconstruction and photorealistic rendering. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# チャフを通り抜ける:生成したコード候補のランク付けのための実行フィードバックの利用について
Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates ( http://arxiv.org/abs/2408.13976v1 ) ライセンス: Link先を確認 | Zhihong Sun, Yao Wan, Jia Li, Hongyu Zhang, Zhi Jin, Ge Li, Chen Lyu, | (参考訳) GPT-4、StarCoder、CodeLlamaといった大規模言語モデル(LLM)は、与えられた自然言語記述に基づいて自動的にコードを生成することによって、開発者がプログラミングにアプローチする方法を変えつつある。
進歩にもかかわらず、特に複雑なプログラミングタスクにおいて、構文的および意味論的に正しいコードを生成することは難しい。
通常、個人はLSMを使って複数の候補解を生成し、正しいコードを生成する可能性を高める。
しかし、これらの候補から正しいコードを選択することは、コードランキングとして知られるプロセスが大きな課題である。
コードランキングに関する現在の研究は、実行ベースおよび実行ベースでない方法に分類することができる。
実行ベースの手法は有効ではあるが、品質ユニットテストの欠如やセキュリティリスクなど、注目すべき制限に直面している。
CodeRankerのような非実行ベースのメソッドは、コードローダをトレーニングするための分類ラベルのみに依存するが、微妙なエラーをキャプチャし、詳細なエラー洞察を提供するのに苦労している。
両アプローチの長所と短所を認識し,新しい手法を提案する。
私たちの研究における重要な洞察は、効果的なコードランキングラが、分類ラベルのみに依存しているため、誤ったコードの根本原因を真に理解することが期待されていることです。
この問題に触発された本論文では,実行フィードバックを活用したコードランキングの革新的なアプローチである RankEF について述べる。
RankEFは、コード分類と実行フィードバック生成を統合するためにマルチタスク学習を採用している。
このアプローチにより、モデルが不正コードの背後にある理由を理解し、ランキングフェーズ中にコードを実行することなく、正しいソリューションと間違ったソリューションを区別することが可能になる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
Large Language Models (LLMs), such as GPT-4, StarCoder, and CodeLlama, are transforming the way developers approach programming by automatically generating code based on given natural language descriptions. Despite advancements, generating syntactically and semantically correct code remains challenging, especially for complex programming tasks. Typically, individuals generate multiple candidate solutions using LLMs to increase the likelihood of producing correct code. However, selecting the correct code from these candidates-a process known as code ranking-remains a major challenge. Current research on code ranking can be categorized into execution-based and non-execution-based methods. Execution-based methods, although effective, encounter notable limitations, such as scarcity of quality unit tests and security risks. Non-execution-based methods like CodeRanker, which rely solely on classification labels to train a code ranker, struggle to capture subtle errors and provide detailed error insights. Recognizing the strengths and limitations of both approaches, we propose a new method. The key insight of our work is that an effective code ranker is expected to genuinely comprehend the underlying causes of erroneous code, as relying solely on classification labels is insufficient. Inspired by this, this paper puts forward RankEF, an innovative approach for code ranking that leverages execution feedback. RankEF employs multi-task learning to integrate code classification with execution feedback generation. This approach enables the model to understand the reasons behind incorrect code, distinguishing between correct and incorrect solutions without the need to execute the code during the ranking phase. Experiments on three code generation benchmarks demonstrate that RankEF significantly outperforms the state-of-the-art CodeRanker. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# 3次リンパ構造検出のためのマスク誘導逆変換学習による組織学的仮想染色
Histology Virtual Staining with Mask-Guided Adversarial Transfer Learning for Tertiary Lymphoid Structure Detection ( http://arxiv.org/abs/2408.13978v1 ) ライセンス: Link先を確認 | Qiuli Wang, Yongxu Liu, Li Ma, Xianqi Wang, Wei Chen, Xiaohong Yao, | (参考訳) 病理組織学的3次リンパ組織構造(TLS)は, 各種固形腫瘍における免疫療法の効果と相関が強くなっている。
伝統的にTLSの同定と特性は免疫組織化学(IHC)染色技術に依存しており、B細胞にCD20のようなマーカーを用いる。
IHCの特異性にもかかわらず、ヘマトキシリンエオシン(H&E)染色はよりアクセシブルで費用対効果の高い選択を提供する。
H&Eステンディングスライドの出現率に基づき,仮想的な病理染色を目的としたマスクガイド型逆変換学習手法を提案する。
この方法は、核、赤血球、陽性反応領域などの様々な染色条件下で様々な組織種にまたがるニュアンスド色の変化を明示的なラベル情報なしで選択的に捉え、現実的なIHC様仮想染色パッチを順応的に合成し、ポジティブ反応を複製する。
さらに,マスクガイド転送モジュールとH&Eベースの仮想ステイニングTLS検出モジュールを含む統合フレームワークであるVirtual IHC Pathology Analysis Network (VIPA-Net)を提案する。
VIPA-Netは、H&Eステンディングスライドと合成仮想IHCパッチの両方を相乗的に利用し、H&E全スライド画像(WSI)内のTLSの検出を強化する。
The Cancer Genome Atlas (TCGA)の1019個の注釈付きスライドからなる包括的データセットを用いてネットワークの評価を行った。
実験結果は、VIPA-NetがTLS検出精度を大幅に高め、パブリックデータセット全体にわたる実際のCD20染色の必要性を効果的に回避していることを示している。
Histological Tertiary Lymphoid Structures (TLSs) are increasingly recognized for their correlation with the efficacy of immunotherapy in various solid tumors. Traditionally, the identification and characterization of TLSs rely on immunohistochemistry (IHC) staining techniques, utilizing markers such as CD20 for B cells. Despite the specificity of IHC, Hematoxylin-Eosin (H&E) staining offers a more accessible and cost-effective choice. Capitalizing on the prevalence of H&E staining slides, we introduce a novel Mask-Guided Adversarial Transfer Learning method designed for virtual pathological staining. This method adeptly captures the nuanced color variations across diverse tissue types under various staining conditions, such as nucleus, red blood cells, positive reaction regions, without explicit label information, and adeptly synthesizes realistic IHC-like virtual staining patches, even replicating the positive reaction. Further, we propose the Virtual IHC Pathology Analysis Network (VIPA-Net), an integrated framework encompassing a Mask-Guided Transfer Module and an H&E-Based Virtual Staining TLS Detection Module. VIPA-Net synergistically harnesses both H\&E staining slides and the synthesized virtual IHC patches to enhance the detection of TLSs within H&E Whole Slide Images (WSIs). We evaluate the network with a comprehensive dataset comprising 1019 annotated slides from The Cancer Genome Atlas (TCGA). Experimental results compellingly illustrate that the VIPA-Net substantially elevates TLS detection accuracy, effectively circumventing the need for actual CD20 staining across the public dataset. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# ネメシス:視覚言語モデルのソフトプロンプトベクトルの正規化
Nemesis: Normalizing the Soft-prompt Vectors of Vision-Language Models ( http://arxiv.org/abs/2408.13979v1 ) ライセンス: Link先を確認 | Shuai Fu, Xiequn Wang, Qiushi Huang, Yu Zhang, | (参考訳) CLIPのような大規模事前学習型視覚言語モデル(VLM)の普及に伴い、ソフトプロンプトチューニングは、これらのモデルを様々な下流タスクに適応するための一般的な手法となっている。
しかしながら、学習可能なソフトプロンプトベクトルの性質、特にVLMの性能に対するそれらのノルムの影響を掘り下げる研究はほとんどない。
この研究のギャップを埋めるために、我々はまず、大規模な汚職実験を行うことで、"textbf{Low-Norm Effect"と呼ばれる現象を発見し、ある学習されたプロンプトのノルムを減らすことで、VLMの性能を一時的に向上させ、しばしば劣化させる。
この効果を利用するために、VLMのソフトプロンプトベクトルを正規化するために、vi\textbf{si}on-Language model\textbf{s} (\textbf{Nemesis}) の th\textbf{e} soft-pro\textbf{m}pt v\textbf{e}ctors という新しい手法を提案する。
我々の知識を最大限に活用するために、我々の研究はVLMにおけるソフトプロンプトベクトルのノルムの役割を体系的に研究し、ソフトプロンプトチューニングの今後の研究に有用な洞察を提供する最初のものである。
コードは \texttt{\href{https://github.com/ShyFoo/Nemesis}{https://github.com/ShyFoo/Nemesis}} で公開されている。
With the prevalence of large-scale pretrained vision-language models (VLMs), such as CLIP, soft-prompt tuning has become a popular method for adapting these models to various downstream tasks. However, few works delve into the inherent properties of learnable soft-prompt vectors, specifically the impact of their norms to the performance of VLMs. This motivates us to pose an unexplored research question: ``Do we need to normalize the soft prompts in VLMs?'' To fill this research gap, we first uncover a phenomenon, called the \textbf{Low-Norm Effect} by performing extensive corruption experiments, suggesting that reducing the norms of certain learned prompts occasionally enhances the performance of VLMs, while increasing them often degrades it. To harness this effect, we propose a novel method named \textbf{N}ormalizing th\textbf{e} soft-pro\textbf{m}pt v\textbf{e}ctors of vi\textbf{si}on-language model\textbf{s} (\textbf{Nemesis}) to normalize soft-prompt vectors in VLMs. To the best of our knowledge, our work is the first to systematically investigate the role of norms of soft-prompt vector in VLMs, offering valuable insights for future research in soft-prompt tuning. The code is available at \texttt{\href{https://github.com/ShyFoo/Nemesis}{https://github.com/ShyFoo/Nemesis}}. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# FusionSAM:マルチモーダル核融合とセグメンテーションのための潜在空間駆動セグメンテーションモデル
FusionSAM: Latent Space driven Segment Anything Model for Multimodal Fusion and Segmentation ( http://arxiv.org/abs/2408.13980v1 ) ライセンス: Link先を確認 | Daixun Li, Weiying Xie, Mingxiang Cao, Yunke Wang, Jiaqing Zhang, Yunsong Li, Leyuan Fang, Chang Xu, | (参考訳) マルチモーダル画像融合とセグメンテーションは、各種センサのデータを統合することにより、自律運転におけるシーン理解を促進する。
しかし、現在のモデルでは、中間プロセスの微調整をガイドし、関連する領域に注意を集中できる包括的な融合機能が欠如しているため、そのようなシーンで密集した要素を効率的にセグメント化するのに苦労している。
Segment Anything Model (SAM) は変換セグメンテーション法として登場した。
微調整された制御が欠けているトランスに比べて、フレキシブルプロンプトエンコーダによりより効果的なプロンプトを提供する。
しかし、SAMは自然画像のマルチモーダル融合の分野では広く研究されていない。
本稿では,SAMをマルチモーダル画像分割に初めて導入し,LSTG(Latent Space Token Generation)とFMP(Fusion Mask Prompting)モジュールを組み合わせた新しいフレームワークを提案する。
具体的には、まずベクトル量子化により2つのモードの潜在空間特性を取得し、それらをクロスアテンションベースのドメイン間融合モジュールに埋め込んで、モダリティ間の長距離依存関係を確立する。
次に、これらの総合融合機能をプロンプトとして使用し、正確なピクセルレベルのセグメンテーションを導出する。
いくつかの公開データセットに対する大規模な実験により、提案手法は多モーダル自動運転シナリオにおいてSAMとSAM2を著しく上回り、最先端のアプローチよりも少なくとも3.9$\%$高いセグメンテーションmIoUを達成することが示された。
Multimodal image fusion and segmentation enhance scene understanding in autonomous driving by integrating data from various sensors. However, current models struggle to efficiently segment densely packed elements in such scenes, due to the absence of comprehensive fusion features that can guide mid-process fine-tuning and focus attention on relevant areas. The Segment Anything Model (SAM) has emerged as a transformative segmentation method. It provides more effective prompts through its flexible prompt encoder, compared to transformers lacking fine-tuned control. Nevertheless, SAM has not been extensively studied in the domain of multimodal fusion for natural images. In this paper, we introduce SAM into multimodal image segmentation for the first time, proposing a novel framework that combines Latent Space Token Generation (LSTG) and Fusion Mask Prompting (FMP) modules to enhance SAM's multimodal fusion and segmentation capabilities. Specifically, we first obtain latent space features of the two modalities through vector quantization and embed them into a cross-attention-based inter-domain fusion module to establish long-range dependencies between modalities. Then, we use these comprehensive fusion features as prompts to guide precise pixel-level segmentation. Extensive experiments on several public datasets demonstrate that the proposed method significantly outperforms SAM and SAM2 in multimodal autonomous driving scenarios, achieving at least 3.9$\%$ higher segmentation mIoU than the state-of-the-art approaches. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# ARANet: 頚部癌に対する放射線治療線量予測のための深層情報を用いた注意型残差対位ネットワーク
ARANet: Attention-based Residual Adversarial Network with Deep Supervision for Radiotherapy Dose Prediction of Cervical Cancer ( http://arxiv.org/abs/2408.13981v1 ) ライセンス: Link先を確認 | Lu Wen, Wenxia Yin, Zhenghao Feng, Xi Wu, Deng Xiong, Yan Wang, | (参考訳) 放射線治療は頚癌に対する主要な治療であり、その最終的な目標は、臓器・リスク(OAR)の線量沈着を極力低減しつつ、計画目標容積(PTV)が所定の量に達することを確実にすることである。
これらの臨床要件を達成するために、医療物理学者は、クリニックで最適なものを見つけるまで、放射線治療計画を何度も試行錯誤的に手動で調整する必要がある。
しかし、このような試行錯誤プロセスは非常に時間がかかり、計画の質は医学物理学者の経験に大きく依存する。
本稿では,頸部がんの3次元線量分布を自動的に予測するために,ARANetという深層監視機能を備えたエンド・ツー・エンドアテンションベースのResidual Adversarial Networkを提案する。
具体的には、コンピュータトモグラフィ(CT)画像とそれに対応するPTVとOARのセグメンテーションマスクを考えると、ARANetは線量マップを生成するために予測ネットワークを使用している。
また,マルチスケールの残留注意モジュールと深層監視機構を用いて予測ネットワークを強制し,無関係な情報を抑えつつ,より有用な線量特徴を抽出する。
提案法は,54例の子宮頸癌患者を含む社内データセットで検証し,他の最先端の方法と比較して明らかな優位性を示した。
Radiation therapy is the mainstay treatment for cervical cancer, and its ultimate goal is to ensure the planning target volume (PTV) reaches the prescribed dose while reducing dose deposition of organs-at-risk (OARs) as much as possible. To achieve these clinical requirements, the medical physicist needs to manually tweak the radiotherapy plan repeatedly in a trial-anderror manner until finding the optimal one in the clinic. However, such trial-and-error processes are quite time-consuming, and the quality of plans highly depends on the experience of the medical physicist. In this paper, we propose an end-to-end Attentionbased Residual Adversarial Network with deep supervision, namely ARANet, to automatically predict the 3D dose distribution of cervical cancer. Specifically, given the computer tomography (CT) images and their corresponding segmentation masks of PTV and OARs, ARANet employs a prediction network to generate the dose maps. We also utilize a multi-scale residual attention module and deep supervision mechanism to enforce the prediction network to extract more valuable dose features while suppressing irrelevant information. Our proposed method is validated on an in-house dataset including 54 cervical cancer patients, and experimental results have demonstrated its obvious superiority compared to other state-of-the-art methods. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# オンラインテスト時間適応におけるドメインシフト補正のためのデュアルパス対応リフティング
Dual-Path Adversarial Lifting for Domain Shift Correction in Online Test-time Adaptation ( http://arxiv.org/abs/2408.13983v1 ) ライセンス: Link先を確認 | Yushun Tang, Shuoshuo Chen, Zhihe Lu, Xinchao Wang, Zhihai He, | (参考訳) トランスフォーマーベースの手法は、様々な機械学習タスクにおいて顕著な成功を収めた。
トランスモデルの効率的なテスト時間適応法を設計する方法は重要な研究課題となっている。
本研究では、入力信号を主成分と雑音成分に効率的に分離できるマルチスケール信号処理で開発されたデュアルサブバンドウェーブレットリフト方式により、テスト時間適応時のドメインシフト補正のためのデュアルパストークンリフトを導入する。
具体的には,変換器ネットワークの各層に,‘textit{ domain shift token}’と呼ばれる余分なトークンを導入する。
次に、インターリーブされたトークン予測とドメインシフトトークンのパスと、すべてのネットワーク層におけるクラストークンのパスの間の更新で、デュアルパスリフトを実行します。
予測と更新のネットワークは、敵対的に学習される。
特に、予測ネットワークの課題は、全てのクラスと対象ドメイン内の全てのサンプルに大きく不変であるべき領域シフトの残音を学習することである。
言い換えれば、予測されたドメインシフトノイズは、すべてのサンプルクラス間で区別できないべきである。
一方、更新ネットワークのタスクは、入力画像サンプルからドメインシフトを取り除き、特徴空間内の異なるクラス間で、入力サンプルがより差別的になるようにして、クラストークンを更新することである。
理論的にも実用的にも,2つの敵タスクを伴う予測・更新ネットワークを効果的に学習するためには,更新ネットワークにスムーズな最適化を適用する必要があるが,予測ネットワークには非スムーズな最適化が必要であることを実証する。
評価実験の結果,提案手法はオンライン完全テスト時間領域適応性能を大幅に向上させることが示された。
コードは \url{https://github.com/yushuntang/DPAL} で公開されている。
Transformer-based methods have achieved remarkable success in various machine learning tasks. How to design efficient test-time adaptation methods for transformer models becomes an important research task. In this work, motivated by the dual-subband wavelet lifting scheme developed in multi-scale signal processing which is able to efficiently separate the input signals into principal components and noise components, we introduce a dual-path token lifting for domain shift correction in test time adaptation. Specifically, we introduce an extra token, referred to as \textit{domain shift token}, at each layer of the transformer network. We then perform dual-path lifting with interleaved token prediction and update between the path of domain shift tokens and the path of class tokens at all network layers. The prediction and update networks are learned in an adversarial manner. Specifically, the task of the prediction network is to learn the residual noise of domain shift which should be largely invariant across all classes and all samples in the target domain. In other words, the predicted domain shift noise should be indistinguishable between all sample classes. On the other hand, the task of the update network is to update the class tokens by removing the domain shift from the input image samples so that input samples become more discriminative between different classes in the feature space. To effectively learn the prediction and update networks with two adversarial tasks, both theoretically and practically, we demonstrate that it is necessary to use smooth optimization for the update network but non-smooth optimization for the prediction network. Experimental results on the benchmark datasets demonstrate that our proposed method significantly improves the online fully test-time domain adaptation performance. Code is available at \url{https://github.com/yushuntang/DPAL}. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# TF-Attack:大規模言語モデルにおける転送可能かつ高速な敵攻撃
TF-Attack: Transferable and Fast Adversarial Attacks on Large Language Models ( http://arxiv.org/abs/2408.13985v1 ) ライセンス: Link先を確認 | Zelin Li, Kehai Chen, Xuefeng Bai, Lemao Liu, Mingming Yang, Yang Xiang, Min Zhang, | (参考訳) 大規模言語モデル (LLM) の進歩により, LLM に対する敵対的攻撃が近年注目されている。
既存の対向攻撃法は移動性に限界があり,特にLSMに適用した場合,特に非効率であることがわかった。
本稿では,従来主流であった敵攻撃手法のコアメカニズムを解析し,それを明らかにする。
1) 重要得点の分布は,被害者のモデルによって著しく異なり,伝達可能性に制限がある。
2) シーケンシャル・アタック・プロセスは時間的オーバーヘッドを生じさせる。
上記の2つの知見に基づいて, TF-Attack という新しいスキームを導入し, LLM に対するTransferable と Fast の敵攻撃について検討した。
TF-Attack は外部の LLM を被害者モデルではなく第三者の監督者として使用し、文内の重要な単位を識別する。
さらにTF-Attackは、攻撃の並列置換を可能にするImportance Levelの概念を導入している。
我々は6つの広く採用されているベンチマークについて広範な実験を行い、提案手法を自動測定と人為計測の両方で評価した。
その結果,本手法は従来手法をはるかに上回り,従来の攻撃戦略の最大20倍の速度向上を実現していることがわかった。
With the great advancements in large language models (LLMs), adversarial attacks against LLMs have recently attracted increasing attention. We found that pre-existing adversarial attack methodologies exhibit limited transferability and are notably inefficient, particularly when applied to LLMs. In this paper, we analyze the core mechanisms of previous predominant adversarial attack methods, revealing that 1) the distributions of importance score differ markedly among victim models, restricting the transferability; 2) the sequential attack processes induces substantial time overheads. Based on the above two insights, we introduce a new scheme, named TF-Attack, for Transferable and Fast adversarial attacks on LLMs. TF-Attack employs an external LLM as a third-party overseer rather than the victim model to identify critical units within sentences. Moreover, TF-Attack introduces the concept of Importance Level, which allows for parallel substitutions of attacks. We conduct extensive experiments on 6 widely adopted benchmarks, evaluating the proposed method through both automatic and human metrics. Results show that our method consistently surpasses previous methods in transferability and delivers significant speed improvements, up to 20 times faster than earlier attack strategies. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# AgentMove: 大規模言語モデルに基づくエージェントフレームワークによる移動度予測
AgentMove: Predicting Human Mobility Anywhere Using Large Language Model based Agentic Framework ( http://arxiv.org/abs/2408.13986v1 ) ライセンス: Link先を確認 | Jie Feng, Yuwei Du, Jie Zhao, Yong Li, | (参考訳) 人間の移動性予測は、様々な現実世界の応用において重要な役割を担っている。
ディープラーニングベースのモデルは過去10年間に有望な成果を上げてきたが、トレーニングのための広範なプライベートモビリティデータへの依存と、ゼロショット予測を行うことができないため、さらなる進歩を妨げている。
近年,大きな言語モデル (LLM) をモビリティ予測タスクに適用する試みが試みられている。
しかしながら、彼らのパフォーマンスは、ワークフローの体系的な設計が欠如していることに制約されている。
彼らはLSMを用いて最終出力を直接生成し、LCMが複雑なモビリティパターンを明らかにする可能性を制限し、地球空間知識の広範な予備を過小評価する。
本稿では,世界中の都市において,汎用的なモビリティ予測を実現するためのエージェント予測フレームワークであるAgentMoveを紹介する。
AgentMoveでは,まず移動予測タスクを3つのサブタスクに分解し,それに対応するモジュールを設計し,個別の移動パターンマイニングのための空間時空間記憶,都市構造の影響をモデル化するための世界知識生成,人口間の共有パターンをキャプチャする集合知識抽出器を設計する。
最後に、3つのモジュールの結果を組み合わせて、最終的な予測を生成するための推論ステップを実行する。
12都市の2つの情報源からの移動データに関する大規模な実験により、AgentMoveは様々な指標において8%以上のベースラインを上回り、様々なLLMをベースとして頑健な予測を示し、都市全体の地理的偏差も少ないことが示されている。
コードとデータはhttps://github.com/tsinghua-fib-lab/AgentMoveにある。
Human mobility prediction plays a crucial role in various real-world applications. Although deep learning based models have shown promising results over the past decade, their reliance on extensive private mobility data for training and their inability to perform zero-shot predictions, have hindered further advancements. Recently, attempts have been made to apply large language models (LLMs) to mobility prediction task. However, their performance has been constrained by the absence of a systematic design of workflow. They directly generate the final output using LLMs, which limits the potential of LLMs to uncover complex mobility patterns and underestimates their extensive reserve of global geospatial knowledge. In this paper, we introduce AgentMove, a systematic agentic prediction framework to achieve generalized mobility prediction for any cities worldwide. In AgentMove, we first decompose the mobility prediction task into three sub-tasks and then design corresponding modules to complete these subtasks, including spatial-temporal memory for individual mobility pattern mining, world knowledge generator for modeling the effects of urban structure and collective knowledge extractor for capturing the shared patterns among population. Finally, we combine the results of three modules and conduct a reasoning step to generate the final predictions. Extensive experiments on mobility data from two sources in 12 cities demonstrate that AgentMove outperforms the best baseline more than 8% in various metrics and it shows robust predictions with various LLMs as base and also less geographical bias across cities. Codes and data can be found in https://github.com/tsinghua-fib-lab/AgentMove. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# フォーカスされた大規模言語モデルは安定した多ショット学習者である
Focused Large Language Models are Stable Many-Shot Learners ( http://arxiv.org/abs/2408.13987v1 ) ライセンス: Link先を確認 | Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Yueqi Zhang, Chuyi Tan, Boyuan Pan, Heda Wang, Yao Hu, Kan Li, | (参考訳) In-Context Learning (ICL)により、大規模な言語モデル(LLM)がデモから学習することで、迅速なタスク適応を実現することができる。
LLMの利用可能なコンテキスト長の増加に伴い、最近の実験により、ICLの性能は多ショット(デモ)設定で必ずしも良いスケールではないことが示されている。
理論的および実験的に、その理由がクエリからモデル注意を分散させ、キーコンテンツに対する理解を妨げることにあることを確認します。
そこで本研究では,トークンレベルでの重要でないコンテンツによる注意の分散を回避し,実演レベルでの現在のクエリに対する十分な注意を確保するために階層的な注意を運用するために,自明なフィルタリングを行う訓練不要なFocusICLを提案する。
また、実演のモデルパープレキシティに基づくFocusICLの効率的なハイパーパラメータ探索戦略を設計する。
総合的な実験により、FocusICLはバニラICLよりも平均5.2%の性能向上を達成し、多発的な実演と同等にスケール可能であることが確認された。
In-Context Learning (ICL) enables large language models (LLMs) to achieve rapid task adaptation by learning from demonstrations. With the increase in available context length of LLMs, recent experiments have shown that the performance of ICL does not necessarily scale well in many-shot (demonstration) settings. We theoretically and experimentally confirm that the reason lies in more demonstrations dispersing the model attention from the query, hindering its understanding of key content. Inspired by how humans learn from examples, we propose a training-free method FocusICL, which conducts triviality filtering to avoid attention being diverted by unimportant contents at token-level and operates hierarchical attention to further ensure sufficient attention towards current query at demonstration-level. We also design an efficient hyperparameter searching strategy for FocusICL based on model perplexity of demonstrations. Comprehensive experiments validate that FocusICL achieves an average performance improvement of 5.2% over vanilla ICL and scales well with many-shot demonstrations. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# 医療報告書の自動作成 : 方法と応用
Automatic Medical Report Generation: Methods and Applications ( http://arxiv.org/abs/2408.13988v1 ) ライセンス: Link先を確認 | Li Guo, Anas M. Tahir, Dong Zhang, Z. Jane Wang, Rabab K. Ward, | (参考訳) 医用画像の需要が増加し、放射線技師の能力は超え、診断の遅れと潜在的な誤診につながった。
人工知能(AI)技術、特に自動医療報告生成(AMRG)は、このジレンマに対して有望な解決策を提供する。
本稿では,2021年から2024年までのAMRG法について概観的に検討する。
それ
(i)この分野の主要な課題に対する解決策を提示する。
(II)様々な画像モダリティにまたがるAMRG応用の探索
(iii)公開データセットを導入
(4)評価基準の概要
(v)モデル性能を著しく向上させる技術を特定し、
(vi)未解決問題と今後の研究方向性について論じる。
本稿は,既存の文献を包括的に理解し,価値ある将来の研究を促すことを目的としている。
The increasing demand for medical imaging has surpassed the capacity of available radiologists, leading to diagnostic delays and potential misdiagnoses. Artificial intelligence (AI) techniques, particularly in automatic medical report generation (AMRG), offer a promising solution to this dilemma. This review comprehensively examines AMRG methods from 2021 to 2024. It (i) presents solutions to primary challenges in this field, (ii) explores AMRG applications across various imaging modalities, (iii) introduces publicly available datasets, (iv) outlines evaluation metrics, (v) identifies techniques that significantly enhance model performance, and (vi) discusses unresolved issues and potential future research directions. This paper aims to provide a comprehensive understanding of the existing literature and inspire valuable future research. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# Dual-CBA: 双方向最適化の観点からの2段階連続バイアスアダプタによるオンライン連続学習の改善
Dual-CBA: Improving Online Continual Learning via Dual Continual Bias Adaptors from a Bi-level Optimization Perspective ( http://arxiv.org/abs/2408.13991v1 ) ライセンス: Link先を確認 | Quanziang Wang, Renzhen Wang, Yichen Wu, Xixi Jia, Minghao Zhou, Deyu Meng, | (参考訳) オンライン連続学習(CL)では、分散の変化に訓練されたモデルは、新しく受け取ったタスクに対する学習した知識とバイアスを忘れやすい。
この問題に対処するために、トレーニング中に破滅的な分散シフトに対応するために分類ネットワークを増強し、ネットワークが全てのタスクを安定的に統合できるようにする2段階のフレームワークであるContinuous Bias Adaptor(CBA)を提案する。
しかし、CBAモジュールは、クラス固有の方法で分散シフトを調整し、安定性ギャップ問題を悪化させ、ある程度は、オンラインCLにおける継続的なテストの必要性を満たすことができない。
この課題を緩和するために、新しいタスクと古いタスクからクラスの後部確率を個別に集約し、結果として生じる後部確率に安定した調整を施した、クラスに依存しない新しいCBAモジュールを提案する。
2種類のCBAモジュールを統合されたDual-CBAモジュールと組み合わせることで、破滅的な分散シフトに対応でき、同時にオンラインCLのリアルタイムテスト要件を満たすことができる。
さらに,2レベルフレームワークの内ループ最適化問題から生じる特徴バイアスを軽減するために,その人口統計を再推定するためのBNモジュールであるインクリメンタルバッチ正規化(Incrmental Batch Normalization, IBN)を提案する。
提案手法の有効性を検証するため,提案手法は破滅的な分布シフトを緩和する方法を理論的に検証し,その優位性を4つのリハーサルベースラインと3つの公開連続学習ベンチマークに基づいて実証的に示す。
In online continual learning (CL), models trained on changing distributions easily forget previously learned knowledge and bias toward newly received tasks. To address this issue, we present Continual Bias Adaptor (CBA), a bi-level framework that augments the classification network to adapt to catastrophic distribution shifts during training, enabling the network to achieve a stable consolidation of all seen tasks. However, the CBA module adjusts distribution shifts in a class-specific manner, exacerbating the stability gap issue and, to some extent, fails to meet the need for continual testing in online CL. To mitigate this challenge, we further propose a novel class-agnostic CBA module that separately aggregates the posterior probabilities of classes from new and old tasks, and applies a stable adjustment to the resulting posterior probabilities. We combine the two kinds of CBA modules into a unified Dual-CBA module, which thus is capable of adapting to catastrophic distribution shifts and simultaneously meets the real-time testing requirements of online CL. Besides, we propose Incremental Batch Normalization (IBN), a tailored BN module to re-estimate its population statistics for alleviating the feature bias arising from the inner loop optimization problem of our bi-level framework. To validate the effectiveness of the proposed method, we theoretically provide some insights into how it mitigates catastrophic distribution shifts, and empirically demonstrate its superiority through extensive experiments based on four rehearsal-based baselines and three public continual learning benchmarks. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# アバターのコンセプトスライダ:細かいコントロールで人間のアバターのコンセプトを操る
Avatar Concept Slider: Manipulate Concepts In Your Human Avatar With Fine-grained Control ( http://arxiv.org/abs/2408.13995v1 ) ライセンス: Link先を確認 | Yixuan He, Lin Geng Foo, Ajmal Saeed Mian, Hossein Rahmani, Jun Jiu, | (参考訳) 言語に基づく人間の3次元アバターのユーザの要求に正確に適合する編集は、自然言語の本質的曖昧さと限定的な表現性のために困難である。
そこで本研究では,Avatar Concept Slider (ACS) を提案する。Avatar Concept Slider (ACS) は,人間のアバターにおけるセマンティックな概念を,スライダー・トラックに沿ってノブを移動させるような2つの概念の中間点に対して正確に操作できる3次元アバター編集手法である。
これを実現するために、ACSには3つの設計があります。
1) 線形判別分析に基づくコンセプトスライディング損失から, 正確な編集を行うための概念固有の軸を特定できる。
2 主成分分析に基づく属性保存損益は、編集中のアバター識別の保存を改善するものである。
3) 目的概念に最も敏感なプリミティブのみを更新する概念感度に基づく3次元ガウススプラッティングプリミティブ選択機構により効率を向上する。
その結果, ACSはアバターの品質を損なわず, アバターの識別特性を損なうことなく, 高精度な3次元アバター編集が可能であった。
Language based editing of 3D human avatars to precisely match user requirements is challenging due to the inherent ambiguity and limited expressiveness of natural language. To overcome this, we propose the Avatar Concept Slider (ACS), a 3D avatar editing method that allows precise manipulation of semantic concepts in human avatars towards a specified intermediate point between two extremes of concepts, akin to moving a knob along a slider track. To achieve this, our ACS has three designs. 1) A Concept Sliding Loss based on Linear Discriminant Analysis to pinpoint the concept-specific axis for precise editing. 2) An Attribute Preserving Loss based on Principal Component Analysis for improved preservation of avatar identity during editing. 3) A 3D Gaussian Splatting primitive selection mechanism based on concept-sensitivity, which updates only the primitives that are the most sensitive to our target concept, to improve efficiency. Results demonstrate that our ACS enables fine-grained 3D avatar editing with efficient feedback, without harming the avatar quality or compromising the avatar's identifying attributes. | 翻訳日:2024-08-27 15:12:30 公開日:2024-08-26 |
# 生物にインスパイアされたスパイクニューラルネットワーク研究の進展と新しいパラダイム
Research Advances and New Paradigms for Biology-inspired Spiking Neural Networks ( http://arxiv.org/abs/2408.13996v1 ) ライセンス: Link先を確認 | Tianyu Zheng, Liyuan Han, Tielin Zhang, | (参考訳) スパイキングニューラルネットワーク(SNN)は、その生物学的妥当性と計算効率のため、計算シミュレーションと人工知能分野で人気を集めている。
本稿では,SNNの歴史的発展を考察し,これら2つの分野が相互に交わり,急速に融合していることを結論する。
Dynamic Vision Sensors (DVS) と Dynamic Audio Sensors (DAS) が成功した後、SNNは連続的な視覚信号追跡、自動音声認識、連続制御のための強化学習などの適切なパラダイムを発見し、スパイクエンコーディング、ニューロンの不均一性、特定の機能的回路、マルチスケールの可塑性などの主要な特徴を広くサポートしてきた。
これらの現実世界のパラダイムと比較すると、脳は生物学の世界パラダイムのスパイクバージョンを含み、同様のレベルの複雑さを示し、通常現実世界の鏡と見なされる。
侵襲的で並列なBrain-Computer Interface(BCI)の急速な開発と、生物スパイク列車のオンラインパターン認識と刺激制御を含む新しいBCIベースのパラダイムを考えると、SNNはエネルギー効率、堅牢性、柔軟性の利点を自然に活用する。
生物学的脳は、SNNと効果的なSNN機械学習アルゴリズムの研究にインスピレーションを与え、新しいBCIパラダイムに適用することで、脳内の神経科学の発見を促進するのに役立つ。
このような肯定的なフィードバックと双方向の相互作用は、脳科学の研究と脳にインスパイアされたインテリジェンス技術を加速させる。
Spiking neural networks (SNNs) are gaining popularity in the computational simulation and artificial intelligence fields owing to their biological plausibility and computational efficiency. This paper explores the historical development of SNN and concludes that these two fields are intersecting and merging rapidly. Following the successful application of Dynamic Vision Sensors (DVS) and Dynamic Audio Sensors (DAS), SNNs have found some proper paradigms, such as continuous visual signal tracking, automatic speech recognition, and reinforcement learning for continuous control, that have extensively supported their key features, including spike encoding, neuronal heterogeneity, specific functional circuits, and multiscale plasticity. Compared to these real-world paradigms, the brain contains a spiking version of the biology-world paradigm, which exhibits a similar level of complexity and is usually considered a mirror of the real world. Considering the projected rapid development of invasive and parallel Brain-Computer Interface (BCI), as well as the new BCI-based paradigms that include online pattern recognition and stimulus control of biological spike trains, SNNs naturally leverage their advantages in energy efficiency, robustness, and flexibility. The biological brain has inspired the present study of SNNs and effective SNN machine-learning algorithms, which can help enhance neuroscience discoveries in the brain by applying them to the new BCI paradigm. Such two-way interactions with positive feedback can accelerate brain science research and brain-inspired intelligence technology. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# 移動エージェントを用いたモデルキャッシングによる分散フェデレーション学習
Decentralized Federated Learning with Model Caching on Mobile Agents ( http://arxiv.org/abs/2408.14001v1 ) ライセンス: Link先を確認 | Xiaoyu Wang, Guojun Xiong, Houwei Cao, Jian Li, Yong Liu, | (参考訳) Federated Learning (FL) は、中央サーバによって調整された分散エージェントにデータと計算能力を使って共有モデルをトレーニングすることを目的としている。
分散FL(DFL)は、エージェント間のローカルモデル交換とアグリゲーションを利用して、中央サーバ上の通信および計算オーバーヘッドを低減する。
しかし、エージェントが移動している場合、エージェント間の通信機会は散発的になり、DFLの収束と精度を阻害する。
本稿では,モバイルエージェント上でのモデルキャッシングによる遅延耐性モデル拡散とアグリゲーションについて検討する。
各エージェントは、自身のモデルだけでなく、最近遭遇したエージェントのモデルも格納する。
2人のエージェントが会うと、キャッシュされたモデルだけでなく、独自のモデルも交換する。
ローカルモデルアグリゲーションはキャッシュ内のすべてのモデルで動作する。
キャッシュモデルによるDFLの収束を理論的に解析し、キャッシュによって導入されたモデルの不安定さを明示的に考慮する。
異なるDFLおよび移動シナリオに対して異なるモデルキャッシングアルゴリズムを設計・比較する。
本研究では,車載ネットワークにおいて,エージェントの移動性,キャッシュの安定性,モデル収束性の相互作用を系統的に研究するために,詳細な事例研究を行う。
我々の実験では,キャッシュドDFLは急速に収束し,キャッシュなしでDFLを著しく上回っている。
Federated Learning (FL) aims to train a shared model using data and computation power on distributed agents coordinated by a central server. Decentralized FL (DFL) utilizes local model exchange and aggregation between agents to reduce the communication and computation overheads on the central server. However, when agents are mobile, the communication opportunity between agents can be sporadic, largely hindering the convergence and accuracy of DFL. In this paper, we study delay-tolerant model spreading and aggregation enabled by model caching on mobile agents. Each agent stores not only its own model, but also models of agents encountered in the recent past. When two agents meet, they exchange their own models as well as the cached models. Local model aggregation works on all models in the cache. We theoretically analyze the convergence of DFL with cached models, explicitly taking into account the model staleness introduced by caching. We design and compare different model caching algorithms for different DFL and mobility scenarios. We conduct detailed case studies in a vehicular network to systematically investigate the interplay between agent mobility, cache staleness, and model convergence. In our experiments, cached DFL converges quickly, and significantly outperforms DFL without caching. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# 非局所的準曲面上での高NOON状態形成のための近対称マルチポートビームスプリッティング
Near-symmetric multiport beam splitting for high-NOON state preparation on nonlocal metasurface ( http://arxiv.org/abs/2408.14002v1 ) ライセンス: Link先を確認 | Yu Tian, Qi Liu, Zhaohua Tian, Qihuang Gong, Ying Gu, | (参考訳) 偏光ビームスプリッティング (BS) は, ゆがみ操作と状態再構成のための局所応答を有する勾配変成層に実装されている。
光変調の度合いを高めるために、波長と運動量選択性を示す非局所モードを準曲面BSに適用すべきである。
ここでは, 単一非局所位相勾配準曲面 (NPGM) が, 運動量偏極モード部分空間によって構成された独立な準対称多重ポートBSとして機能することを示す。
例えば、4モードの4光子NOON状態は34.8%の成功確率と99.9%の忠実度で得られ、これは以前報告したものよりもはるかに高い。
また、上述のBSを持つ高光子NOON状態の効率的な生成は、量子精度測定に潜在的に有用である。
Polarization beam splitting (BS) has been implemented on gradient metasurface with local response for entanglement manipulation and state reconstruction. To realize more degrees of light modulation, nonlocal modes, manifested as wavelength and momentum selectivity, should be applied into metasurface BS. Here, we demonstrate that single nonlocal phase gradient metasurface(NPGM) can function as a series of independent near-symmetric multiport BS,constructed by its momentum-polarization mode subspaces.Then, using any of above BS with simultaneous multiphoton interference, high-photon NOON states are prepared with high success probability and fidelity. For example,four-mode four-photon NOON state is obtained with 34.8% success probability and fidelity of 99.9%, greatly higher than those previously reported.With unique capability of multiphoton interference, this multiport BS on single NPGM can be directly used in the on-chip quantum photonics. Also, the efficient generation of high-photon NOON states with above BS has potential applications in quantum precision measurement. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# 大規模言語モデルによるコードの文書化:最初の定量的質的評価
Using Large Language Models to Document Code: A First Quantitative and Qualitative Assessment ( http://arxiv.org/abs/2408.14007v1 ) ライセンス: Link先を確認 | Ian Guelman, Arthur Gregório Leal, Laerte Xavier, Marco Tulio Valente, | (参考訳) コードドキュメンテーションは、ソフトウェア開発、可読性と理解性の改善に不可欠です。
しかし、労働集約性のため、しばしば省略される。
AI言語モデルは、コードドキュメンテーションを自動生成する機会を提供し、開発者の負担を軽減する。
最近の研究では、コードドキュメンテーションにそのようなモデルを使うことが検討されているが、ほとんどの場合、生成されたコメントの品質を評価するのにBLEUのようなメトリクスに依存している。
しかし、このシナリオにおけるこれらのメトリクスの適用性や正確性は依然として不明である。
本稿では,OpenAI GPT-3.5を利用して23,850個のコードスニペットをメソッドとクラスで再生する。
我々は,人的評価とともにBLEUを用いた定量評価と質評価を併用して,生成したコメントの品質評価を行った。
私たちの重要な発見は以下のとおりです。
(i) 質的分析では, GPTが生成した文書を原文書と比較した場合, 69.7%は同値 (45.7%) あるいは小変更が必要 (24.0%) であった。
(二)実際には22.4%が原文よりも良質であると評価されている。
(三)量的メトリクスの使用は、例えば、高い品質のコメントがBLEUメートル法によって不当に罰せられたと認識される不整合に影響を受けやすい。
Code documentation is vital for software development, improving readability and comprehension. However, it's often skipped due to its labor-intensive nature. AI Language Models present an opportunity to automate the generation of code documentation, easing the burden on developers. While recent studies have explored the use of such models for code documentation, most rely on quantitative metrics like BLEU to assess the quality of the generated comments. Yet, the applicability and accuracy of these metrics on this scenario remain uncertain. In this paper, we leveraged OpenAI GPT-3.5 to regenerate the Javadoc of 23,850 code snippets with methods and classes. We conducted both quantitative and qualitative assessments, employing BLEU alongside human evaluation, to assess the quality of the generated comments. Our key findings reveal that: (i) in our qualitative analyses, when the documents generated by GPT were compared with the original ones, 69.7% were considered equivalent (45.7%) or required minor changes to be equivalent (24.0%); (ii) indeed, 22.4% of the comments were rated as having superior quality than the original ones; (iii) the use of quantitative metrics is susceptible to inconsistencies, for example, comments perceived as having higher quality were unjustly penalized by the BLEU metric. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# LMM-VQA:大規模マルチモーダルモデルによる映像品質評価の改善
LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models ( http://arxiv.org/abs/2408.14008v1 ) ライセンス: Link先を確認 | Qihang Ge, Wei Sun, Yu Zhang, Yunhao Li, Zhongpeng Ji, Fengyu Sun, Shangling Jui, Xiongkuo Min, Guangtao Zhai, | (参考訳) ストリーミングメディアプラットフォームにおけるビデオの爆発的な成長は、ストリーミングビデオの品質をモニターし、知覚的に最適化する効果的なビデオ品質アセスメント(VQA)アルゴリズムが緊急に必要であることを示している。
しかしながら、VQAは多様なビデオコンテンツと複雑な空間的・時間的歪みのため、これらの問題に対処するより高度な手法を必要とするため、非常に困難な課題である。
近年, GPT-4V のような大規模マルチモーダルモデル (LMM) は, 様々な視覚的理解タスクに強力な能力を示し, VQA タスクの解決に LMM の強力なマルチモーダル表現能力を活用する動機となっている。
そこで我々は,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
具体的には、まず品質回帰問題を質問・回答(Q&A)タスクに再構成し、VQA命令チューニングのためのQ&Aプロンプトを構築する。
そして,空間的特徴と時間的特徴を抽出してビデオの品質特性を表現した時空間視覚エンコーダを設計し,その後,時空間プロジェクタによって言語空間にマッピングしてモダリティアライメントを行う。
最後に、大言語モデル(LLM)の入力として、整列された視覚トークンと品質問合せされたテキストトークンを集約し、品質スコアとレベルを生成する。
大規模な実験により、LMM-VQAは5つのVQAベンチマークにまたがって最先端のパフォーマンスを達成し、既存の手法よりも平均5\%の一般化能力の向上を示した。
さらに、時空間エンコーダとプロジェクタの高度な設計により、LMM-VQAは一般的な映像理解タスクでも非常によく機能し、その効果を検証している。
私たちのコードはhttps://github.com/Sueqk/LMM-VQA.comでリリースされます。
The explosive growth of videos on streaming media platforms has underscored the urgent need for effective video quality assessment (VQA) algorithms to monitor and perceptually optimize the quality of streaming videos. However, VQA remains an extremely challenging task due to the diverse video content and the complex spatial and temporal distortions, thus necessitating more advanced methods to address these issues. Nowadays, large multimodal models (LMMs), such as GPT-4V, have exhibited strong capabilities for various visual understanding tasks, motivating us to leverage the powerful multimodal representation ability of LMMs to solve the VQA task. Therefore, we propose the first Large Multi-Modal Video Quality Assessment (LMM-VQA) model, which introduces a novel spatiotemporal visual modeling strategy for quality-aware feature extraction. Specifically, we first reformulate the quality regression problem into a question and answering (Q&A) task and construct Q&A prompts for VQA instruction tuning. Then, we design a spatiotemporal vision encoder to extract spatial and temporal features to represent the quality characteristics of videos, which are subsequently mapped into the language space by the spatiotemporal projector for modality alignment. Finally, the aligned visual tokens and the quality-inquired text tokens are aggregated as inputs for the large language model (LLM) to generate the quality score and level. Extensive experiments demonstrate that LMM-VQA achieves state-of-the-art performance across five VQA benchmarks, exhibiting an average improvement of $5\%$ in generalization ability over existing methods. Furthermore, due to the advanced design of the spatiotemporal encoder and projector, LMM-VQA also performs exceptionally well on general video understanding tasks, further validating its effectiveness. Our code will be released at https://github.com/Sueqk/LMM-VQA. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# 7-DOFロボットアームグレーピングのためのTD3の最適化:探索強化コントラスト学習による準最適性の克服
Optimizing TD3 for 7-DOF Robotic Arm Grasping: Overcoming Suboptimality with Exploration-Enhanced Contrastive Learning ( http://arxiv.org/abs/2408.14009v1 ) ライセンス: Link先を確認 | Wen-Han Hsieh, Jen-Yuan Chang, | (参考訳) Twin Delayed Deep Deterministic Policy gradient (TD3) のようなアクターをベースとした強化学習アルゴリズムでは、空間空間の探索が不十分なため、7-DOFロボットアームを制御する際の準最適ポリシーが導かれる。
この問題に対処するため,我々は,新しい状態に遭遇する際の追加報酬を提供することで,探索を改善する新しいEECL(Exploration-Enhanced Contrastive Learning)モジュールを提案する。
我々のモジュールは以前に検討した状態をバッファに格納し、K次元木(KDTree)フレームワーク内でユークリッド距離を用いて過去のデータと比較することにより、新しい状態を識別する。
エージェントが新しい州を探索すると、探索報酬が割り当てられる。
これらの報酬はTD3アルゴリズムに統合され、Qラーニングプロセスにこれらの信号が組み込まれ、より効果的な戦略最適化が促進される。
本研究では,ロボットスーツパンダ昇降作業において,試験環境における効率と収束速度の両面で,ベースラインのTD3を著しく上回っていることを示す。
In actor-critic-based reinforcement learning algorithms such as Twin Delayed Deep Deterministic policy gradient (TD3), insufficient exploration of the spatial space can result in suboptimal policies when controlling 7-DOF robotic arms. To address this issue, we propose a novel Exploration-Enhanced Contrastive Learning (EECL) module that improves exploration by providing additional rewards for encountering novel states. Our module stores previously explored states in a buffer and identifies new states by comparing them with historical data using Euclidean distance within a K-dimensional tree (KDTree) framework. When the agent explores new states, exploration rewards are assigned. These rewards are then integrated into the TD3 algorithm, ensuring that the Q-learning process incorporates these signals, promoting more effective strategy optimization. We evaluate our method on the robosuite panda lift task, demonstrating that it significantly outperforms the baseline TD3 in terms of both efficiency and convergence speed in the tested environment. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# Sentinel-2 MSIデータとGoogle Earth Engineによる香港の水質時系列予測の改善
Improving Water Quality Time-Series Prediction in Hong Kong using Sentinel-2 MSI Data and Google Earth Engine Cloud Computing ( http://arxiv.org/abs/2408.14010v1 ) ライセンス: Link先を確認 | Rohin Sood, Kevin Zhu, | (参考訳) 沿岸部における水質モニタリングは, 汚染や人的活動による劣化が進行しているため, 重要な課題である。
そこで本研究では,香港沿岸域におけるクロロフィルa (Chl-a), 懸濁固体 (SS), 濁度を予測する時系列モデルを構築した。
この研究は、Long Short-Term Memory (LSTM) Recurrent Neural Networksを活用し、予測精度を高めるために、広範囲の時間データセットを組み込んだ。
これらのモデルは、光学活性成分に着目したSentinel-2のスペクトルデータを使用し、選択された変数がChl-aとSSのスペクトル特性と密接に一致していることを示す。
その結果, 従来手法よりも予測性能が向上し, 連続的, 総合的な水質評価におけるリモートセンシング技術の可能性が浮き彫りになった。
Effective water quality monitoring in coastal regions is crucial due to the progressive deterioration caused by pollution and human activities. To address this, this study develops time-series models to predict chlorophyll-a (Chl-a), suspended solids (SS), and turbidity using Sentinel-2 satellite data and Google Earth Engine (GEE) in the coastal regions of Hong Kong. Leveraging Long Short-Term Memory (LSTM) Recurrent Neural Networks, the study incorporates extensive temporal datasets to enhance prediction accuracy. The models utilize spectral data from Sentinel-2, focusing on optically active components, and demonstrate that selected variables closely align with the spectral characteristics of Chl-a and SS. The results indicate improved predictive performance over previous methods, highlighting the potential for remote sensing technology in continuous and comprehensive water quality assessment. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# 任意の次元に対する幾何学的真のN-粒子交絡測度
Geometric genuine N-partite entanglement measure for arbitrary dimensions ( http://arxiv.org/abs/2408.14011v1 ) ライセンス: Link先を確認 | Hui Zhao, Pan-Wen Ma, Shao-Ming Fei, Zhi-Xi Wang, | (参考訳) 任意の多部系および次元系に対する正真正多部エンタングルメント(GME)尺度を提案する。
共起正多角形ピラミッドの体積を用いることで、まず四部量子系のGME測度を導出する。
我々の測度から、GHZ状態はW状態よりも絡み合っていることが確かめられる。
次に、任意の次元における多部量子状態に対するGME測度について検討する。
よく定義されたGME測度は、収束正多角形ピラミッドの体積に基づいて構成される。
詳細な例は、我々の測度が真のマルチパーティイトの絡み合いをよりよく特徴づけることができることを示している。
We present proper genuine multipartite entanglement (GME) measures for arbitrary multipartite and dimensional systems. By using the volume of concurrence regular polygonal pyramid we first derive the GME measure of four-partite quantum systems. From our measure it is verified that the GHZ state is more entangled than the W state. Then we study the GME measure for multipartite quantum states in arbitrary dimensions. A well defined GME measure is constructed based on the volume of the concurrence regular polygonal pyramid. Detailed example shows that our measure can characterize better the genuine multipartite entanglements. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# CBM3Dフィルタを用いたカラー画像のエッジ検出のためのマルチスケールグラディエント融合法
A Multiscale Gradient Fusion Method for Edge Detection in Color Images Utilizing the CBM3D Filter ( http://arxiv.org/abs/2408.14013v1 ) ライセンス: Link先を確認 | Zhuoyue Wang, Yiyi Tao, Danqing Ma, | (参考訳) 本稿では,協調フィルタリングとマルチスケール勾配融合を組み合わせたカラーエッジ検出手法を提案する。
ブロックマッチングと3D(BM3D)フィルタは、変換領域におけるスパース表現を高め、デノナイズ効果を達成するのに用いられ、一方、マルチスケール勾配融合は、単一スケールエッジ検出における詳細の欠如を補い、エッジ検出の精度と品質を向上させる。
まず、データセット内のRGB画像を数学的操作によりXYZ色空間画像に変換する。
第2に、スパース画像にカラーブロックマッチングと3Dフィルタを用い、ノイズ干渉を除去する。
そして、2つのスケールパラメータのカラー画像のベクトル勾配と異方性ガウス方向微分を算出し、画素単位で平均化して新しいエッジ強度マップを得る。
最後に、画像正規化および非最大抑圧技術によりエッジ特性が向上し、その上で、二重しきい値選択と新しいモルフォロジー精製法によりエッジ輪郭が得られる。
エッジ検出データセットの実験的解析により,提案手法は高いノイズ頑健性と高エッジ品質を有し,PR曲線,AUC,PSNR,MSE,FOMインジケータで示されるColor Sobel,Color Canny,SE,Color AGDDよりも優れている。
In this paper, a color edge detection strategy based on collaborative filtering combined with multiscale gradient fusion is proposed. The block-matching and 3D (BM3D) filter are used to enhance the sparse representation in the transform domain and achieve the effect of denoising, whereas the multiscale gradient fusion makes up for the defect of loss of details in single-scale edge detection and improves the edge detection resolution and quality. First, the RGB images in the dataset are converted to XYZ color space images through mathematical operations. Second, the colored block-matching and 3D (CBM3D) filter are used on the sparse images and to remove noise interference. Then, the vector gradients of the color image and the anisotropic Gaussian directional derivative of the two scale parameters are calculated and averaged pixel-by-pixel to obtain a new edge strength map. Finally, the edge features are enhanced by image normalization and non-maximum suppression technology, and on that basis, the edge contour is obtained by double threshold selection and a new morphological refinement method. Through an experimental analysis of the edge detection dataset, the method proposed has good noise robustness and high edge quality, which is better than the Color Sobel, Color Canny, SE and Color AGDD as shown by the PR curve, AUC, PSNR, MSE, and FOM indicators. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# 機械学習におけるカテゴリー理論とトピック理論の枠組み:調査
Category-Theoretical and Topos-Theoretical Frameworks in Machine Learning: A Survey ( http://arxiv.org/abs/2408.14014v1 ) ライセンス: Link先を確認 | Yiyang Jia, Guohong Peng, Zheng Yang, Tianhao Chen, | (参考訳) 本稿では、勾配に基づく学習、確率に基づく学習、不変性と等価性に基づく学習、およびトポスに基づく学習の4つの主要な視点から、カテゴリー理論に基づく機械学習の概要について述べる。
最初の3つのトピックについて、主に過去5年間の研究をレビューし、Shiebler氏らによる以前の調査を更新し、拡張しました。
第4のトピックは、高次圏論、特にトポス理論を論じるもので、この論文で初めて調査される。
特定の機械学習手法において、関手の構成性は重要な役割を担い、特定の分類的フレームワークの開発を促す。
しかし、ネットワークのグローバルな性質が局所構造をどのように反映し、幾何学的性質が論理でどのように表現されるかを考えると、トポス構造は特に重要かつ深遠なものとなる。
In this survey, we provide an overview of category theory-derived machine learning from four mainstream perspectives: gradient-based learning, probability-based learning, invariance and equivalence-based learning, and topos-based learning. For the first three topics, we primarily review research in the past five years, updating and expanding on the previous survey by Shiebler et al.. The fourth topic, which delves into higher category theory, particularly topos theory, is surveyed for the first time in this paper. In certain machine learning methods, the compositionality of functors plays a vital role, prompting the development of specific categorical frameworks. However, when considering how the global properties of a network reflect in local structures and how geometric properties are expressed with logic, the topos structure becomes particularly significant and profound. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# 奥行き案内デコーダを用いた画素アライメント型マルチビュー生成
Pixel-Aligned Multi-View Generation with Depth Guided Decoder ( http://arxiv.org/abs/2408.14016v1 ) ライセンス: Link先を確認 | Zhenggang Tang, Peiye Zhuang, Chaoyang Wang, Aliaksandr Siarohin, Yash Kant, Alexander Schwing, Sergey Tulyakov, Hsin-Ying Lee, | (参考訳) イメージ・ツー・マルチビュー生成のタスクは、単一のイメージからインスタンスの新しいビューを生成することを指す。
近年の手法では,VAE画像エンコーダとU-Net拡散モデルを含むマルチビューバージョンにテキストから画像への遅延拡散モデルを拡張している。
具体的には、これらの生成メソッドは通常、VAEを修正し、U-Netのみを微調整する。
しかし、入力画像と独立デコードから計算された潜在ベクトルの顕著なダウンスケーリングは、複数のビューで顕著なピクセルレベルの不整合をもたらす。
そこで本研究では,画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
具体的には、メモリ効率を保ちながら、空間的に隣接した領域に焦点を絞ることができるように、奥行きに散らばったエピポーラアテンションを導入する。
地中深度推定モデルでは, 地中深度推定の精度は高く, 地中深度推定の精度は高く, 地中深度推定の精度は高くない。
そこで,地底深度が不正確な場合の深度への一般化を促進するため,トレーニング中の深度入力を摂動する。
提案手法では,多視点から3次元への高速な再構成手法であるNeuSを用いて,深度に歪んだエピポーラアテンションに対する粗い深度を求める。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
さらに,下流のマルチビューから3次元再構成作業へのアプローチの有効性を実証した。
The task of image-to-multi-view generation refers to generating novel views of an instance from a single image. Recent methods achieve this by extending text-to-image latent diffusion models to multi-view version, which contains an VAE image encoder and a U-Net diffusion model. Specifically, these generation methods usually fix VAE and finetune the U-Net only. However, the significant downscaling of the latent vectors computed from the input images and independent decoding leads to notable pixel-level misalignment across multiple views. To address this, we propose a novel method for pixel-level image-to-multi-view generation. Unlike prior work, we incorporate attention layers across multi-view images in the VAE decoder of a latent video diffusion model. Specifically, we introduce a depth-truncated epipolar attention, enabling the model to focus on spatially adjacent regions while remaining memory efficient. Applying depth-truncated attn is challenging during inference as the ground-truth depth is usually difficult to obtain and pre-trained depth estimation models is hard to provide accurate depth. Thus, to enhance the generalization to inaccurate depth when ground truth depth is missing, we perturb depth inputs during training. During inference, we employ a rapid multi-view to 3D reconstruction approach, NeuS, to obtain coarse depth for the depth-truncated epipolar attention. Our model enables better pixel alignment across multi-view images. Moreover, we demonstrate the efficacy of our approach in improving downstream multi-view to 3D reconstruction tasks. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# Video-CCAM:ショートビデオとロングビデオのためのカスタルクロスアテンションマスクによるビデオ言語理解の強化
Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos ( http://arxiv.org/abs/2408.14023v1 ) ライセンス: Link先を確認 | Jiajun Fei, Dian Li, Zhidong Deng, Zekun Wang, Gang Liu, Hui Wang, | (参考訳) マルチモーダルな大言語モデル (MLLM) は、ドメイン間の知識を必要とする様々な下流タスクにおいて大きな可能性を証明している。
Video-MLLMとして知られるビデオを処理するMLLMは、ビデオ言語理解に広く関心を集めている。
しかし、ビデオ、特に長いビデオは、画像よりも視覚的なトークンを含んでいるため、LLMが処理するのが困難である。
既存の作業は視覚的特徴を縮小するか、LLMコンテキストサイズを拡張し、高解像度情報の損失や推論速度の低下を危険にさらす。
これらの制約に対処するため、視覚エンコーダと大言語モデル(LLM)の間の中間プロジェクタにクロスアテンション層を適用する。
また, 有意な交叉保持機構は時間的秩序に敏感であるため, クロスアテンション層内に因果的交叉マスク(CCAM)を導入する。
Video-CCAMと名付けられたこのビデオMLLMは、機能アライメントとビジュアルインストラクションチューニングという、単純な2段階のやり方で訓練されている。
異なるサイズ (4B, 9B, 14B) のLCMをベースとしたビデオCCAMモデルを開発した。
Video-CCAMは堅牢なビデオMLLMであることが証明され、短いビデオから長いビデオまで優れたパフォーマンスを示している。
MVBench や VideoChatGPT-QA のような標準的なビデオベンチマークの中で、Video-CCAM は優れたパフォーマンスを示している(MVBench と TGIF-QA では 1st/2nd/3rd、MSVD-QA では 2rd/3rd/4th、MSRVTT-QA では MSRVTT-QA と ActivityNet-QA)。
長いビデオを含むベンチマークでは、ビデオCCAMモデルは、長いビデオの理解に直接適応でき、画像や16フレームのビデオでのみ訓練されているにもかかわらず、例外的なスコアを得られる。
96フレーム (6$\times$ the training number of frames) を用いて、 Video-CCAM モデルは VideoVista では 1st/2nd/3 で、MLVU では 1st/2nd/4 でそれぞれ、すべてのオープンソース Video-MLLM では 1st/2nd/4 である。
コードは \url{https://github.com/QQ-MM/Video-CCAM} で公開されている。
Multi-modal large language models (MLLMs) have demonstrated considerable potential across various downstream tasks that require cross-domain knowledge. MLLMs capable of processing videos, known as Video-MLLMs, have attracted broad interest in video-language understanding. However, videos, especially long videos, contain more visual tokens than images, making them difficult for LLMs to process. Existing works either downsample visual features or extend the LLM context size, risking the loss of high-resolution information or slowing down inference speed. To address these limitations, we apply cross-attention layers in the intermediate projector between the visual encoder and the large language model (LLM). As the naive cross-attention mechanism is insensitive to temporal order, we further introduce causal cross-attention masks (CCAMs) within the cross-attention layers. This Video-MLLM, named Video-CCAM, is trained in a straightforward two-stage fashion: feature alignment and visual instruction tuning. We develop several Video-CCAM models based on LLMs of different sizes (4B, 9B, and 14B). Video-CCAM proves to be a robust Video-MLLM and shows outstanding performance from short videos to long ones. Among standard video benchmarks like MVBench and VideoChatGPT-QA, Video-CCAM shows outstanding performances (1st/2nd/3rd in MVBench and TGIF-QA, 2nd/3rd/4th in MSVD-QA, MSRVTT-QA, and ActivityNet-QA). In benchmarks encompassing long videos, Video-CCAM models can be directly adapted to long video understanding and still achieve exceptional scores despite being trained solely with images and 16-frame videos. Using 96 frames (6$\times$ the training number of frames), Video-CCAM models rank 1st/2nd/3rd in VideoVista and 1st/2nd/4th in MLVU among all open-source Video-MLLMs, respectively. The code is publicly available in \url{https://github.com/QQ-MM/Video-CCAM}. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# 項目応答理論に基づくアルゴリズムポートフォリオ解析用Rモジュール
An Item Response Theory-based R Module for Algorithm Portfolio Analysis ( http://arxiv.org/abs/2408.14025v1 ) ライセンス: Link先を確認 | Brodie Oldfield, Sevvandi Kandanaarachchi, Ziqi Xu, Mario Andrés Muñoz, | (参考訳) 実験的な評価はAI研究、特に様々なタスクにわたるアルゴリズムの評価に不可欠である。
多くの研究はアルゴリズムの限られたセットを評価し、包括的ポートフォリオの中でその強みと弱点を完全に理解できなかった。
本稿では, AIRT-Module と呼ばれるアルゴリズムポートフォリオ評価のための項目応答理論 (IRT) に基づく解析ツールを提案する。
伝統的に教育心理学で使用されるIRTモデルは、質問に対する反応を用いて質問の難易度と生徒の能力をテストする。
IRTをアルゴリズムの評価に適用すると、AIRT-Module は Shiny Web アプリケーションと R パッケージの Airt を含む。
AIRT-Moduleは、アルゴリズムの異常性、一貫性、難易度、およびテストインスタンスの難易度を計算するために、アルゴリズムのパフォーマンス測定を使用する。
アルゴリズムの長所と短所は、テストインスタンスの難易度スペクトルを用いて可視化される。
AIRT-Moduleは、さまざまなテストインスタンスにわたるアルゴリズム機能の詳細な理解を提供するため、包括的なAIメソッドアセスメントが強化される。
https://sevvandi.shinyapps.io/AIRT/ で入手できる。
Experimental evaluation is crucial in AI research, especially for assessing algorithms across diverse tasks. Many studies often evaluate a limited set of algorithms, failing to fully understand their strengths and weaknesses within a comprehensive portfolio. This paper introduces an Item Response Theory (IRT) based analysis tool for algorithm portfolio evaluation called AIRT-Module. Traditionally used in educational psychometrics, IRT models test question difficulty and student ability using responses to test questions. Adapting IRT to algorithm evaluation, the AIRT-Module contains a Shiny web application and the R package airt. AIRT-Module uses algorithm performance measures to compute anomalousness, consistency, and difficulty limits for an algorithm and the difficulty of test instances. The strengths and weaknesses of algorithms are visualised using the difficulty spectrum of the test instances. AIRT-Module offers a detailed understanding of algorithm capabilities across varied test instances, thus enhancing comprehensive AI method assessment. It is available at https://sevvandi.shinyapps.io/AIRT/ . | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# 大規模擬似ラベリングによる低リソース言語ASRの活用
Empowering Low-Resource Language ASR via Large-Scale Pseudo Labeling ( http://arxiv.org/abs/2408.14026v1 ) ライセンス: Link先を確認 | Kaushal Santosh Bhogale, Deovrat Mehendale, Niharika Parasa, Sathish Kumar Reddy G, Tahir Javed, Pratyush Kumar, Mitesh M. Khapra, | (参考訳) 本研究では,Hindiに着目したASRにおける低リソース言語におけるラベル付きデータ制限の課題に対処する。
具体的には、既存の作品から複数のアイデアを組み合わせた汎用的なフレームワークを提案することで、擬似ラベルについて検討する。
本フレームワークは,音声とテキストのペアを評価するための複数のベースモデルと評価器を統合し,低リソース言語に対するロバストな擬似ラベリングを実現する。
我々は,複数のコンテンツカテゴリの多様なYouTubeオーディオファイルからなる新しいベンチマークであるIndicYTを用いて,アプローチを検証する。
その結果,既存のトレーニングデータを用いてYouTubeから擬似ラベル付きデータを増強することで,ドメイン外のベンチマークのパフォーマンスに影響を与えることなく,IndicYTの性能が大幅に向上し,低リソース言語におけるASR機能向上における擬似ラベル付きデータの有効性が実証された。
この作業の一部として開発されたベンチマーク、コード、モデルは一般公開される予定である。
In this study, we tackle the challenge of limited labeled data for low-resource languages in ASR, focusing on Hindi. Specifically, we explore pseudo-labeling, by proposing a generic framework combining multiple ideas from existing works. Our framework integrates multiple base models for transcription and evaluators for assessing audio-transcript pairs, resulting in robust pseudo-labeling for low resource languages. We validate our approach with a new benchmark, IndicYT, comprising diverse YouTube audio files from multiple content categories. Our findings show that augmenting pseudo labeled data from YouTube with existing training data leads to significant performance improvements on IndicYT, without affecting performance on out-of-domain benchmarks, demonstrating the efficacy of pseudo-labeled data in enhancing ASR capabilities for low-resource languages. The benchmark, code and models developed as a part of this work will be made publicly available. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# SurGen:手術用ビデオ生成のためのテキストガイド拡散モデル
SurGen: Text-Guided Diffusion Model for Surgical Video Generation ( http://arxiv.org/abs/2408.14028v1 ) ライセンス: Link先を確認 | Joseph Cho, Samuel Schmidgall, Cyril Zakka, Mrudang Mathur, Rohan Shad, William Hiesinger, | (参考訳) 拡散に基づくビデオ生成モデルは、視覚的忠実度、時間的コヒーレンス、ユーザコントロールを改善した出力を生成する。
これらの進歩は、より現実的で多様な、インタラクティブなシミュレーション環境を可能にすることによって、外科教育を改善するための大きな約束を持っている。
本研究では,手術用ビデオ合成に適したテキスト誘導拡散モデルであるSurGenを紹介する。
標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。
さらに,手術データに基づいて訓練された深層学習分類器を用いて,対応するテキストプロンプトへのアライメントを評価する。
本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。
Diffusion-based video generation models have made significant strides, producing outputs with improved visual fidelity, temporal coherence, and user control. These advancements hold great promise for improving surgical education by enabling more realistic, diverse, and interactive simulation environments. In this study, we introduce SurGen, a text-guided diffusion model tailored for surgical video synthesis, producing the highest resolution and longest duration videos among existing surgical video generation models. We validate the visual and temporal quality of the outputs using standard image and video generation metrics. Additionally, we assess their alignment to the corresponding text prompts through a deep learning classifier trained on surgical data. Our results demonstrate the potential of diffusion models to serve as valuable educational tools for surgical trainees. | 翻訳日:2024-08-27 15:02:44 公開日:2024-08-26 |
# サニャック・フィゼウ効果によるキラル猫状態の生成
Chiral cat state generation via the Sagnac-Fizeau effect ( http://arxiv.org/abs/2408.14029v1 ) ライセンス: Link先を確認 | Yu-Hong Liu, Xian-Li Yin, Hui Jing, Le-Man Kuang, Jie-Qiao Liao, | (参考訳) Schr\"{o}dinger cat stateは量子物理学や量子情報科学において重要な量子資源の一種である。
本稿では,2レベル原子に分散結合した時計回り(CW)および反時計回り(CCW)走行モードをサポートする回転共振器におけるカイラル猫状態の生成を提案する。
カイラルキャット状態生成の物理的メカニズムは、サニャック・フィゼウ効果に基づいている。
具体的には、共振器が回転しているとき、CWモードとCCWモードは原子遷移周波数が異なる周波数で、したがって位相空間におけるCWモードとCCWモードの原子状態依存性の回転角速度が異なる。
このモード依存的な進化は、状態生成のキラリティにつながる。
適切なシステムパラメータを選択することで、2つの走行モードにおいて、Schr\"{o}dinger cat状態とコヒーレント状態の別個の生成を達成する。
また、生成状態の量子コヒーレンス特性について、そのウィグナー関数を調べて検討する。
また,オープンシステムにおける状態生成に対するシステム散逸の影響について検討した。
我々の研究は、キラル光学デバイスと非相互フォトニクス物理学の発展に関する洞察を提供する。
The Schr\"{o}dinger cat states are a kind of significant quantum resource in quantum physics and quantum information science. Here we propose a proposal for generating chiral cat states in a spinning resonator supporting both the clockwise (CW) and counterclockwise (CCW) traveling modes, which are dispersively coupled to a two-level atom. The physical mechanism for the chiral cat-state generation is based on the Sagnac-Fizeau effect. Concretely, when the resonator is rotating, the CW and CCW modes have different frequency detuning with respect to the atomic transition frequency, and hence the atomic-state-dependent rotating angular velocities for the CW and CCW modes in phase space are different. This mode-dependent evolution leads to the chirality in the state generation. By choosing proper system parameters, we achieve the separate generation of the Schr\"{o}dinger cat states and coherent states in the two traveling modes. We also investigate quantum coherence properties of the generated states by examining their Wigner functions. In addition, the influence of the system dissipations on the state generation in the open-system case is investigated. Our work will provide some insights into the development of chiral optical devices and nonreciprocal photonics physics. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# 画像がさらに増える:オープンセットオブジェクト検出のためのビジュアルインターセクションネットワーク
More Pictures Say More: Visual Intersection Network for Open Set Object Detection ( http://arxiv.org/abs/2408.14032v1 ) ライセンス: Link先を確認 | Bingcheng Dong, Yuning Ding, Jinrong Zhang, Sifan Zhang, Shenglan Liu, | (参考訳) Open Set Object Detectionは最近急速に開発が進んでいるが、大きな課題が続いている。
言語に基づく手法は、テキストと視覚の相違がかなり大きいため、このギャップを埋めるために膨大な計算資源を必要とする。
これらのフレームワークに視覚的なプロンプトを統合することでパフォーマンスを向上させることは約束されるが、常にテキストセマンティクスに関する制約が伴う。
対照的に、視覚のみの方法は、複数の視覚的プロンプトの低品質な融合に悩まされる。
そこで我々は,DTRベースの強力なモデルであるVisual Intersection Network for Open Set Object Detection (VINO)を導入する。
我々の革新的なマルチイメージビジュアル更新機構は、様々な視覚的プロンプトから意味的交叉を識別し、新しい情報の柔軟な取り込みと特徴表現の連続的な最適化を可能にする。
提案手法は,対象のカテゴリ意味論と地域意味論のより正確な一致を保証するとともに,事前学習時間と資源要求を言語ベースの手法と比較して著しく低減する。
さらに、セグメンテーションヘッドの統合は、様々な視覚的タスクにおける視覚的交叉の広い適用性を示している。
VINOは、Objects365v1データセットで1エポックを完了するのにわずか7 RTX4090 GPU日しか必要としないが、LVISやODinW35のようなベンチマーク上のビジョン言語モデルと同等の競合性能を達成する。
Open Set Object Detection has seen rapid development recently, but it continues to pose significant challenges. Language-based methods, grappling with the substantial modal disparity between textual and visual modalities, require extensive computational resources to bridge this gap. Although integrating visual prompts into these frameworks shows promise for enhancing performance, it always comes with constraints related to textual semantics. In contrast, viusal-only methods suffer from the low-quality fusion of multiple visual prompts. In response, we introduce a strong DETR-based model, Visual Intersection Network for Open Set Object Detection (VINO), which constructs a multi-image visual bank to preserve the semantic intersections of each category across all time steps. Our innovative multi-image visual updating mechanism learns to identify the semantic intersections from various visual prompts, enabling the flexible incorporation of new information and continuous optimization of feature representations. Our approach guarantees a more precise alignment between target category semantics and region semantics, while significantly reducing pre-training time and resource demands compared to language-based methods. Furthermore, the integration of a segmentation head illustrates the broad applicability of visual intersection in various visual tasks. VINO, which requires only 7 RTX4090 GPU days to complete one epoch on the Objects365v1 dataset, achieves competitive performance on par with vision-language models on benchmarks such as LVIS and ODinW35. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# MLR-Copilot:大規模言語モデルエージェントに基づく自律型機械学習研究
MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents ( http://arxiv.org/abs/2408.14033v1 ) ライセンス: Link先を確認 | Ruochen Li, Teerth Patel, Qingyun Wang, Xinya Du, | (参考訳) 機械学習の研究は、技術的進歩とイノベーションに不可欠であり、その固有の複雑さ、実験の遅いペース、専門的な専門知識の必要性により、しばしば重大な課題に直面している。
そこで我々は,大規模言語モデル(MLR-Copilot)を用いた自律機械学習研究という,大規模言語モデル(LLM)エージェントを用いた研究アイデアの自動生成と実装による機械学習研究の生産性向上を目的とした,新たな体系的フレームワークを提案する。
このフレームワークは、研究アイデア生成、実験実装、実装実行の3つのフェーズで構成されている。
第一に、既存の研究論文は、LLMを動力とするIdeanAgentの仮説と実験計画を生成するために使用されている。
次に、実装生成フェーズはこれらの計画をExperimentAgentで実行可能なものに翻訳する。
このフェーズは、検索されたプロトタイプコードを活用し、任意に候補モデルとデータを検索する。
最後に、ExperimentAgentが管理する実行フェーズでは、人間のフィードバックと反復デバッグのためのメカニズムを使って実験を行い、実行可能な研究成果を達成する可能性を高める。
我々は,5つの機械学習研究課題に関するフレームワークを評価し,研究の進展とイノベーションを促進するためのフレームワークの可能性を示す実験結果を示した。
Machine learning research, crucial for technological advancements and innovation, often faces significant challenges due to its inherent complexity, slow pace of experimentation, and the necessity for specialized expertise. Motivated by this, we present a new systematic framework, autonomous Machine Learning Research with large language models (MLR-Copilot), designed to enhance machine learning research productivity through the automatic generation and implementation of research ideas using Large Language Model (LLM) agents. The framework consists of three phases: research idea generation, experiment implementation, and implementation execution. First, existing research papers are used to generate hypotheses and experimental plans vis IdeaAgent powered by LLMs. Next, the implementation generation phase translates these plans into executables with ExperimentAgent. This phase leverages retrieved prototype code and optionally retrieves candidate models and data. Finally, the execution phase, also managed by ExperimentAgent, involves running experiments with mechanisms for human feedback and iterative debugging to enhance the likelihood of achieving executable research outcomes. We evaluate our framework on five machine learning research tasks and the experimental results show the framework's potential to facilitate the research progress and innovations. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# FAST-LIVO2:高速、直接LiDAR-慣性-ビジュアルオドメトリー
FAST-LIVO2: Fast, Direct LiDAR-Inertial-Visual Odometry ( http://arxiv.org/abs/2408.14035v1 ) ライセンス: Link先を確認 | Chunran Zheng, Wei Xu, Zuhao Zou, Tong Hua, Chongjian Yuan, Dongjiao He, Bingyang Zhou, Zheng Liu, Jiarong Lin, Fangcheng Zhu, Yunfan Ren, Rong Wang, Fanle Meng, Fu Zhang, | (参考訳) 本稿では,SLAMタスクにおける高精度かつロバストな状態推定を実現するための,高速かつ直接的LiDAR-慣性・視覚的オドメトリーフレームワークであるFAST-LIVO2を提案する。
FAST-LIVO2はIMU、LiDAR、画像計測をESIKFで効率的に融合させる。
異種LiDARと画像計測の寸法ミスマッチに対処するために、カルマンフィルタの逐次更新戦略を用いる。
この効率を高めるために、視覚的およびLiDAR融合の直接手法を用いて、LiDARモジュールはエッジや平面の特徴を抽出せずに原点を登録し、視覚的モジュールはORBやFAST角の特徴を抽出することなく直接測光誤差を最小化する。
ビジュアルとLiDARの両方の測定の融合は単一の統一ボクセルマップに基づいており、LiDARモジュールは新しいLiDARスキャンを登録するための幾何学的構造を構築し、ビジュアルモジュールは画像パッチをLiDARポイントにアタッチする。
画像アライメントの精度を高めるために、ボクセルマップのLiDAR点からの平面先行値を使用し、新しい画像のアライメント後に参照パッチを動的に更新する。
さらに、画像アライメントの堅牢性を高めるため、FAST-LIVO2はオンデマンドのレイキャスト演算を採用し、リアルタイムに画像露出時間を推定する。
最後に、FAST-LIVO2の3つの応用について述べる。UAVオンボードナビゲーションは、リアルタイムオンボードナビゲーションにおけるシステムの計算効率を示すものであり、システムマッピングの精度を示す空中マッピングであり、3Dモデルレンダリング(メッシュベースおよびNeRFベース)は、その後のレンダリングタスクに対する再構成された高密度マップの適合性を示すものである。
私たちは、ロボティクスコミュニティに利益をもたらすために、コード、データセット、アプリケーションをGitHubでオープンソースにしています。
This paper proposes FAST-LIVO2: a fast, direct LiDAR-inertial-visual odometry framework to achieve accurate and robust state estimation in SLAM tasks and provide great potential in real-time, onboard robotic applications. FAST-LIVO2 fuses the IMU, LiDAR and image measurements efficiently through an ESIKF. To address the dimension mismatch between the heterogeneous LiDAR and image measurements, we use a sequential update strategy in the Kalman filter. To enhance the efficiency, we use direct methods for both the visual and LiDAR fusion, where the LiDAR module registers raw points without extracting edge or plane features and the visual module minimizes direct photometric errors without extracting ORB or FAST corner features. The fusion of both visual and LiDAR measurements is based on a single unified voxel map where the LiDAR module constructs the geometric structure for registering new LiDAR scans and the visual module attaches image patches to the LiDAR points. To enhance the accuracy of image alignment, we use plane priors from the LiDAR points in the voxel map (and even refine the plane prior) and update the reference patch dynamically after new images are aligned. Furthermore, to enhance the robustness of image alignment, FAST-LIVO2 employs an on-demanding raycast operation and estimates the image exposure time in real time. Lastly, we detail three applications of FAST-LIVO2: UAV onboard navigation demonstrating the system's computation efficiency for real-time onboard navigation, airborne mapping showcasing the system's mapping accuracy, and 3D model rendering (mesh-based and NeRF-based) underscoring the suitability of our reconstructed dense map for subsequent rendering tasks. We open source our code, dataset and application on GitHub to benefit the robotics community. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# Re-Mix: 大規模な模倣学習のためのデータ混合の最適化
Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning ( http://arxiv.org/abs/2408.14037v1 ) ライセンス: Link先を確認 | Joey Hejna, Chethan Bhateja, Yichen Jian, Karl Pertsch, Dorsa Sadigh, | (参考訳) ロボット工学の基礎モデルをトレーニングする目的で、ますます大規模な模倣学習データセットが収集されている。
しかし、データ選択が視覚と自然言語処理において最も重要であるという事実にもかかわらず、ロボット工学における研究はほとんど、そのようなモデルが実際にトレーニングされるべきデータに疑問を呈していない。
本研究では,ロボット基礎モデルの事前学習において,ロボットデータセットの「領域」や「サブセット」の重み付けについて検討する。
具体的には、分散ロバスト最適化(DRO)を用いて、可能なすべての下流領域における最悪の性能を最大化する。
我々の手法であるRe-Mixは、DROをロボットデータセットに適用する際に生じる幅広い課題に対処する。
Re-Mixはこれらの問題に対処するために早期停止、行動正規化、離散化を採用している。
オープンソースのロボット操作データセットであるOpen X-Embodimentデータセットの広範な実験を通じて、データキュレーションが下流のパフォーマンスに大きな影響を及ぼすことを示した。
具体的には、Re-Mixが学んだドメインウェイトは、一般的なロボットポリシー、特にRT-Xモデルをトレーニングするために使用するデータセットで平均38\%、平均32\%、平均32\%で均一ウェイトを上回ります。
Increasingly large imitation learning datasets are being collected with the goal of training foundation models for robotics. However, despite the fact that data selection has been of utmost importance in vision and natural language processing, little work in robotics has questioned what data such models should actually be trained on. In this work we investigate how to weigh different subsets or ``domains'' of robotics datasets for robot foundation model pre-training. Concrete, we use distributionally robust optimization (DRO) to maximize worst-case performance across all possible downstream domains. Our method, Re-Mix, addresses the wide range of challenges that arise when applying DRO to robotics datasets including variability in action spaces and dynamics across different datasets. Re-Mix employs early stopping, action normalization, and discretization to counteract these issues. Through extensive experimentation on the largest open-source robot manipulation dataset, the Open X-Embodiment dataset, we demonstrate that data curation can have an outsized impact on downstream performance. Specifically, domain weights learned by Re-Mix outperform uniform weights by 38\% on average and outperform human-selected weights by 32\% on datasets used to train existing generalist robot policies, specifically the RT-X models. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# マルチロボットシステムにおける協調的認識:家事清掃・倉庫業務を事例として
Collaborative Perception in Multi-Robot Systems: Case Studies in Household Cleaning and Warehouse Operations ( http://arxiv.org/abs/2408.14039v1 ) ライセンス: Link先を確認 | Bharath Rajiv Nair, | (参考訳) 本稿では,環境中の複数のロボットやセンサがセンサデータを共有し,統合して周囲の包括的表現を構築する,協調知覚(CP)のパラダイムを考察する。
各種センサからのデータを集約し、高度なアルゴリズムを活用することにより、協調認識フレームワークはタスク効率、カバレッジ、安全性を向上させる。
マルチロボットシステムにおける協調認識の利点を示す2つのケーススタディが提示された。
最初のケーススタディでは、掃除ロボットのチームによる家庭用清掃作業にCPを使用することの利点と利点が示されている。
第2のケーススタディでは,倉庫環境で動作する自律移動ロボットにおけるCP対スタンドアローン知覚(SP)の性能の比較分析を行った。
ケーススタディでは、マルチロボット調整、タスク完了、システム全体の性能向上におけるCPの有効性と、他のアプリケーションでの運用にも影響を与える可能性を検証した。
今後の調査では、フレームワークの最適化と、経験的テストによるパフォーマンス検証に注力する予定である。
This paper explores the paradigm of Collaborative Perception (CP), where multiple robots and sensors in the environment share and integrate sensor data to construct a comprehensive representation of the surroundings. By aggregating data from various sensors and utilizing advanced algorithms, the collaborative perception framework improves task efficiency, coverage, and safety. Two case studies are presented to showcase the benefits of collaborative perception in multi-robot systems. The first case study illustrates the benefits and advantages of using CP for the task of household cleaning with a team of cleaning robots. The second case study performs a comparative analysis of the performance of CP versus Standalone Perception (SP) for Autonomous Mobile Robots operating in a warehouse environment. The case studies validate the effectiveness of CP in enhancing multi-robot coordination, task completion, and overall system performance and its potential to impact operations in other applications as well. Future investigations will focus on optimizing the framework and validating its performance through empirical testing. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# 最先端機械学習によるIoTネットワーク侵入検知システムの説明可能性の評価
Evaluating The Explainability of State-of-the-Art Machine Learning-based IoT Network Intrusion Detection Systems ( http://arxiv.org/abs/2408.14040v1 ) ライセンス: Link先を確認 | Ayush Kumar, Vrizlynn L. L. Thing, | (参考訳) 機械学習(ML)モデルを用いたIoT(Internet-of-Things)ネットワーク侵入検知システム(NIDS)は、攻撃成果物から抽出した固定署名への依存を回避しつつ、高い検出性能と精度を達成する。
しかしながら、ネットワークセキュリティの専門家や実践者の間では、MLベースのNIDSを現実のプロダクション環境にデプロイすることに関して、ブラックボックスの性質、すなわち、基盤となるモデルがどのように意思決定を行うのかという問題に注意が向けられている。
本研究では、説明可能なAI(xAI)技術(例えば、TRUSTEE、SHAP)を用いて、最先端のMLベースのIoT NIDSモデルを解析する。
モデル決定のために生成された説明を用いて、考慮された各NIDSモデルで使用される最も顕著な特徴を提示する。
我々は、所定のNIDSモデルに対してxAIメソッド間で生成された説明と、与えられたxAIメソッドに対してNIDSモデル間で生成された説明とを比較した。
最後に、各NIDSモデルの脆弱性を誘導バイアス(トレーニングデータから学習した成果)に評価する。
1)MLベースのIoT NIDSモデルは、他のモデルよりもうまく説明でき、(2)xAIの説明は、この研究で考慮されたIoT NIDSモデルのほとんどで矛盾しており、(3)IoT NIDSモデルは、他のモデルよりも誘導バイアスに弱い。
Internet-of-Things (IoT) Network Intrusion Detection Systems (NIDSs) which use machine learning (ML) models achieve high detection performance and accuracy while avoiding dependence on fixed signatures extracted from attack artifacts. However, there is a noticeable hesitance among network security experts and practitioners when it comes to deploying ML-based NIDSs in real-world production environments due to their black-box nature, i.e., how and why the underlying models make their decisions. In this work, we analyze state-of-the-art ML-based IoT NIDS models using explainable AI (xAI) techniques (e.g., TRUSTEE, SHAP). Using the explanations generated for the models' decisions, the most prominent features used by each NIDS model considered are presented. We compare the explanations generated across xAI methods for a given NIDS model as well as the explanations generated across the NIDS models for a given xAI method. Finally, we evaluate the vulnerability of each NIDS model to inductive bias (artifacts learnt from training data). The results show that: (1) some ML-based IoT NIDS models can be better explained than other models, (2) xAI explanations are in conflict for most of the IoT NIDS models considered in this work and (3) some IoT NIDS models are more vulnerable to inductive bias than other models. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# PAGE: グラフニューラルネットワークのためのパラメトリック生成説明器
PAGE: Parametric Generative Explainer for Graph Neural Network ( http://arxiv.org/abs/2408.14042v1 ) ライセンス: Link先を確認 | Yang Qiu, Wei Liu, Jun Wang, Ruixuan Li, | (参考訳) この記事では、パラメータ化された生成的解釈フレームワークであるPAGEを紹介します。
PAGEは、事前の知識や内部の詳細を必要とせずに、グラフニューラルネットワークに対して忠実な説明を提供することができる。
具体的には、自動エンコーダを訓練し、適切なトレーニング戦略を設計することで説明的サブストラクチャを生成する。
オートエンコーダの潜在空間における特徴の次元的減少により、モデルの出力につながる因果的特徴を抽出しやすくなり、簡単に説明を生成することができる。
そこで本研究では,潜在因果関係の特徴とモデル出力の因果関係を識別する新たな判別器を提案する。
適切な最適化目標を設計することにより、十分に訓練された判別器を用いてエンコーダを制約し、強化された因果的特徴を生成する。
最後に、これらの機能はデコーダを通して入力グラフのサブ構造にマッピングされ、説明として機能する。
既存の方法と比較して、PAGEはノードやエッジではなくサンプルスケールで動作し、従来の方法のように摂動やエンコーディングの必要がなくなる。
人工的に合成されたデータセットと実世界のデータセットの両方の実験結果から、我々のアプローチは最も忠実で精度が高いだけでなく、効率の点でベースラインモデルよりもはるかに優れていることが示された。
This article introduces PAGE, a parameterized generative interpretive framework. PAGE is capable of providing faithful explanations for any graph neural network without necessitating prior knowledge or internal details. Specifically, we train the auto-encoder to generate explanatory substructures by designing appropriate training strategy. Due to the dimensionality reduction of features in the latent space of the auto-encoder, it becomes easier to extract causal features leading to the model's output, which can be easily employed to generate explanations. To accomplish this, we introduce an additional discriminator to capture the causality between latent causal features and the model's output. By designing appropriate optimization objectives, the well-trained discriminator can be employed to constrain the encoder in generating enhanced causal features. Finally, these features are mapped to substructures of the input graph through the decoder to serve as explanations. Compared to existing methods, PAGE operates at the sample scale rather than nodes or edges, eliminating the need for perturbation or encoding processes as seen in previous methods. Experimental results on both artificially synthesized and real-world datasets demonstrate that our approach not only exhibits the highest faithfulness and accuracy but also significantly outperforms baseline models in terms of efficiency. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# 検出を超えて:IoTネットワークにおけるサイバー攻撃予測のための大規模言語モデルを活用する
Beyond Detection: Leveraging Large Language Models for Cyber Attack Prediction in IoT Networks ( http://arxiv.org/abs/2408.14045v1 ) ライセンス: Link先を確認 | Alaeddine Diaf, Abdelaziz Amara Korba, Nour Elislem Karabadji, Yacine Ghamri-Doudane, | (参考訳) 近年、多くの大規模なサイバー攻撃がIoT(Internet of Things)デバイスを活用している。
攻撃検出へのかなりの努力にもかかわらず、侵入検知システムはほとんど反応し、特定のパターンや観察された異常に反応する。
本研究は、被害を受ける前に悪意ある活動を予測・緩和するための積極的なアプローチを提案する。
本稿では,Long Short Term Memory(LSTM)ネットワークとLarge Language Models(LLM)を組み合わせた新しいネットワーク侵入予測フレームワークを提案する。
このフレームワークは、2つのLLMをフィードバックループに組み込んでおり、ネットワークトラフィックを予測するための微調整された生成事前学習トランスフォーマー(GPT)モデルと、予測されたトラフィックを評価するためのBERT(Bidirectional Encoder Representations from Transformers)モデルである。
LSTM分類器モデルは、これらの予測の中で悪意のあるパケットを識別する。
我々のフレームワークは、CICIoT2023 IoT攻撃データセットに基づいて評価され、予測能力の大幅な改善を示し、全体的な精度は98%に達し、IoTサイバーセキュリティの課題に対する堅牢なソリューションを提供する。
In recent years, numerous large-scale cyberattacks have exploited Internet of Things (IoT) devices, a phenomenon that is expected to escalate with the continuing proliferation of IoT technology. Despite considerable efforts in attack detection, intrusion detection systems remain mostly reactive, responding to specific patterns or observed anomalies. This work proposes a proactive approach to anticipate and mitigate malicious activities before they cause damage. This paper proposes a novel network intrusion prediction framework that combines Large Language Models (LLMs) with Long Short Term Memory (LSTM) networks. The framework incorporates two LLMs in a feedback loop: a fine-tuned Generative Pre-trained Transformer (GPT) model for predicting network traffic and a fine-tuned Bidirectional Encoder Representations from Transformers (BERT) for evaluating the predicted traffic. The LSTM classifier model then identifies malicious packets among these predictions. Our framework, evaluated on the CICIoT2023 IoT attack dataset, demonstrates a significant improvement in predictive capabilities, achieving an overall accuracy of 98%, offering a robust solution to IoT cybersecurity challenges. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# バランス付きサブクラス正規化による半教師付き多臓器分割におけるクラス不均衡の緩和
Alleviating Class Imbalance in Semi-supervised Multi-organ Segmentation via Balanced Subclass Regularization ( http://arxiv.org/abs/2408.14047v1 ) ライセンス: Link先を確認 | Zhenghao Feng, Lu Wen, Binyu Yan, Jiaqi Cui, Yan Wang, | (参考訳) 半教師付き学習(SSL)は、大規模な注釈付きデータセット、特に挑戦的なマルチ組織セグメンテーション(MoS)において、高密度予測タスクの強い需要を緩和する上で、顕著な可能性を示している。
しかし,臓器の大きさの大幅な変化に起因するMoSのクラス不均衡問題は,SSLネットワークの学習困難を悪化させる。
この問題を軽減するために,MoSのサブクラス正規化をバランスよく行う2相半教師ネットワーク(BSR-Net)を提案する。
具体的には、第1フェーズにおいて、平衡クラスタリングに基づくクラスバランスサブクラス生成戦略を導入し、画素比に応じて、元のバイアスされたサブクラスから複数のバランスの取れたサブクラスを効果的に生成する。
そして、第2フェーズにおいて、メインMoSタスクのマルチタスクフレームワーク内で、補助サブクラスセグメンテーション(SCS)タスクを設計する。
SCSタスクは、バランスの取れたサブクラス正規化をメインのMoSタスクに寄与し、バイアスのない知識をMoSネットワークに転送することで、クラス不均衡の問題の影響を軽減する。
MICCAI FLARE 2022データセットとWORDデータセットの2つの公開データセットで実施された大規模な実験は、他の手法と比較して、我々の手法の優れた性能を検証する。
Semi-supervised learning (SSL) has shown notable potential in relieving the heavy demand of dense prediction tasks on large-scale well-annotated datasets, especially for the challenging multi-organ segmentation (MoS). However, the prevailing class-imbalance problem in MoS, caused by the substantial variations in organ size, exacerbates the learning difficulty of the SSL network. To alleviate this issue, we present a two-phase semi-supervised network (BSR-Net) with balanced subclass regularization for MoS. Concretely, in Phase I, we introduce a class-balanced subclass generation strategy based on balanced clustering to effectively generate multiple balanced subclasses from original biased ones according to their pixel proportions. Then, in Phase II, we design an auxiliary subclass segmentation (SCS) task within the multi-task framework of the main MoS task. The SCS task contributes a balanced subclass regularization to the main MoS task and transfers unbiased knowledge to the MoS network, thus alleviating the influence of the class-imbalance problem. Extensive experiments conducted on two publicly available datasets, i.e., the MICCAI FLARE 2022 dataset and the WORD dataset, verify the superior performance of our method compared with other methods. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# 医用ビデオ病変検出のための検出TRansformerを用いたビデオ・ツー・イメージの知識蒸留
Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection ( http://arxiv.org/abs/2408.14051v1 ) ライセンス: Link先を確認 | Yuncheng Jiang, Zixun Zhang, Jun Wei, Chun-Mei Feng, Guanbin Li, Xiang Wan, Shuguang Cui, Zhen Li, | (参考訳) AIを用いた病変検出モデルは、癌の早期スクリーニングにおいて重要な役割を担っている。
しかし、以前の画像ベースモデルは、ビデオに存在するフレーム間のコンテキスト情報を無視する。
一方、ビデオベースのモデルはフレーム間コンテキストをキャプチャするが、計算コストが高い。
この矛盾を緩和するため, 医用ビデオ病変検出のための検出TRansformer (V2I-DETR) を利用したビデオ・ツー・イメージの知識蒸留について検討した。
V2I-DETRは教師と学生のネットワークパラダイムを採用している。
教師ネットワークは、複数のフレームから時間的文脈を抽出し、学生ネットワークに転送することを目的としており、学生ネットワークは推論の高速な予測専用のイメージベースモデルである。
複数フレームのコンテキストを単一のフレームに蒸留することにより,ビデオベースモデルからの時間的コンテキストと画像ベースモデルの推論速度の利点を組み合わせたV2I-DETRを提案する。
大規模な実験により、V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30 FPS)を達成しつつ、従来の最先端手法よりも大きなマージンで性能を向上した。
AI-assisted lesion detection models play a crucial role in the early screening of cancer. However, previous image-based models ignore the inter-frame contextual information present in videos. On the other hand, video-based models capture the inter-frame context but are computationally expensive. To mitigate this contradiction, we delve into Video-to-Image knowledge distillation leveraging DEtection TRansformer (V2I-DETR) for the task of medical video lesion detection. V2I-DETR adopts a teacher-student network paradigm. The teacher network aims at extracting temporal contexts from multiple frames and transferring them to the student network, and the student network is an image-based model dedicated to fast prediction in inference. By distilling multi-frame contexts into a single frame, the proposed V2I-DETR combines the advantages of utilizing temporal contexts from video-based models and the inference speed of image-based models. Through extensive experiments, V2I-DETR outperforms previous state-of-the-art methods by a large margin while achieving the real-time inference speed (30 FPS) as the image-based model. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# Chain-of-Thought Promptingによる抑うつ診断の強化
Enhancing Depression Diagnosis with Chain-of-Thought Prompting ( http://arxiv.org/abs/2408.14053v1 ) ライセンス: Link先を確認 | Elysia Shi, Adithri Manda, London Chowdhury, Runeema Arun, Kevin Zhu, Michael Lam, | (参考訳) うつ病の兆候を検出するためにAIを使用する場合、AIモデルは習慣的にプリエンプティブな結論を引き出す。
我々は,患者健康アンケート8(PHQ-8)のスコアを評価するためのチェーン・オブ・シント(CoT)を用いることで,AIモデルによるスコアの精度が向上すると考えている。
以上の結果から,CoTを用いた場合のPHQ-8スコアは,CoTを使用しない場合と比較して,各被験者が報告した真のスコアと平均的に常に近かった。
我々の目標は、人間の会話の複雑さに対するAIモデルの理解を拡大し、患者の感情やトーンをより効果的に評価し、精神疾患の症状をより正確に識別できるようにすることです。
When using AI to detect signs of depressive disorder, AI models habitually draw preemptive conclusions. We theorize that using chain-of-thought (CoT) prompting to evaluate Patient Health Questionnaire-8 (PHQ-8) scores will improve the accuracy of the scores determined by AI models. In our findings, when the models reasoned with CoT, the estimated PHQ-8 scores were consistently closer on average to the accepted true scores reported by each participant compared to when not using CoT. Our goal is to expand upon AI models' understanding of the intricacies of human conversation, allowing them to more effectively assess a patient's feelings and tone, therefore being able to more accurately discern mental disorder symptoms; ultimately, we hope to augment AI models' abilities, so that they can be widely accessible and used in the medical field. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# HAPM -- リソース制約デバイスにおけるCNNハードウェアアクセラレーションのためのハードウェア・アウェア・プルーニング手法
HAPM -- Hardware Aware Pruning Method for CNN hardware accelerators in resource constrained devices ( http://arxiv.org/abs/2408.14055v1 ) ライセンス: Link先を確認 | Federico Nicolas Peccia, Luciano Ferreyro, Alejandro Furfaro, | (参考訳) ここ数年、CNN(Convolutional Neural Networks)と呼ばれるアルゴリズムが人気を博し、いくつかの領域に応用範囲を広げた。
特に、このアルゴリズムのおかげで、画像処理分野は目覚ましい進歩を遂げた。
IoTにおいて、幅広い研究分野は、最小限のエネルギーコストで実行可能なハードウェアを開発することを目的としている。
設計とトレーニングのテクニックを適用することで、この明らかに矛盾する目標を回避できます。
本研究は,FPGAデバイスに実装可能な汎用ハードウェアアーキテクチャを提案し,異なるニューラルネットワークアーキテクチャをシステムが実行可能にする幅広い構成をサポートし,この種のアルゴリズムに存在する数学的操作において,プルーニング技術によって引き起こされる疎結合を動的に活用する。
設計の推論速度は、リソース制約の異なるFPGAデバイス上で評価される。
最後に、このハードウェアアクセラレータのスケジューリング特性を活用するために特別に設計された独自のプルーニング手法と比較する。
ハードウェア対応プルーニングアルゴリズムは,標準アルゴリズムを用いたネットワークプルーニングに比べて,推論時間45%の顕著な改善を実現していることを示す。
During the last years, algorithms known as Convolutional Neural Networks (CNNs) had become increasingly popular, expanding its application range to several areas. In particular, the image processing field has experienced a remarkable advance thanks to this algorithms. In IoT, a wide research field aims to develop hardware capable of execute them at the lowest possible energy cost, but keeping acceptable image inference time. One can get around this apparently conflicting objectives by applying design and training techniques. The present work proposes a generic hardware architecture ready to be implemented on FPGA devices, supporting a wide range of configurations which allows the system to run different neural network architectures, dynamically exploiting the sparsity caused by pruning techniques in the mathematical operations present in this kind of algorithms. The inference speed of the design is evaluated over different resource constrained FPGA devices. Finally, the standard pruning algorithm is compared against a custom pruning technique specifically designed to exploit the scheduling properties of this hardware accelerator. We demonstrate that our hardware-aware pruning algorithm achieves a remarkable improvement of a 45 % in inference time compared to a network pruned using the standard algorithm. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# 時変複素共役行列方程式の再検討とその対応する実時間変大線形方程式、ニューラル超複素数空間圧縮近似法
Revisiting time-variant complex conjugate matrix equations with their corresponding real field time-variant large-scale linear equations, neural hypercomplex numbers space compressive approximation approach ( http://arxiv.org/abs/2408.14057v1 ) ライセンス: Link先を確認 | Jiakuang He, Dongqing Wu, | (参考訳) 大規模線形方程式と高次元は、ディープラーニング、機械学習、制御、科学計算においてホットな話題となっている。
特殊共役演算特性のため、時変複素共役行列方程式は対応する実場時変大線形方程式に変換する必要がある。
本稿では,複素場誤差(Con-CZND1)と実場誤差(Con-CZND2)に基づくゼロ化ニューラルダイナミクスモデルを提案する。
Con-CZND1は、複雑な行列の直接処理のため、より少ない元素を持つ。
Con-CZND2は、より多くの要素を持つ実場に変換される必要があり、その性能は係数行列の主対角線支配の影響を受けている。
ニューラル超複素数空間圧縮近似法(NHNSCAA)が革新的に提案されている。
そして、Con-CZND1conjモデルを構築する。
Con-CZND1 conjモデルの有効性を検証し,NHNSCAAの重要性を強調した。
Large-scale linear equations and high dimension have been hot topics in deep learning, machine learning, control,and scientific computing. Because of special conjugate operation characteristics, time-variant complex conjugate matrix equations need to be transformed into corresponding real field time-variant large-scale linear equations. In this paper, zeroing neural dynamic models based on complex field error (called Con-CZND1) and based on real field error (called Con-CZND2) are proposed for in-depth analysis. Con-CZND1 has fewer elements because of the direct processing of complex matrices. Con-CZND2 needs to be transformed into the real field, with more elements, and its performance is affected by the main diagonal dominance of coefficient matrices. A neural hypercomplex numbers space compressive approximation approach (NHNSCAA) is innovatively proposed. Then Con-CZND1 conj model is constructed. Numerical experiments verify Con-CZND1 conj model effectiveness and highlight NHNSCAA importance. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# 深層学習に基づく中国南西部の民族的マイノリティブロードの視覚的類似性の評価
Evaluating the Visual Similarity of Southwest China's Ethnic Minority Brocade Based on Deep Learning ( http://arxiv.org/abs/2408.14060v1 ) ライセンス: Link先を確認 | Shichen Liu, Huaxing Lu, | (参考訳) 本稿では,中国南西部における少数民族パターンの視覚的類似性について,深層学習法を用いて検討する。
SResNet-18ネットワークは、テストセットで98.7%の精度を実現し、ResNet-18、VGGNet-16、AlexNetを上回った。
SResNet-18から抽出した特徴ベクトルは,コサイン類似度,ユークリッド距離,マンハッタン距離の3つの指標を用いて評価した。
分析結果は、民族のパターンと地域分布の関連性を明らかにするために、民族のテーママップ上に視覚的に表現された。
This paper employs deep learning methods to investigate the visual similarity of ethnic minority patterns in Southwest China. A customized SResNet-18 network was developed, achieving an accuracy of 98.7% on the test set, outperforming ResNet-18, VGGNet-16, and AlexNet. The extracted feature vectors from SResNet-18 were evaluated using three metrics: cosine similarity, Euclidean distance, and Manhattan distance. The analysis results were visually represented on an ethnic thematic map, highlighting the connections between ethnic patterns and their regional distributions. | 翻訳日:2024-08-27 14:52:59 公開日:2024-08-26 |
# ラーニング・ツー・プラン, モーション・プリミティブ, セーフ強化学習のギャップを埋める
Bridging the gap between Learning-to-plan, Motion Primitives and Safe Reinforcement Learning ( http://arxiv.org/abs/2408.14063v1 ) ライセンス: Link先を確認 | Piotr Kicki, Davide Tateo, Puze Liu, Jonas Guenster, Jan Peters, Krzysztof Walas, | (参考訳) キノダイナミック制約下での軌道計画は、複雑な環境において、巧妙で反応性があり、迅速な技術を必要とする高度なロボティクスアプリケーションに基本となる。
これらの制約は、ロボットプラットフォームの適切な機能を確保し、予期せぬ行動を防ぐために必須である。
キノダイナミックプランニングの最近の進歩は、複雑な制約の下で、学習と計画のテクニックが複雑で反応性のある動きを生成できることを実証している。
しかし,これらの手法はロボットとタスク全体の解析的モデリングを必要としており,システムが非常に複雑である場合や,正確なタスクモデルの構築が禁じられている場合の仮定が制限される。
本稿では,学習から計画までの手法と強化学習を組み合わせることで,動作プリミティブのブラックボックス学習と最適化の新たな統合を実現する。
我々は,現在最先端の安全強化学習手法に対するアプローチを評価し,特にタスク構造を利用した場合,ロボットエアホッケーの打倒計画などの課題において,ベースライン手法よりも優れていることを示す。
本研究は,複雑なキノダイナミック制約下で動作するロボットの性能と安全性を高めるための統合的アプローチの可能性を示す。
Trajectory planning under kinodynamic constraints is fundamental for advanced robotics applications that require dexterous, reactive, and rapid skills in complex environments. These constraints, which may represent task, safety, or actuator limitations, are essential for ensuring the proper functioning of robotic platforms and preventing unexpected behaviors. Recent advances in kinodynamic planning demonstrate that learning-to-plan techniques can generate complex and reactive motions under intricate constraints. However, these techniques necessitate the analytical modeling of both the robot and the entire task, a limiting assumption when systems are extremely complex or when constructing accurate task models is prohibitive. This paper addresses this limitation by combining learning-to-plan methods with reinforcement learning, resulting in a novel integration of black-box learning of motion primitives and optimization. We evaluate our approach against state-of-the-art safe reinforcement learning methods, showing that our technique, particularly when exploiting task structure, outperforms baseline methods in challenging scenarios such as planning to hit in robot air hockey. This work demonstrates the potential of our integrated approach to enhance the performance and safety of robots operating under complex kinodynamic constraints. | 翻訳日:2024-08-27 14:42:59 公開日:2024-08-26 |
# 長めのIn-the-Wildオーディオスポフィング検出に関する予備的検討
A Preliminary Case Study on Long-Form In-the-Wild Audio Spoofing Detection ( http://arxiv.org/abs/2408.14066v1 ) ライセンス: Link先を確認 | Xuechen Liu, Xin Wang, Junichi Yamagishi, | (参考訳) 現実の症例の増加により、音声のスプーフィング検出がますます重要になっている。
現在のスプーフィング・ディテクターはスプーフィング・カウンタ(CM)と呼ばれ、主に1つのスピーカと短い持続時間を持つ音声波形に焦点を当てて訓練されている。
本研究では、より現実的なシナリオにおいて、音声が長く、複数の話者と複雑な音響条件を特徴とするスプーフィング検出について検討する。
我々は,この難易度シナリオの下で広く取得されたAASISTを検証し,CM性能に対する持続時間,話者の有無,音響複雑度などの多変量の影響について検討した。
我々の研究は、現在の手法における重要な問題を明らかにし、改善のための予備的な方法を提案する。
我々は,スプーフィング検出をより先進的なシナリオに適用することを目指している。
本研究は,実世界のアプリケーションにおける音声スプーフィングの課題に対処できる検出システムを開発するための重要なステップとして機能する。
Audio spoofing detection has become increasingly important due to the rise in real-world cases. Current spoofing detectors, referred to as spoofing countermeasures (CM), are mainly trained and focused on audio waveforms with a single speaker and short duration. This study explores spoofing detection in more realistic scenarios, where the audio is long in duration and features multiple speakers and complex acoustic conditions. We test the widely-acquired AASIST under this challenging scenario, looking at the impact of multiple variations such as duration, speaker presence, and acoustic complexities on CM performance. Our work reveals key issues with current methods and suggests preliminary ways to improve them. We aim to make spoofing detection more applicable in more in-the-wild scenarios. This research is served as an important step towards developing detection systems that can handle the challenges of audio spoofing in real-world applications. | 翻訳日:2024-08-27 14:42:59 公開日:2024-08-26 |
# 抽象的論証のためのVacuous Reduct Semanticsの再検討(拡張版)
Revisiting Vacuous Reduct Semantics for Abstract Argumentation (Extended Version) ( http://arxiv.org/abs/2408.14069v1 ) ライセンス: Link先を確認 | Lydia Blümel, Matthias Thimm, | (参考訳) 本稿では,2つの抽象的論証的意味論を与えられた抽象的議論的意味論(sigma, {\tau, refines {\sigma} (base condition))を,非空な「tau}-伸張」を持たないもの(vacuity condition)のみを受け入れて受け入れる,抽象的議論的意味論(sigma, {\tau)に対する空の還元的意味論(vacuous reduct semantics)の概念を考える。
本稿では, 適応性に基づく意味論と競合のない意味論を組み合わせることによって生じる空きレダクト意味論の体系的概要と, 一般の空きレダクト意味論の原理に基づく分析について述べる。
本稿では, 基礎から空きレダクトセマンティクスを抽出し, 基礎から空きレダクトセマンティクスを継承する基準と, 弱議論セマンティクスの文脈で最近導入された原則について述べる。
また、問題のないセマンティクスの特殊な場合についても、原理に基づく分析を行う。
We consider the notion of a vacuous reduct semantics for abstract argumentation frameworks, which, given two abstract argumentation semantics {\sigma} and {\tau}, refines {\sigma} (base condition) by accepting only those {\sigma}-extensions that have no non-empty {\tau}-extension in their reduct (vacuity condition). We give a systematic overview on vacuous reduct semantics resulting from combining different admissibility-based and conflict-free semantics and present a principle-based analysis of vacuous reduct semantics in general. We provide criteria for the inheritance of principle satisfaction by a vacuous reduct semantics from its base and vacuity condition for established as well as recently introduced principles in the context of weak argumentation semantics. We also conduct a principle-based analysis for the special case of undisputed semantics. | 翻訳日:2024-08-27 14:42:59 公開日:2024-08-26 |
# 無限に多くの専門家のベストの追跡によるスコアベース変化点検出
Score-based change point detection via tracking the best of infinitely many experts ( http://arxiv.org/abs/2408.14073v1 ) ライセンス: Link先を確認 | Anna Markovich, Nikita Puchkin, | (参考訳) 逐次スコア関数推定に基づくオンライン変化点検出のための新しいアルゴリズムを提案する。
手順の中核は、無限個の専門家と二次的損失関数の場合の固定シェア予測器のバージョンである。
このアルゴリズムは人工および実世界のデータセットに関する数値実験において有望な性能を示す。
また、独立したパラメータを持つ固定シェア予測器の動的後悔について、新たな上限を導出する。
We suggest a novel algorithm for online change point detection based on sequential score function estimation and tracking the best expert approach. The core of the procedure is a version of the fixed share forecaster for the case of infinite number of experts and quadratic loss functions. The algorithm shows a promising performance in numerical experiments on artificial and real-world data sets. We also derive new upper bounds on the dynamic regret of the fixed share forecaster with varying parameter, which are of independent interest. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# 抽象化工学
Abstraction Engineering ( http://arxiv.org/abs/2408.14074v1 ) ライセンス: Link先を確認 | Nelly Bencomo, Jordi Cabot, Marsha Chechik, Betty H. C. Cheng, Benoit Combemale, Andrzej Wąsowski, Steffen Zschaler, | (参考訳) 現代のソフトウェアベースのシステムは、急速に変化する条件の下で動作し、不確実性に直面している。
これに対し、システムはますます適応性を高め、人工知能の手法に依存している。
ユーザやアプリケーション領域(例えば、輸送、スマートグリッド、医療など)に関するソフトウェアの普及に加えて、これらのハイインパクトなソフトウェアシステムは、基本原則、ドメインの専門知識、ワークフローに関する多くの規律から必然的に引き出される。
コーディングの参入障壁を低くする最近の進歩は、必ずしもソフトウェアエンジニアではない、より広範な開発者のコミュニティにつながった。
そのため、ソフトウェア工学の分野は、それに従って適応し、幅広い専門家や非専門家によって、高品質なソフトウェアシステムを体系的に開発するための新しい方法を提供する必要がある。
本稿では、これらの新しい課題を考察し、抽象のレンズを通してそれらに取り組むことを提案する。
抽象化はすでに、昔ながらの古典的な推論推論やフォーマルなモデリングから、現代のデータサイエンスで使われている帰納的推論まで、ソフトウェア開発に関わる多くの分野で使われています。
未来のソフトウェアエンジニアリングには抽象化エンジニアリングが必要です。
抽象化エンジニアリングの基礎について議論し、主要な課題を特定し、これらの課題に対処するための研究課題を強調し、将来の研究のロードマップを作成します。
Modern software-based systems operate under rapidly changing conditions and face ever-increasing uncertainty. In response, systems are increasingly adaptive and reliant on artificial-intelligence methods. In addition to the ubiquity of software with respect to users and application areas (e.g., transportation, smart grids, medicine, etc.), these high-impact software systems necessarily draw from many disciplines for foundational principles, domain expertise, and workflows. Recent progress with lowering the barrier to entry for coding has led to a broader community of developers, who are not necessarily software engineers. As such, the field of software engineering needs to adapt accordingly and offer new methods to systematically develop high-quality software systems by a broad range of experts and non-experts. This paper looks at these new challenges and proposes to address them through the lens of Abstraction. Abstraction is already used across many disciplines involved in software development -- from the time-honored classical deductive reasoning and formal modeling to the inductive reasoning employed by modern data science. The software engineering of the future requires Abstraction Engineering -- a systematic approach to abstraction across the inductive and deductive spaces. We discuss the foundations of Abstraction Engineering, identify key challenges, highlight the research questions that help address these challenges, and create a roadmap for future research. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# 交換自由相互作用による超伝導空洞間の量子状態伝達
Quantum state transfer between superconducting cavities via exchange-free interactions ( http://arxiv.org/abs/2408.14076v1 ) ライセンス: Link先を確認 | Jie Zhou, Ming Li, Weiting Wang, Weizhou Cai, Ziyue Hua, Yifang Xu, Xiaoxuan Pan, Guangming Xue, Hongyi Zhang, Yipu Song, Haifeng Yu, Chang-Ling Zou, Luyan Sun, | (参考訳) 本研究では, 超伝導キャビティ間の光励起を交換することなく, 連続的な2モードスケザリング相互作用のみを用いて, 超伝導キャビティ間で量子状態を伝達するための新しいプロトコルを, 実験的に提案する。
このアプローチは概念的には、キャリア光子を直接送信することなく、異なるノード間で量子情報が転送される量子テレポーテーションに似ている。
テレポーテーションにおける絡み合いとベル状態の測定の離散的な操作とは対照的に、我々のスキームは対称で連続的である。
ボゾン量子誤り訂正符号を含む任意の量子状態のコヒーレントかつ双方向な転送を実験的に実現した。
我々の結果は、量子状態移動と量子テレポーテーションに関する新たな洞察を提供する。
特に、量子トランスデューサを実現するための新しいアプローチを実証し、幅広い物理プラットフォームでの応用を見出すことができる。
We propose and experimentally demonstrate a novel protocol for transferring quantum states between superconducting cavities using only continuous two-mode squeezing interactions, without exchange of photonic excitations between cavities. This approach conceptually resembles quantum teleportation, where quantum information is transferred between different nodes without directly transmitting carrier photons. In contrast to the discrete operations of entanglement and Bell-state measurement in teleportation, our scheme is symmetric and continuous. We experimentally realize coherent and bidirectional transfer of arbitrary quantum states, including bosonic quantum error correction codes. Our results offer new insights into the quantum state transfer and quantum teleportation. In particular, our demonstration validates a new approach to realize quantum transducers, and might find applications in a wide range of physical platforms. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# SONICS: Synthetic or Not -- Identifying Counterfeit Songs
SONICS: Synthetic Or Not -- Identifying Counterfeit Songs ( http://arxiv.org/abs/2408.14080v1 ) ライセンス: Link先を確認 | Md Awsafur Rahman, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Bishmoy Paul, Shaikh Anowarul Fattah, | (参考訳) 最近のAI生成楽曲の急増は、エキサイティングな可能性と挑戦を示している。
これらのツールは音楽制作を民主化する一方で、芸術的完全性とコンテンツキュレーションの保護のために、人間の作曲した曲とAI生成した曲を区別する能力も必要である。
フェイクソング検出における既存の研究とデータセットは、ボーカルがAIによって生成されるが、楽器音楽は実際の歌から供給される、歌声のディープフェイク検出(SVDD)のみに焦点を当てている。
しかし、このアプローチは、すべてのコンポーネント(声、歌詞、音楽、スタイル)をAI生成できる、現代のエンドツーエンドのAI生成曲には不十分である。
さらに、既存のデータセットには歌詞と音楽の多様性、長いデュレーション曲、オープンフェイクソングが欠けている。
これらのギャップに対処するため,Sano や Udio などの人気プラットフォームから,97k 以上の歌と49k 以上の合成歌からなる,エンドツーエンドの合成歌検出(SSD)のための新しいデータセット SONICS を紹介した。
さらに,既存の手法では見過ごされ,歌唱における時間的長期依存性を効果的に検出するためにモデル化することの重要性を強調した。
競合性能を維持しつつ,CNNやTransformerベースのモデルに比べて最大3倍高速で,メモリ効率が6倍高い新しいモデルSpecTTTraを提案する。
最後に、AIベースの評価ベンチマークとヒューマン評価ベンチマークの両方を提供し、現在の研究における別の欠陥に対処しています。
The recent surge in AI-generated songs presents exciting possibilities and challenges. While these tools democratize music creation, they also necessitate the ability to distinguish between human-composed and AI-generated songs for safeguarding artistic integrity and content curation. Existing research and datasets in fake song detection only focus on singing voice deepfake detection (SVDD), where the vocals are AI-generated but the instrumental music is sourced from real songs. However, this approach is inadequate for contemporary end-to-end AI-generated songs where all components (vocals, lyrics, music, and style) could be AI-generated. Additionally, existing datasets lack lyrics-music diversity, long-duration songs, and open fake songs. To address these gaps, we introduce SONICS, a novel dataset for end-to-end Synthetic Song Detection (SSD), comprising over 97k songs with over 49k synthetic songs from popular platforms like Suno and Udio. Furthermore, we highlight the importance of modeling long-range temporal dependencies in songs for effective authenticity detection, an aspect overlooked in existing methods. To capture these patterns, we propose a novel model, SpecTTTra, that is up to 3 times faster and 6 times more memory efficient compared to popular CNN and Transformer-based models while maintaining competitive performance. Finally, we offer both AI-based and Human evaluation benchmarks, addressing another deficiency in current research. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# HABD 古代手書き文字認識データベース
HABD: a houma alliance book ancient handwritten character recognition database ( http://arxiv.org/abs/2408.14084v1 ) ライセンス: Link先を確認 | Xiaoyu Yuan, Xiaohua Huang, Zibo Zhang, Yabo Sun, | (参考訳) ホマ・アライアンス・ブック(Huma Alliance Book)は、歴史の最も古い書体の一つで、1970年代に発掘された。
これらの遺物はシャンキ文化遺物研究所(Shanxi Provincial Institute of Cultural Relics)によって精巧に組織され、複製され、複製された。
しかし、古来の出自と墨の浸食により、法馬同盟書の登場人物の特定は困難であり、デジタル技術の使用が不可欠である。
本稿では,Houmaアライアンスブックのための手書き文字認識データベースと,ディープラーニングアーキテクチャに基づく新しいベンチマークを提案する。
より具体的には、法馬同盟書からの26,732文字のサンプルが収集され、反復的注釈を通じて327種類の古代文字が集められた。
さらに、4つのディープニューラルネットワーク分類器と2つのデータ拡張手法を組み合わせることで、ベンチマークアルゴリズムを提案した。
本研究は,ホマアライアンスブックなどの古代文字のさらなる研究に,貴重な資料と技術支援を提供するものである。
これは、人類の文化遺産の保存と継承だけでなく、古代の文化と歴史の理解にも貢献する。
The Houma Alliance Book, one of history's earliest calligraphic examples, was unearthed in the 1970s. These artifacts were meticulously organized, reproduced, and copied by the Shanxi Provincial Institute of Cultural Relics. However, because of their ancient origins and severe ink erosion, identifying characters in the Houma Alliance Book is challenging, necessitating the use of digital technology. In this paper, we propose a new ancient handwritten character recognition database for the Houma alliance book, along with a novel benchmark based on deep learning architectures. More specifically, a collection of 26,732 characters samples from the Houma Alliance Book were gathered, encompassing 327 different types of ancient characters through iterative annotation. Furthermore, benchmark algorithms were proposed by combining four deep neural network classifiers with two data augmentation methods. This research provides valuable resources and technical support for further studies on the Houma Alliance Book and other ancient characters. This contributes to our understanding of ancient culture and history, as well as the preservation and inheritance of humanity's cultural heritage. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# UMLモデリングにSOCIO Chatbotを使う:実験の家族
Using the SOCIO Chatbot for UML Modelling: A Family of Experiments ( http://arxiv.org/abs/2408.14085v1 ) ライセンス: Link先を確認 | Ranci Ren, John W. Castro, Adrián Santos, Oscar Dieste, Silvia T. Acuña, | (参考訳) コンテキスト: 自然言語処理の最近の進歩は、一般的に協調的なソフトウェアエンジニアリングタスク(ダイアグラムモデリングなど)におけるチャットボットの採用を促進する。
実験の家族は、ツールやプロセスのパフォーマンスを評価することができ、同時に、個々の実験の典型的な欠点(例えば、少数の参加者による不正確でバイアスのある結果)のいくつかを軽減することができます。
目的: 協調モデリングのためのチャットボット(SOCIO)とオンラインWebツール(Creately)のユーザビリティを比較する。
方法: 学術的環境下でのCreatelyオンライン協調ツールに対するSOCIOのユーザビリティを評価するために, 3つの実験をファミリーで実施した。
結果: 参加者は,チャットボットを用いたクラスダイアグラムの構築が,オンラインコラボレーションツールよりも早く,SOCIOに満足していた。
さらに、チャットボットを使用して構築されたクラスダイアグラムは、より簡潔になる傾向にあった。
結論: チャットボットはクラス図を構築するのに役立つようです。
実際、我々の研究はこの分野における実験の今後の方向性を明らかにするのに役立ち、ダイアグラム化におけるチャットボットの適用性の研究の基礎を築いてきた。
Context: Recent developments in natural language processing have facilitated the adoption of chatbots in typically collaborative software engineering tasks (such as diagram modelling). Families of experiments can assess the performance of tools and processes and, at the same time, alleviate some of the typical shortcomings of individual experiments (e.g., inaccurate and potentially biased results due to a small number of participants). Objective: Compare the usability of a chatbot for collaborative modelling (i.e., SOCIO) and an online web tool (i.e., Creately). Method: We conducted a family of three experiments to evaluate the usability of SOCIO against the Creately online collaborative tool in academic settings. Results: The student participants were faster at building class diagrams using the chatbot than with the online collaborative tool and more satisfied with SOCIO. Besides, the class diagrams built using the chatbot tended to be more concise -albeit slightly less complete. Conclusion: Chatbots appear to be helpful for building class diagrams. In fact, our study has helped us to shed light on the future direction for experimentation in this field and lays the groundwork for researching the applicability of chatbots in diagramming. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# ReLExS: StackelbergのNo-Regret学習者のための強化学習説明
ReLExS: Reinforcement Learning Explanations for Stackelberg No-Regret Learners ( http://arxiv.org/abs/2408.14086v1 ) ライセンス: Link先を確認 | Xiangge Huang, Jingyuan Li, Jiaqing Xie, | (参考訳) 後悔しないフォロワーの制約により、2人プレイのStackelbergゲームのプレイヤーは未だにStackelberg均衡に達するだろうか?
最初に、フォロワー戦略が報酬平均か変換逆平均かのどちらかである場合、2人のプレイヤーは常にStackelberg Equilibriumを取得できることを示す。
そして,2人プレイヤゲームにおけるスタックルバーグ均衡を,後悔しない制約の下で達成できることを拡張した。
また,追従者の効用性差の厳密な上限を,後悔の制約を伴わずに示す。
さらに、非regretアクションシーケンスを持つ定数サム2プレーヤのStackelbergゲームでは、ゲーム全体の最適性も引き続き有界であることを保証する。
With the constraint of a no regret follower, will the players in a two-player Stackelberg game still reach Stackelberg equilibrium? We first show when the follower strategy is either reward-average or transform-reward-average, the two players can always get the Stackelberg Equilibrium. Then, we extend that the players can achieve the Stackelberg equilibrium in the two-player game under the no regret constraint. Also, we show a strict upper bound of the follower's utility difference between with and without no regret constraint. Moreover, in constant-sum two-player Stackelberg games with non-regret action sequences, we ensure the total optimal utility of the game remains also bounded. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# LSM-YOLO:医学的検出のためのコンパクトかつ効果的なROI検出器
LSM-YOLO: A Compact and Effective ROI Detector for Medical Detection ( http://arxiv.org/abs/2408.14087v1 ) ライセンス: Link先を確認 | Zhongwen Yu, Qiu Guan, Jianmin Yang, Zhiqiang Yang, Qianwei Zhou, Yang Chen, Feng Chen, | (参考訳) 既存のROI(Health Region of Interest)検出では、リアルタイムのパフォーマンスと精度の両方を同時に満たすアルゴリズムが欠如しており、医療における自動検出の需要が増大している。
YOLOフレームワークは、高速なリアルタイム検出を実現するが、同時に精度を維持するという課題に直面している。
上記の問題を緩和するために,軽量適応抽出 (LAE) とマルチパスシャント特徴マッチング (MSFM) を用いた軽量シャントマッチング-YOLO (LSM-YOLO) という新しいモデルを提案する。
まず,LAEを用いて特徴抽出を改良することにより,マルチスケール特徴マップからよりコンテキスト情報と高解像度な詳細情報を得ることができ,医用画像におけるROIの詳細な特徴を抽出し,ノイズの影響を低減できる。
第二に、MSFMは高レベルのセマンティック特徴と低レベルの視覚特徴の融合をさらに洗練させ、ROI特徴と近隣特徴との融合をより良くし、診断支援を改善するために検出率を向上させる。
LSM-YOLOは、膵腫瘍のプライベートデータセットで48.6%AP、BCCD血液細胞検出公開データセットで65.1%AP、Br35h脳腫瘍検出公開データセットで73.0%APを達成した。
本モデルでは,上記の3つのデータセットに対して,パラメータコストを最小限に抑えながら,最先端の性能を実現する。
ソースコードは:https://github.com/VincentYuuuuu/LSM-YOLO。
In existing medical Region of Interest (ROI) detection, there lacks an algorithm that can simultaneously satisfy both real-time performance and accuracy, not meeting the growing demand for automatic detection in medicine. Although the basic YOLO framework ensures real-time detection due to its fast speed, it still faces challenges in maintaining precision concurrently. To alleviate the above problems, we propose a novel model named Lightweight Shunt Matching-YOLO (LSM-YOLO), with Lightweight Adaptive Extraction (LAE) and Multipath Shunt Feature Matching (MSFM). Firstly, by using LAE to refine feature extraction, the model can obtain more contextual information and high-resolution details from multiscale feature maps, thereby extracting detailed features of ROI in medical images while reducing the influence of noise. Secondly, MSFM is utilized to further refine the fusion of high-level semantic features and low-level visual features, enabling better fusion between ROI features and neighboring features, thereby improving the detection rate for better diagnostic assistance. Experimental results demonstrate that LSM-YOLO achieves 48.6% AP on a private dataset of pancreatic tumors, 65.1% AP on the BCCD blood cell detection public dataset, and 73.0% AP on the Br35h brain tumor detection public dataset. Our model achieves state-of-the-art performance with minimal parameter cost on the above three datasets. The source codes are at: https://github.com/VincentYuuuuuu/LSM-YOLO. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# 協調モデリングツールの使用感
Perceived Usability of Collaborative Modeling Tools ( http://arxiv.org/abs/2408.14088v1 ) ライセンス: Link先を確認 | Ranci Ren, John W. Castro, Santiago R. Acuña, Oscar Dieste, Silvia T. Acuña, | (参考訳) コンテキスト: オンラインのコラボレーティブなモデル作成が一般的になっています。
チャットボットと自然言語を使った協調モデリングは、異なるドメインからのユーザのためのモデリングの障壁を低くする可能性がある。
Objective: 同じようなオンラインコラボレーションモデリングツールであるSOCIOチャットボットとCreately Webベースのツールのユーザビリティについて比較します。
方法:66名を対象にクロスオーバー実験を行った。
評価装置はSUS(System Usability Scale)に基づいていた。
数値的・質的な探索を行い,推論統計と数理解析を適用した。
結果: 自然言語コミュニケーションが可能なチャットボットはコミュニケーションと協調の効率を高め, ユーザエクスペリエンスを向上させることが示唆された。
結論: チャットボットはガイダンスを改善し、初心者を助ける必要があります。
Context: Online collaborative creation of models is becoming commonplace. Collaborative modeling using chatbots and natural language may lower the barriers to modeling for users from different domains. Objective: We compare the perceived usability of two similarly online collaborative modeling tools, the SOCIO chatbot and the Creately web-based tool. Method: We conducted a crossover experiment with 66 participants. The evaluation instrument was based on the System Usability Scale (SUS). We performed a quantitative and qualitative exploration, employing inferential statistics and thematic analysis. Results: The results indicate that chatbots enabling natural language communication enhance communication and collaboration efficiency and improve the user experience. Conclusion: Chatbots need to improve guidance and help for novices, but they appear beneficial for enhancing user experience. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# GPU-to-GPU通信の探索:スーパーコンピュータのインターコネクションへの展望
Exploring GPU-to-GPU Communication: Insights into Supercomputer Interconnects ( http://arxiv.org/abs/2408.14090v1 ) ライセンス: Link先を確認 | Daniele De Sensi, Lorenzo Pichetti, Flavio Vella, Tiziano De Matteis, Zebin Ren, Luigi Fusco, Matteo Turisini, Daniele Cesarini, Kurt Lust, Animesh Trivedi, Duncan Roweth, Filippo Spiga, Salvatore Di Girolamo, Torsten Hoefler, | (参考訳) マルチGPUノードは、急速に進化するエクサスケールスーパーコンピュータのランドスケープにおいて、ますます一般的になっている。
これらのシステムでは、同一ノード上のGPUは専用ネットワークを介して接続され、帯域幅は毎秒数テラビットである。
しかし、さまざまな技術、設計オプション、ソフトウェアレイヤのために、パフォーマンスの期待を膨らませ、システム効率を最大化することは難しい。
本稿では,3つのスーパーコンピュータ – Alps,Leonardo,LUMI – をそれぞれ独自のアーキテクチャと設計で包括的に特徴付ける。
我々は,最大4096GPU上でのノード内およびノード間相互接続の性能評価に注目する。
その限界と機会を分析することで、研究者、システムアーキテクト、そしてマルチGPUスーパーコンピュータを扱うソフトウェア開発者に実践的なガイダンスを提供することを目指している。
この結果から,帯域幅が未使用であること,ネットワークからソフトウェアまで多くの最適化機会があることが示唆された。
Multi-GPU nodes are increasingly common in the rapidly evolving landscape of exascale supercomputers. On these systems, GPUs on the same node are connected through dedicated networks, with bandwidths up to a few terabits per second. However, gauging performance expectations and maximizing system efficiency is challenging due to different technologies, design options, and software layers. This paper comprehensively characterizes three supercomputers - Alps, Leonardo, and LUMI - each with a unique architecture and design. We focus on performance evaluation of intra-node and inter-node interconnects on up to 4096 GPUs, using a mix of intra-node and inter-node benchmarks. By analyzing its limitations and opportunities, we aim to offer practical guidance to researchers, system architects, and software developers dealing with multi-GPU supercomputing. Our results show that there is untapped bandwidth, and there are still many opportunities for optimization, ranging from network to software optimization. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# 学習因果ネットワークによる因果効果の推定
Estimating Causal Effects from Learned Causal Networks ( http://arxiv.org/abs/2408.14101v1 ) ライセンス: Link先を確認 | Anna Raichev, Alexander Ihler, Jin Tian, Rina Dechter, | (参考訳) 因果ダイアグラムと観測データが与えられた場合、同定可能な因果効果クエリ(例えば$P(Y|do(X)$)に応答する標準的なアプローチは、まず観測可能な変数に対する推定、あるいは確率的表現を生成し、観測データを用いて評価する。
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習することを提案する。
次に、学習したモデルに効率的な確率的グラフィカルモデル(PGM)アルゴリズムを適用し、クエリに応答する。
おそらく、この「emph{model completion}」学習アプローチは、特に推定式が計算的に困難になる大規模モデルにおいて、推定手法よりも効果的であることを示す。
ベイジアンネットワークのベンチマークコレクションと合成因果モデルを用いて,本手法の可能性について述べる。
The standard approach to answering an identifiable causal-effect query (e.g., $P(Y|do(X)$) when given a causal diagram and observational data is to first generate an estimand, or probabilistic expression over the observable variables, which is then evaluated using the observational data. In this paper, we propose an alternative paradigm for answering causal-effect queries over discrete observable variables. We propose to instead learn the causal Bayesian network and its confounding latent variables directly from the observational data. Then, efficient probabilistic graphical model (PGM) algorithms can be applied to the learned model to answer queries. Perhaps surprisingly, we show that this \emph{model completion} learning approach can be more effective than estimand approaches, particularly for larger models in which the estimand expressions become computationally difficult. We illustrate our method's potential using a benchmark collection of Bayesian networks and synthetically generated causal models. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# 量子自由電子レーザー発振器
Quantum free-electron laser oscillator ( http://arxiv.org/abs/2408.14103v1 ) ライセンス: Link先を確認 | Peter Kling, Enno Giese, | (参考訳) アンデュレータとレーザー場からの散乱による電子の量子力学的再コイルがダイナミクスを支配している場合、量子効果が放射特性に劇的な変化をもたらすような自由電子レーザーの体制が出現する。
しかし、単一パス量子自由電子レーザーに必要な大きな相互作用長は、実験的な実現を妨げる。
本論文で提案されている量子自由電子レーザー発振器は、この問題を解決するためのスキームである。
ここでは、従来の自由電子レーザーと比較してコヒーレントな状態に近い光子統計を特徴とする。
この装置は、サブポアソン統計が得られるように操作することもできる。
この純粋な量子効果を示す利点の他に、光子分布の狭さは放射される放射の強度変動を減少させ、その結果、画像実験におけるノイズの低減や干渉計応用における感度の向上につながる。
If the quantum mechanical recoil of the electron due to its scattering from the undulator and laser fields dominates the dynamics, a regime of the free-electron laser emerges where quantum effects lead to a drastic change in the radiation properties. However, the large interaction length required for a single-pass quantum free-electron laser impedes the experimental realization. The quantum free-electron laser oscillator, proposed in the present article, is a possible scheme to resolve this issue. Here we show that this device features a photon statistics that is closer to a coherent state in comparison to existing classical free-electron lasers. The device can be even operated in such a way that a sub-Poissonian statistics is obtained. Beside the benefit of demonstrating this pure quantum effect, the narrowing of the photon distribution implies reduced intensity fluctuations of the emitted radiation, which in turn lead to decreased noise in imaging experiments or to an enhanced sensitivity in interferometric applications. | 翻訳日:2024-08-27 14:42:58 公開日:2024-08-26 |
# リンドブラッドマスター方程式の高次解の完全正のトレース保存写像
Completely positive trace-preserving maps for higher-order unraveling of Lindblad master equations ( http://arxiv.org/abs/2408.14105v1 ) ライセンス: Link先を確認 | Nattaphong Wonglakhon, Howard M. Wiseman, Areeya Chantasri, | (参考訳) 実実験から連続測定記録を処理して量子軌道を得る理論ツールは、非無限小時間分解能による数値誤差を容易に導くことができる。
本研究では,地図の精度を体系的に評価する手法を提案する。
文献で提案された単一ステップのクラウス作用素に基づいて、拡散量子軌道の誤差解析を行い、有効な平均量子進化(完全正、凸線型、トレース保存)の条件を満たす時間的増分である$\Delta t$と、リンドブラッド解に一致する順序を求める。
これらの誤差解析から、有効な平均量子進化条件を満たすクラウス作用素を提案し、リンドブラッド・マスター方程式に一致する。
提案した演算子による正確な量子軌跡の再現性を検証するために、正確な写像を導出できる2つのキュービットの測定例を解析した。
提案した演算子は, 既存の手法と比較して, 正確な量子軌道に最小の平均トレース距離を与えることを示した。
Theoretical tools used in processing continuous measurement records from real experiments to obtain quantum trajectories can easily lead to numerical errors due to a non-infinitesimal time resolution. In this work, we propose a systematic assessment of the accuracy of a map. We perform error analyses for diffusive quantum trajectories, based on single-time-step Kraus operators proposed in the literature, and find the orders in time increment, $\Delta t$, to which such operators satisfy the conditions for valid average quantum evolution (completely positive, convex-linear, and trace-preserving), and the orders to which they match the Lindblad solutions. Given these error analyses, we propose a Kraus operator that satisfies the valid average quantum evolution conditions and agrees with the Lindblad master equation, to second order in $\Delta t$, thus surpassing all other existing approaches. In order to test how well our proposed operator reproduces exact quantum trajectories, we analyze two examples of qubit measurement, where exact maps can be derived: a qubit subjected to a dispersive ($z$-basis) measurement and a fluorescence (dissipative) measurement. We show analytically that our proposed operator gives the smallest average trace distance to the exact quantum trajectories, compared to existing approaches. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# マルチブランチ空間時間アテンションモデルを用いた手話推定によるベンガル手話認識
Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model ( http://arxiv.org/abs/2408.14111v1 ) ライセンス: Link先を確認 | Abu Saleh Musa Miah, Md. Al Mehedi Hasan, Md Hadiuzzaman, Muhammad Nazrul Islam, Jungpil Shin, | (参考訳) 手動ジェスチャーに基づく手話認識(SLR)は機械学習の最も高度な応用の1つであり、コンピュータビジョンは手動ジェスチャーを使用する。
過去数年間、多くの研究者がBSL問題に対処する方法を広く研究し研究してきたが、骨格やトランスフォーマーに基づくBSL認識など、特定の未適応の問題が残っている。
さらに, 種々の環境条件下でのBSLモデルの評価の欠如は, 日常生活の兆候に直面することによって, 既存のモデルの一般化された性質を証明することができる。
結果として、既存のBSL認識システムは、ジェスチャが広く、区別が容易なBSLアルファベットがほとんどないデータセットでテストされるため、その一般化能力の限られた視点を提供する。
これらの制約を克服するために,画像列から抽出した手関節骨格を考慮した空間時間的注意に基づくBSL認識モデルを提案する。
手動スケルトンベースのBSLデータを利用する主な目的は、最小計算コストと低ハードウェア構成を必要とするプライバシーと低解像度画像のシーケンスを保証することである。
本モデルでは, 高次元特徴空間上に投影された統一関節特徴に基づいて, 識別的構造変位と短距離依存性を捉える。
具体的には、分離可能なTNと強力なマルチヘッド空間時間アテンションアーキテクチャを組み合わせることで、高性能な精度を実現した。
提案したデータセットと2つのベンチマークBSLデータセットを用いた広範囲な実験により,提案モデルが計算複雑性を極端に低く,既存モデルよりも高速に動作できることが実証された。
Hand gesture-based sign language recognition (SLR) is one of the most advanced applications of machine learning, and computer vision uses hand gestures. Although, in the past few years, many researchers have widely explored and studied how to address BSL problems, specific unaddressed issues remain, such as skeleton and transformer-based BSL recognition. In addition, the lack of evaluation of the BSL model in various concealed environmental conditions can prove the generalized property of the existing model by facing daily life signs. As a consequence, existing BSL recognition systems provide a limited perspective of their generalisation ability as they are tested on datasets containing few BSL alphabets that have a wide disparity in gestures and are easy to differentiate. To overcome these limitations, we propose a spatial-temporal attention-based BSL recognition model considering hand joint skeletons extracted from the sequence of images. The main aim of utilising hand skeleton-based BSL data is to ensure the privacy and low-resolution sequence of images, which need minimum computational cost and low hardware configurations. Our model captures discriminative structural displacements and short-range dependency based on unified joint features projected onto high-dimensional feature space. Specifically, the use of Separable TCN combined with a powerful multi-head spatial-temporal attention architecture generated high-performance accuracy. The extensive experiments with a proposed dataset and two benchmark BSL datasets with a wide range of evaluations, such as intra- and inter-dataset evaluation settings, demonstrated that our proposed models achieve competitive performance with extremely low computational complexity and run faster than existing models. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# Kerr-cat量子ビット初期化におけるポンプ誘起周波数シフトの動的補償
Dynamic compensation for pump-induced frequency shift in Kerr-cat qubit initialization ( http://arxiv.org/abs/2408.14112v1 ) ライセンス: Link先を確認 | Yifang Xu, Ziyue Hua, Weiting Wang, Yuwei Ma, Ming Li, Jiajun Chen, Jie Zhou, Xiaoxuan Pan, Lintao Xiao, Hongwei Huang, Weizhou Cai, Hao Ai, Yu-xi Liu, Chang-Ling Zou, Luyan Sun, | (参考訳) ノイズバイアスのKerr-cat量子ビットはフォールトトレラント量子計算の魅力的な候補であるが、その初期化はポンプ誘起周波数シフト(PIFS)による問題に直面している。
本稿では,Kerr-cat量子ビット初期化におけるPIFSの効果を軽減するための動的補償法を提案する。
非線形設計による新しい三重ループSQUID装置を用いて, 安定化Kerr-cat量子ビットを実現し, 初期化忠実度を57%から78%に向上させ, 動的補償法の利点を検証した。
我々の結果は、Kerr-cat量子ビットの実践的な実装を前進させるだけでなく、これらのシステムの基本断熱力学に関する貴重な洞察を提供する。
この研究は、Kerr-cat量子ビットのバイアス保存特性を利用するスケーラブル量子プロセッサの道を開いた。
The noise-biased Kerr-cat qubit is an attractive candidate for fault-tolerant quantum computation; however, its initialization faces challenges due to the squeezing pump-induced frequency shift (PIFS). Here, we propose and demonstrate a dynamic compensation method to mitigate the effect of PIFS during the Kerr-cat qubit initialization. Utilizing a novel nonlinearity-engineered triple-loop SQUID device, we realize a stabilized Kerr-cat qubit and validate the advantages of the dynamic compensation method by improving the initialization fidelity from 57% to 78%, with a projected fidelity of 91% after excluding state preparation and measurement errors. Our results not only advance the practical implementation of Kerr-cat qubits, but also provide valuable insights into the fundamental adiabatic dynamics of these systems. This work paves the way for scalable quantum processors that leverage the bias-preserving properties of Kerr-cat qubits. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# FPGAを用いた高速低レベルディスク暗号化
Fast Low Level Disk Encryption Using FPGAs ( http://arxiv.org/abs/2408.14113v1 ) ライセンス: Link先を確認 | Debrup Chakraborty, Sebati Ghosh, Cuauhtemoc Mancillas-Lopez, Palash Sarkar, | (参考訳) 固定長調整可能な暗号化方式(TES)は、低レベルディスク暗号化に適した暗号化機能である。
過去20年間のTESの研究は、FPGAを使ってすでに実装されている多くの提案につながっている。
本稿では, AEZ と FAST の 2 つの最新かつ有望な TES のFPGA 実装について考察する。
関連するアーキテクチャを説明し、Xilinx Virtex 5 と Virtex 7 FPGA のシミュレーション結果を示す。
比較のために、XCB と EME2 の2つのIEEE標準スキームが検討されている。
その結果、FASTは他の方式よりも優れており、ディスクメーカーや標準化団体による将来の法人化の真剣な候補となることが示唆された。
A fixed length tweakable enciphering scheme (TES) is the appropriate cryptographic functionality for low level disk encryption. Research on TES over the last two decades have led to a number of proposals many of which have already been implemented using FPGAs. This paper considers the FPGA implementations of two more recent and promising TESs, namely AEZ and FAST. The relevant architectures are described and simulation results on the Xilinx Virtex 5 and Virtex 7 FPGAs are presented. For comparison, two IEEE standard schemes, XCB and EME2 are considered. The results indicate that FAST outperforms the other schemes making it a serious candidate for future incorporation by disk manufacturers and standardisation bodies. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# ShapeMamba-EM:3次元EM画像分割のための局所形状記述子とマンバブロックを用いたファインチューニング基礎モデル
ShapeMamba-EM: Fine-Tuning Foundation Model with Local Shape Descriptors and Mamba Blocks for 3D EM Image Segmentation ( http://arxiv.org/abs/2408.14114v1 ) ライセンス: Link先を確認 | Ruohua Shi, Qiufan Pang, Lei Ma, Lingyu Duan, Tiejun Huang, Tingting Jiang, | (参考訳) 電子顕微鏡(EM)イメージング(Electron Microscopy)は、神経組織を解析するための非並列分解能を提供する。
近年,多くの自然・医用画像セグメンテーションタスクにおいて,基礎モデルが顕著な性能を示した。
しかし、これらの基礎モデルをEMセグメンテーションに適用することは、ドメインの相違により大きな課題に直面している。
本稿では,3次元EMセグメンテーションのための特殊な微調整手法であるShapeMamba-EMについて述べる。
このアプローチは、EMデータのユニークな体積と形態の複雑さに効果的に対処する。
5つのセグメンテーションタスクと10のデータセットをカバーする幅広いEMイメージでテストされたShapeMamba-EMは、既存の手法よりも優れており、EMイメージセグメンテーションの新しい標準を確立し、神経組織アーキテクチャの理解を深めている。
Electron microscopy (EM) imaging offers unparalleled resolution for analyzing neural tissues, crucial for uncovering the intricacies of synaptic connections and neural processes fundamental to understanding behavioral mechanisms. Recently, the foundation models have demonstrated impressive performance across numerous natural and medical image segmentation tasks. However, applying these foundation models to EM segmentation faces significant challenges due to domain disparities. This paper presents ShapeMamba-EM, a specialized fine-tuning method for 3D EM segmentation, which employs adapters for long-range dependency modeling and an encoder for local shape description within the original foundation model. This approach effectively addresses the unique volumetric and morphological complexities of EM data. Tested over a wide range of EM images, covering five segmentation tasks and 10 datasets, ShapeMamba-EM outperforms existing methods, establishing a new standard in EM image segmentation and enhancing the understanding of neural tissue architecture. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# 宇宙空間統合ネットワークにおける階層的学習と計算
Hierarchical Learning and Computing over Space-Ground Integrated Networks ( http://arxiv.org/abs/2408.14116v1 ) ライセンス: Link先を確認 | Jingyang Zhu, Yuanming Shi, Yong Zhou, Chunxiao Jiang, Linling Kuang, | (参考訳) 地上統合ネットワークは、特にIoT(Internet of Things)デバイスによって大量の貴重なデータが生成される遠隔地では、地球上の通信インフラが欠如している。
大量のデータは従来,集中型人工知能(AI)モデルのトレーニングのためにクラウドサーバに転送される。
そこで本研究では,低軌道(LEO)衛星の低遅延特性と静止軌道(GEO)衛星のグローバルカバレッジを活用し,地上IoTデバイス上で局所的に訓練されたモデルに対するグローバルアグリゲーションサービスを提供する階層型学習・計算フレームワークを提案する。
衛星ネットワークトポロジの時間変化とLEO衛星のエネルギー制約のため、LEO衛星上の地上機器から受信したローカルモデルを効率的に集約することは極めて困難である。
衛星間接続の予測可能性を活用し、空間ネットワークを有向グラフとしてモデル化することにより、モデル集約のためのネットワークエネルギー最小化問題を定式化し、これはDST問題であることが判明した。
代用有向グラフ上で最小スパンニングアーボラッセンスを求めることでDST問題を解決するためのトポロジカル・アウェア・エネルギ効率・ルーティング(TAEER)アルゴリズムを提案する。
実世界の宇宙空間統合ネットワーク環境下での大規模なシミュレーションにより,提案したTAEERアルゴリズムはエネルギー消費を大幅に削減し,ベンチマークを上回る性能を示す。
Space-ground integrated networks hold great promise for providing global connectivity, particularly in remote areas where large amounts of valuable data are generated by Internet of Things (IoT) devices, but lacking terrestrial communication infrastructure. The massive data is conventionally transferred to the cloud server for centralized artificial intelligence (AI) models training, raising huge communication overhead and privacy concerns. To address this, we propose a hierarchical learning and computing framework, which leverages the lowlatency characteristic of low-earth-orbit (LEO) satellites and the global coverage of geostationary-earth-orbit (GEO) satellites, to provide global aggregation services for locally trained models on ground IoT devices. Due to the time-varying nature of satellite network topology and the energy constraints of LEO satellites, efficiently aggregating the received local models from ground devices on LEO satellites is highly challenging. By leveraging the predictability of inter-satellite connectivity, modeling the space network as a directed graph, we formulate a network energy minimization problem for model aggregation, which turns out to be a Directed Steiner Tree (DST) problem. We propose a topologyaware energy-efficient routing (TAEER) algorithm to solve the DST problem by finding a minimum spanning arborescence on a substitute directed graph. Extensive simulations under realworld space-ground integrated network settings demonstrate that the proposed TAEER algorithm significantly reduces energy consumption and outperforms benchmarks. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# 生涯学習の埋め込みに向けて: 埋め込みを動的に拡張するためのアルゴリズム的アプローチ
Towards Lifelong Learning Embeddings: An Algorithmic Approach to Dynamically Extend Embeddings ( http://arxiv.org/abs/2408.14118v1 ) ライセンス: Link先を確認 | Miguel Alves Gomes, Philipp Meisen, Tobias Meisen, | (参考訳) テクノロジーの急速な進化は、世界中のビジネスオペレーションと顧客とのインタラクションを変革させ、eコマース企業がより効率的に顧客をエンゲージメントするための重要な機会としてパーソナライゼーションが生まれている。
機械学習の応用、特にディープラーニングモデルの応用は、大規模なデータセットのパターンを迅速に認識し、パーソナライズする多くの可能性を提供するため、大きな注目を集めている。
これらのモデルでは、製品IDのような個別の情報を埋め込みを使って潜在ベクトル空間にマッピングするが、近年はますます人気が高まっている。
しかし、電子商取引のダイナミックな性質は、しばしば新製品の導入によって特徴づけられ、通常は固定次元と入力を必要とし、スクラッチから定期的に再トレーニングする必要が生じる。
本稿では,電子商取引のダイナミズムがもたらす課題に対処するため,学習知識を保存しながら入力サイズを拡大するモジュールアルゴリズムを提案する。
提案アルゴリズムは,新規製品に関連するコールドスタート問題を緩和する戦略も取り入れている。
実験結果から, 本手法は従来の埋め込みよりも優れていたことが示唆された。
The rapid evolution of technology has transformed business operations and customer interactions worldwide, with personalization emerging as a key opportunity for e-commerce companies to engage customers more effectively. The application of machine learning, particularly that of deep learning models, has gained significant traction due to its ability to rapidly recognize patterns in large datasets, thereby offering numerous possibilities for personalization. These models use embeddings to map discrete information, such as product IDs, into a latent vector space, a method increasingly popular in recent years. However, e-commerce's dynamic nature, characterized by frequent new product introductions, poses challenges for these embeddings, which typically require fixed dimensions and inputs, leading to the need for periodic retraining from scratch. This paper introduces a modular algorithm that extends embedding input size while preserving learned knowledge, addressing the challenges posed by e-commerce's dynamism. The proposed algorithm also incorporates strategies to mitigate the cold start problem associated with new products. The results of initial experiments suggest that this method outperforms traditional embeddings. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# テキストクラスタリングのためのコントラスト学習サブスペース
Contrastive Learning Subspace for Text Clustering ( http://arxiv.org/abs/2408.14119v1 ) ライセンス: Link先を確認 | Qian Yong, Chen Chen, Xiabing Zhou, | (参考訳) テキストクラスタリングタスクの効果的な表現を学習するために,コントラスト学習が頻繁に研究されている。
既存の対照的な学習ベースのテキストクラスタリング手法は、インスタンス単位のセマンティックな類似性関係のモデリングにのみ焦点をあてるが、クラスタ化が必要なすべてのインスタンス間のコンテキスト情報や基礎となる関係は無視する。
本稿では,SCL(Subspace Contrastive Learning)と呼ばれる新しいテキストクラスタリング手法を提案する。
具体的には,(1)仮想正のサンプルを構成する自己表現モジュール,(2)テキスト間のタスク固有のクラスタ関係を捉えるための識別サブ空間を学習するコントラスト学習モジュールの2つの主要モジュールから構成される。
実験結果から, 提案手法は複数のタスククラスタリングデータセットにおいて優れた結果を得ただけでなく, 正のサンプル構築における複雑性も低かった。
Contrastive learning has been frequently investigated to learn effective representations for text clustering tasks. While existing contrastive learning-based text clustering methods only focus on modeling instance-wise semantic similarity relationships, they ignore contextual information and underlying relationships among all instances that needs to be clustered. In this paper, we propose a novel text clustering approach called Subspace Contrastive Learning (SCL) which models cluster-wise relationships among instances. Specifically, the proposed SCL consists of two main modules: (1) a self-expressive module that constructs virtual positive samples and (2) a contrastive learning module that further learns a discriminative subspace to capture task-specific cluster-wise relationships among texts. Experimental results show that the proposed SCL method not only has achieved superior results on multiple task clustering datasets but also has less complexity in positive sample construction. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# FG-SAT:環境変化下における暗号化トラフィック分類のための効率的なフローグラフ
FG-SAT: Efficient Flow Graph for Encrypted Traffic Classification under Environment Shifts ( http://arxiv.org/abs/2408.14122v1 ) ライセンス: Link先を確認 | Susu Cui, Xueying Han, Dongqi Han, Zhiliang Wang, Weihang Wang, Yun Li, Bo Jiang, Baoxu Liu, Zhigang Lu, | (参考訳) 暗号化されたトラフィック分類は、ネットワークのセキュリティと管理において重要な役割を果たす。
現在、ニューラルネットワークによるサイドチャネルの内容とプレーンテキストフィールドからの深いパターンのマイニングが主要なソリューションである。
しかし,既存の手法には,(1)輸送層機構とアプリケーション間の重要なリンクを認識できないこと,(2)正確な交通分類のための内部構造の特徴を学習する機会を欠いていること,の2つの大きな制限がある。
2) ネットワークトラフィックを非現実的に安定かつ特異な環境で仮定し, 環境シフトによる実世界のトラフィックを効果的に分類することは困難である。
本稿では,FG-SATを提案する。FG-SATは,環境変動を考慮した最初のエンドツーエンドのトラフィック解析手法である。
本研究では,フロー内部の関係構造とリッチノード属性を表現し,ロバストかつ一般化された表現を可能にするための重要な抽象化であるフローグラフを提案する。
さらに,環境変化に伴う不整合データ分散の問題に対処するために,Jensen-Shannon divergence (JSD) に基づく新しい特徴選択アルゴリズムを導入し,ロバストなノード属性を選択する。
最後に、GraphSAGEとGATを統合してFlow Graph機能を深く学習し、正確な暗号化トラフィック識別を可能にする分類器GraphSATを設計する。
FG-SATは、環境シフト下での効率的な分類性能とロバストな分類性能を示し、暗号化された攻撃検出とアプリケーション分類において最先端の手法より優れている。
Encrypted traffic classification plays a critical role in network security and management. Currently, mining deep patterns from side-channel contents and plaintext fields through neural networks is a major solution. However, existing methods have two major limitations: (1) They fail to recognize the critical link between transport layer mechanisms and applications, missing the opportunity to learn internal structure features for accurate traffic classification. (2) They assume network traffic in an unrealistically stable and singular environment, making it difficult to effectively classify real-world traffic under environment shifts. In this paper, we propose FG-SAT, the first end-to-end method for encrypted traffic analysis under environment shifts. We propose a key abstraction, the Flow Graph, to represent flow internal relationship structures and rich node attributes, which enables robust and generalized representation. Additionally, to address the problem of inconsistent data distribution under environment shifts, we introduce a novel feature selection algorithm based on Jensen-Shannon divergence (JSD) to select robust node attributes. Finally, we design a classifier, GraphSAT, which integrates GraphSAGE and GAT to deeply learn Flow Graph features, enabling accurate encrypted traffic identification. FG-SAT exhibits both efficient and robust classification performance under environment shifts and outperforms state-of-the-art methods in encrypted attack detection and application classification. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# 再重み付けによる公正性向上 - 十分ルールを実現するための道程
Enhancing Fairness through Reweighting: A Path to Attain the Sufficiency Rule ( http://arxiv.org/abs/2408.14126v1 ) ライセンス: Link先を確認 | Xuan Zhao, Klaus Broelemann, Salvatore Ruggieri, Gjergji Kasneci, | (参考訳) 本稿では, モデルトレーニングにおける経験的リスク最小化(ERM)プロセスを, 公正性を高めるために, 訓練データの洗練された重み付け方式により向上させる, 革新的なアプローチを提案する。
このスキームは、最適予測器が多様なサブグループ間で整合性を維持することを保証することによって、公正性における十分性規則を維持することを目的としている。
この課題に対処するために、我々は二段階の定式化を採用し、サンプル再重み付け戦略について検討する。
モデルサイズをヒンジする従来の方法とは異なり、我々の定式化は標本重みの空間上の一般化複雑性をモデル化する。
トレーニング速度を改善するために重量を区別します。
提案手法の有効性とロバスト性を実証し,様々な実験における予測性能と公正度測定値のバランスの整合性の向上を示した。
We introduce an innovative approach to enhancing the empirical risk minimization (ERM) process in model training through a refined reweighting scheme of the training data to enhance fairness. This scheme aims to uphold the sufficiency rule in fairness by ensuring that optimal predictors maintain consistency across diverse sub-groups. We employ a bilevel formulation to address this challenge, wherein we explore sample reweighting strategies. Unlike conventional methods that hinge on model size, our formulation bases generalization complexity on the space of sample weights. We discretize the weights to improve training speed. Empirical validation of our method showcases its effectiveness and robustness, revealing a consistent improvement in the balance between prediction performance and fairness metrics across various experiments. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# 大きな袋のラベル分布から学ぶための理論的ラベル摂動
Theoretical Proportion Label Perturbation for Learning from Label Proportions in Large Bags ( http://arxiv.org/abs/2408.14130v1 ) ライセンス: Link先を確認 | Shunsuke Kubo, Shinnosuke Matsuo, Daiki Suehiro, Kazuhiro Terada, Hiroaki Ito, Akihiko Yoshizawa, Ryoma Bise, | (参考訳) ラベル比例(LLP)からの学習(Learning from label proportions)は、インスタンスレベルの分類器をバッグのラベル比からトレーニングする弱い教師付き学習の一種である。
LLPの課題は、バッグ(バッグサイズ)のインスタンス数が多すぎると発生するため、従来のLPPメソッドはGPUメモリの制限のために困難である。
本研究の目的は,大型バッグから学習可能なLPP手法の開発である。
本手法では,小型の袋(ミニバッグ)を小型の袋(原袋)から採取し,小型の袋(ミニバッグ)を原袋の代わりに使用する。
しかし、ミニバッグの割合は不詳であり、元のバッグと異なり、過度に適合する。
この問題に対処するために,サンプル化したミニバッグの比例ラベルに対する摂動法を提案する。
この摂動は、統計的にモデル化された多変量超幾何分布に基づいて追加される。
さらに, 損失重み付けを行い, 分布の尾部から採取した比例の負の影響を低減した。
実験の結果, 比例ラベルの摂動と損失重み付けは, サンプリングなしで得られるものと同等の分類精度が得られることがわかった。
私たちのコードはhttps://github.com/stainlessnight/LLP-LargeBags.comで利用可能です。
Learning from label proportions (LLP) is a kind of weakly supervised learning that trains an instance-level classifier from label proportions of bags, which consist of sets of instances without using instance labels. A challenge in LLP arises when the number of instances in a bag (bag size) is numerous, making the traditional LLP methods difficult due to GPU memory limitations. This study aims to develop an LLP method capable of learning from bags with large sizes. In our method, smaller bags (mini-bags) are generated by sampling instances from large-sized bags (original bags), and these mini-bags are used in place of the original bags. However, the proportion of a mini-bag is unknown and differs from that of the original bag, leading to overfitting. To address this issue, we propose a perturbation method for the proportion labels of sampled mini-bags to mitigate overfitting to noisy label proportions. This perturbation is added based on the multivariate hypergeometric distribution, which is statistically modeled. Additionally, loss weighting is implemented to reduce the negative impact of proportions sampled from the tail of the distribution. Experimental results demonstrate that the proportion label perturbation and loss weighting achieve classification accuracy comparable to that obtained without sampling. Our codes are available at https://github.com/stainlessnight/LLP-LargeBags. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# GenFormer -- 生成された画像は、小さなデータセット上のトランスフォーマーのロバスト性を改善するために必要なすべてである
GenFormer -- Generated Images are All You Need to Improve Robustness of Transformers on Small Datasets ( http://arxiv.org/abs/2408.14131v1 ) ライセンス: Link先を確認 | Sven Oehri, Nikolas Ebert, Ahmed Abdullah, Didier Stricker, Oliver Wasenmüller, | (参考訳) 近年の研究では、視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)の競合精度と、その顕著な頑健さが示されている。
しかし、ViTsは十分なパフォーマンスを達成するために大量のデータを必要としているため、小さなデータセットへの応用は困難であり、CNNに遅れている。
そこで我々は、生成した画像を利用したデータ拡張戦略であるGenFormerを提案し、小型画像分類タスクにおける変換器の精度とロバスト性を向上させる。
総合評価では、確立した画像ネットの一般化とロバストネスベンチマークを小規模データドメインに転送することで、Tiny ImageNetの新しいテストセットとしてTiny ImageNetV2, -R, -Aを提案する。
同様に、MedMNIST-CとEuroSAT-Cを医療・航空分野において確立された詳細なデータセットの劣化試験セットとして導入する。
Tiny ImageNet, CIFAR, EuroSAT, MedMNISTなど, さまざまな領域の小さなデータセットで実施した一連の実験を通じて, 本手法の相乗効果を実証した。
さらに、訓練データに制限のある困難な条件下でのアプローチの有効性を実証し、CNNとViT間の小さなデータセット領域のギャップを埋めることにより、精度とロバスト性の両方において大幅な改善を示す。
Recent studies showcase the competitive accuracy of Vision Transformers (ViTs) in relation to Convolutional Neural Networks (CNNs), along with their remarkable robustness. However, ViTs demand a large amount of data to achieve adequate performance, which makes their application to small datasets challenging, falling behind CNNs. To overcome this, we propose GenFormer, a data augmentation strategy utilizing generated images, thereby improving transformer accuracy and robustness on small-scale image classification tasks. In our comprehensive evaluation we propose Tiny ImageNetV2, -R, and -A as new test set variants of Tiny ImageNet by transferring established ImageNet generalization and robustness benchmarks to the small-scale data domain. Similarly, we introduce MedMNIST-C and EuroSAT-C as corrupted test set variants of established fine-grained datasets in the medical and aerial domain. Through a series of experiments conducted on small datasets of various domains, including Tiny ImageNet, CIFAR, EuroSAT and MedMNIST datasets, we demonstrate the synergistic power of our method, in particular when combined with common train and test time augmentations, knowledge distillation, and architectural design choices. Additionally, we prove the effectiveness of our approach under challenging conditions with limited training data, demonstrating significant improvements in both accuracy and robustness, bridging the gap between CNNs and ViTs in the small-scale dataset domain. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# ヘテロ親和性グラフのための大規模言語モデルの可能性を探る
Exploring the Potential of Large Language Models for Heterophilic Graphs ( http://arxiv.org/abs/2408.14134v1 ) ライセンス: Link先を確認 | Yuxia Wu, Shujie Li, Yuan Fang, Chuan Shi, | (参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフベースの学習タスクに不可欠である。
特に、古典的なGNNアーキテクチャはホモフィリー(英語版)の仮定の下で動作し、接続ノードが同様の特徴を共有する可能性が示唆される。
しかし、この仮定は、連結ノードがしばしば異なる特性を示すヘテロ親和性グラフを扱う際のGNNの有効性を制限している。
非局所的な隣り合う拡張やアーキテクチャの洗練のような既存のホモフィリーグラフのアプローチは、ノードに関連するリッチなテキストデータを見落としており、これらのヘテロ親密な文脈に対する深い洞察を解き放つ可能性がある。
LLM(Large Language Models)の進歩により、LLM内の広いオープンワールド知識を活用して、テキストデータをより効果的に解釈し、ヘテロ親和性グラフを特徴付けることで、GNNを強化するという大きな約束がある。
本研究では、異種グラフをモデル化するためのLLMの可能性を探り、LLM強化エッジ判別器とLLM誘導エッジ再重み付けという、2段階の新たなフレームワークを提案する。
特に第1段階では,LLMを微調整して,ノードのテキスト情報に基づいて,同種および異種縁の同定を行う。
第2段階では,ノードの特徴,構造,ヘテロ親和性,ホモ親和性といった特徴に基づいて,異なるエッジタイプに対するGNNのメッセージ伝搬を適応的に管理する。
実用シナリオにおけるLCMの展開における計算要求に対処するため,より小型で効率の良いモデルで競争性能を維持するための蒸留技術について検討する。
大規模な実験により, ヘテロ親和性グラフ上のノード分類において, LLM を用いて GNN を拡張可能であることを示す。
Graph Neural Networks (GNNs) are essential for various graph-based learning tasks. Notably, classical GNN architectures operate under the assumption of homophily, which posits that connected nodes are likely to share similar features. However, this assumption limits the effectiveness of GNNs in handling heterophilic graphs where connected nodes often exhibit dissimilar characteristics. Existing approaches for homophily graphs such as non-local neighbor extension and architectural refinement overlook the rich textual data associated with nodes, which could unlock deeper insights into these heterophilic contexts. With advancements in Large Language Models (LLMs), there is significant promise to enhance GNNs by leveraging the extensive open-world knowledge within LLMs to more effectively interpret and utilize textual data for characterizing heterophilic graphs. In this work, we explore the potential of LLMs for modeling heterophilic graphs and propose a novel two-stage framework: LLM-enhanced edge discriminator and LLM-guided edge reweighting. Specifically, in the first stage, we fine-tune the LLM to better identify homophilic and heterophilic edges based on the textual information of their nodes. In the second stage, we adaptively manage message propagation in GNNs for different edge types based on node features, structures, and heterophilic or homophilic characteristics. To cope with the computational demands when deploying LLMs in practical scenarios, we further explore model distillation techniques to fine-tune smaller, more efficient models that maintain competitive performance. Extensive experiments validate the effectiveness of our framework, demonstrating the feasibility of using LLMs to enhance GNNs for node classification on heterophilic graphs. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# 食品融合 : 拡散モデルによる食品画像合成の新しいアプローチ
Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models ( http://arxiv.org/abs/2408.14135v1 ) ライセンス: Link先を確認 | Chaohua Shi, Xuan Wang, Si Shi, Xule Wang, Mingrui Zhu, Nannan Wang, Xinbo Gao, | (参考訳) 食品画像の構成には、既存の食器画像と背景画像を用いて自然な新しいイメージを合成する必要があるが、拡散モデルは画像生成に大きな進歩をもたらし、将来性のある結果をもたらすエンドツーエンドアーキテクチャの構築を可能にしている。
しかし、既存の拡散モデルでは、複数の画像からの情報処理と融合が困難であり、高品質な公開データセットへのアクセスが欠如しているため、食品画像合成における拡散モデルの適用が妨げられる。
本稿では,22,000個の前景,背景,地上の真理3値からなる大規模で高品質な食品画像合成データセットFC22kを紹介する。
さらに,事前学習した拡散モデルの能力を生かした新しい食品画像合成手法であるFoodfusionを提案し,前景や背景情報を処理・統合するためのFusion Moduleを組み込んだ。
この融合した情報は、デノイングUNetのクロスアテンション層にグローバルな構造情報をマージすることにより、前景の特徴と背景構造とを整合させる。
背景のコンテンツと構造をさらに強化するため、コンテンツ構造制御モジュールも統合する。
提案手法の有効性と拡張性を示す実験を行った。
Food image composition requires the use of existing dish images and background images to synthesize a natural new image, while diffusion models have made significant advancements in image generation, enabling the construction of end-to-end architectures that yield promising results. However, existing diffusion models face challenges in processing and fusing information from multiple images and lack access to high-quality publicly available datasets, which prevents the application of diffusion models in food image composition. In this paper, we introduce a large-scale, high-quality food image composite dataset, FC22k, which comprises 22,000 foreground, background, and ground truth ternary image pairs. Additionally, we propose a novel food image composition method, Foodfusion, which leverages the capabilities of the pre-trained diffusion models and incorporates a Fusion Module for processing and integrating foreground and background information. This fused information aligns the foreground features with the background structure by merging the global structural information at the cross-attention layer of the denoising UNet. To further enhance the content and structure of the background, we also integrate a Content-Structure Control Module. Extensive experiments demonstrate the effectiveness and scalability of our proposed method. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# 拡張現実応用のためのモデリング言語の多面的評価 -ARWFMLの場合-
Multi-Faceted Evaluation of Modeling Languages for Augmented Reality Applications -- The Case of ARWFML ( http://arxiv.org/abs/2408.14137v1 ) ライセンス: Link先を確認 | Fabian Muff, Hans-Georg Fill, | (参考訳) 拡張現実アプリケーションのためのモデリング言語の評価は、それらがターゲットとする3次元環境のために、特に課題となる。
以前導入されたARWFML(Augmented Reality Workflow Modeling Language)は、プログラミング知識のない拡張現実シナリオをモデルベースで作成することを可能にする。
本稿では,言語仕様の最初の設計サイクルをベースとして,多面的評価に基づいて言語を改良するための2つの設計イテレーションを提案する。
これには、実装オプションとワークフロー機能の比較評価、3D表記の導入、新しい3Dモデリング環境の開発が含まれる。
そこで,この言語に関する理解度調査を行った。
そこで本研究では,拡張現実のためのモデリング言語を,経験的評価に適した成熟度レベルへと進化させる方法について述べる。
The evaluation of modeling languages for augmented reality applications poses particular challenges due to the three-dimensional environment they target. The previously introduced Augmented Reality Workflow Modeling Language (ARWFML) enables the model-based creation of augmented reality scenarios without programming knowledge. Building upon the first design cycle of the language's specification, this paper presents two further design iterations for refining the language based on multi-faceted evaluations. These include a comparative evaluation of implementation options and workflow capabilities, the introduction of a 3D notation, and the development of a new 3D modeling environment. On this basis, a comprehensibility study of the language was conducted. Thereby, we show how modeling languages for augmented reality can be evolved towards a maturity level suitable for empirical evaluations. | 翻訳日:2024-08-27 14:33:14 公開日:2024-08-26 |
# クラウドキャリブレータ:アノテータは主観的タスクでキャリブレーションをインフォームできるか?
Crowd-Calibrator: Can Annotator Disagreement Inform Calibration in Subjective Tasks? ( http://arxiv.org/abs/2408.14141v1 ) ライセンス: Link先を確認 | Urja Khurana, Eric Nalisnick, Antske Fokkens, Swabha Swayamdipta, | (参考訳) NLPの主観的なタスクは、主に客観的な基準に委ねられ、金ラベルは多数決によって決定される。
これは、アノテータの不一致とラベルの固有の不確かさを難なくさせる。
我々は、主観性はモデル決定に影響を及ぼし、選択的な予測条件の下でキャリブレーションを介して直接的に役割を果たすべきであると論じる。
具体的には、モデルの観点から信頼度を純粋に調整する代わりに、群衆労働者合意に基づいて主観的タスクのモデルを校正する。
我々の手法であるCrowd-Calibratorは、群衆労働者ラベルの分布とラベル上のモデル自身の分布との距離をモデル化し、そのモデルが決定から逸脱すべきかどうかを知らせる。
ヘイトスピーチ検出と自然言語推論という2つの高い主観的課題において,我々の実験は,クラウドキャリブレータが既存の選択的予測ベースラインよりも優れているか,あるいは競争的な性能を達成するかを示す。
本研究は,人間の意思決定をモデル予測に取り入れることの価値を強調した。
Subjective tasks in NLP have been mostly relegated to objective standards, where the gold label is decided by taking the majority vote. This obfuscates annotator disagreement and the inherent uncertainty of the label. We argue that subjectivity should factor into model decisions and play a direct role via calibration under a selective prediction setting. Specifically, instead of calibrating confidence purely from the model's perspective, we calibrate models for subjective tasks based on crowd worker agreement. Our method, Crowd-Calibrator, models the distance between the distribution of crowd worker labels and the model's own distribution over labels to inform whether the model should abstain from a decision. On two highly subjective tasks, hate speech detection and natural language inference, our experiments show Crowd-Calibrator either outperforms or achieves competitive performance with existing selective prediction baselines. Our findings highlight the value of bringing human decision-making into model predictions. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# 2D-マラフィド:顔深度検出システムに対する敵攻撃
2D-Malafide: Adversarial Attacks Against Face Deepfake Detection Systems ( http://arxiv.org/abs/2408.14143v1 ) ライセンス: Link先を確認 | Chiara Galdi, Michele Panariello, Massimiliano Todisco, Nicholas Evans, | (参考訳) 2D-Malafideは, 対面深度検出システム(ディープフェイク検出システム)を騙すように設計された, 新規で軽量な対向攻撃である。
音声領域で探索された1次元畳み込み摂動の概念に基づいて,本手法は2次元畳み込みフィルタを用いて、最先端の深度検出器の性能を著しく低下させる。
従来の加法ノイズアプローチとは異なり、2D-マラフィドは少数のフィルタ係数を最適化し、異なる顔画像間で伝達可能な頑健な対向摂動を生成する。
FaceForensics++データセットを使用して実施された実験では、2D-Malafideがホワイトボックスとブラックボックスの両方で検出性能を著しく低下させ、大きなフィルタサイズが最大の影響を与えることが示された。
また,GradCAMを用いて2次元マラフィドが画像領域の分類に最も用いた画像領域の変更によって検出システムに悪影響を及ぼすことを示す説明可能性解析を行った。
以上の結果から,現在の深度検出システムによる畳み込み攻撃に対する脆弱性と,画像の忠実度制約の改善による検出堅牢性向上に向けた今後の取り組みの必要性が浮き彫りになった。
We introduce 2D-Malafide, a novel and lightweight adversarial attack designed to deceive face deepfake detection systems. Building upon the concept of 1D convolutional perturbations explored in the speech domain, our method leverages 2D convolutional filters to craft perturbations which significantly degrade the performance of state-of-the-art face deepfake detectors. Unlike traditional additive noise approaches, 2D-Malafide optimises a small number of filter coefficients to generate robust adversarial perturbations which are transferable across different face images. Experiments, conducted using the FaceForensics++ dataset, demonstrate that 2D-Malafide substantially degrades detection performance in both white-box and black-box settings, with larger filter sizes having the greatest impact. Additionally, we report an explainability analysis using GradCAM which illustrates how 2D-Malafide misleads detection systems by altering the image areas used most for classification. Our findings highlight the vulnerability of current deepfake detection systems to convolutional adversarial attacks as well as the need for future work to enhance detection robustness through improved image fidelity constraints. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# フェデレーションラーニングにおけるSAMによる近隣・グローバル摂動支援--地域意識からグローバルアウェアネスまで
Neighborhood and Global Perturbations Supported SAM in Federated Learning: From Local Tweaks To Global Awareness ( http://arxiv.org/abs/2408.14144v1 ) ライセンス: Link先を確認 | Boyuan Li, Zihao Peng, Yafei Li, Mingliang Xu, Shengbo Chen, Baofeng Ji, Cong Shen, | (参考訳) フェデレートラーニング(FL)は、中央サーバのオーケストレーションの下でコーディネートすることで、データ交換を必要とせずに、プライバシ保護モデルを協調的に構築することができる。
しかし、参加者データの不均一性は局所的な最適分散をもたらし、その後収束結果に影響を及ぼす。
近年、グローバル・シャープネス・アウェアの最小化(SAM)と動的正規化技術に注目し、グローバル・ローカル・一般化と最適化の目的の整合性を高める。
それでも、グローバルSAMの推定には計算とメモリのオーバーヘッドが加わり、動的正規化は訓練分離による局所的および大域的双対変数のバイアスに悩まされる。
本稿では,最小限のアップリンク通信オーバヘッドを維持しつつ,最適化と一般化の目的を考慮した新しいFLアルゴリズムであるFedTOGAを提案する。
局所摂動をグローバルな更新にリンクすることで、グローバルな一般化一貫性が向上する。
さらに、グローバルアップデートは局所的動的正規化器の修正、二重変数バイアスの低減、最適化の整合性向上に使用されている。
グローバルアップデートは、クライアントから受動的に受信され、オーバーヘッドが削減される。
また、局所摂動を近似し、その強度と限界を解析するために、近隣摂動を提案する。
理論的解析は、FedTOGAが非凸関数の下でより高速な収束O(1/T)$を達成することを示している。
実証的な研究によると、FedTOGAは最先端のアルゴリズムより優れており、精度は1\%、収束速度は30\%向上し、最先端のアルゴリズムを達成している。
Federated Learning (FL) can be coordinated under the orchestration of a central server to collaboratively build a privacy-preserving model without the need for data exchange. However, participant data heterogeneity leads to local optima divergence, subsequently affecting convergence outcomes. Recent research has focused on global sharpness-aware minimization (SAM) and dynamic regularization techniques to enhance consistency between global and local generalization and optimization objectives. Nonetheless, the estimation of global SAM introduces additional computational and memory overhead, while dynamic regularization suffers from bias in the local and global dual variables due to training isolation. In this paper, we propose a novel FL algorithm, FedTOGA, designed to consider optimization and generalization objectives while maintaining minimal uplink communication overhead. By linking local perturbations to global updates, global generalization consistency is improved. Additionally, global updates are used to correct local dynamic regularizers, reducing dual variables bias and enhancing optimization consistency. Global updates are passively received by clients, reducing overhead. We also propose neighborhood perturbation to approximate local perturbation, analyzing its strengths and limitations. Theoretical analysis shows FedTOGA achieves faster convergence $O(1/T)$ under non-convex functions. Empirical studies demonstrate that FedTOGA outperforms state-of-the-art algorithms, with a 1\% accuracy increase and 30\% faster convergence, achieving state-of-the-art. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# TSAK:製造ラインにおける効率的なウェアラブルモダリティとモデル最適化のための2段階セマンティック知識蒸留
TSAK: Two-Stage Semantic-Aware Knowledge Distillation for Efficient Wearable Modality and Model Optimization in Manufacturing Lines ( http://arxiv.org/abs/2408.14146v1 ) ライセンス: Link先を確認 | Hymalai Bello, Daniel Geißler, Sungho Suh, Bo Zhou, Paul Lukowicz, | (参考訳) より小さな機械学習モデルは、複雑なアーキテクチャやセンサー入力が少ないため、複雑さやコストからバッテリー寿命に至るまで、ウェアラブルセンサーベースのヒューマンアクティビティ認識(HAR)システムに多くのメリットをもたらす可能性がある。
スマートファクトリの特定のケースでは、人間とロボットのコラボレーションを最適化することは、最先端の人間中心のAIシステムの実装に依存している。
この目的のために、作業者のアクティビティ認識は、パフォーマンスメトリクスの正確な定量化を可能にし、効率を均等に改善する。
本稿では,2段階のセマンティック・アウェア・ナレッジ・蒸留(KD)手法であるTSAKを製造ラインの効率性,プライバシ・アウェア,ウェアラブルHARに対して提案する。
最初の段階では、注意、因果、複合表現をコードする教師分類器モデルが組み込まれている。
第2段階は、第1段階から3つの表現をマージする意味分類器を含む。
TSAKを評価するために、労働者の両手に位置するウェアラブルおよびプライバシ対応センサー(IMUと容量)でテストされたスマートファクトリでマルチモーダルデータセットを記録した。
さらに、我々は、HAR製造シナリオにおいて、両手のウェアラブルセンサー配置を模倣する唯一のオープンデータセットであるOpenPackに対するアプローチを評価した。
我々は、より小さな学生モデルの学習過程を制御するために、複数のKD戦略を異なる表現で比較した。
より大きな教師モデルと比較して、学生モデルはシングルハンドのセンサーチャネルを減らし、79%のパラメータを減らし、8.88倍の速度で動作し、96.6%のコンピュータパワー(FLOPS)を必要とする。
Smaller machine learning models, with less complex architectures and sensor inputs, can benefit wearable sensor-based human activity recognition (HAR) systems in many ways, from complexity and cost to battery life. In the specific case of smart factories, optimizing human-robot collaboration hinges on the implementation of cutting-edge, human-centric AI systems. To this end, workers' activity recognition enables accurate quantification of performance metrics, improving efficiency holistically. We present a two-stage semantic-aware knowledge distillation (KD) approach, TSAK, for efficient, privacy-aware, and wearable HAR in manufacturing lines, which reduces the input sensor modalities as well as the machine learning model size, while reaching similar recognition performance as a larger multi-modal and multi-positional teacher model. The first stage incorporates a teacher classifier model encoding attention, causal, and combined representations. The second stage encompasses a semantic classifier merging the three representations from the first stage. To evaluate TSAK, we recorded a multi-modal dataset at a smart factory testbed with wearable and privacy-aware sensors (IMU and capacitive) located on both workers' hands. In addition, we evaluated our approach on OpenPack, the only available open dataset mimicking the wearable sensor placements on both hands in the manufacturing HAR scenario. We compared several KD strategies with different representations to regulate the training process of a smaller student model. Compared to the larger teacher model, the student model takes fewer sensor channels from a single hand, has 79% fewer parameters, runs 8.88 times faster, and requires 96.6% less computing power (FLOPS). | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# ORBITAAL:Bitcoinエンティティエンティティトランザクションの一時的なグラフデータセット
ORBITAAL: A Temporal Graph Dataset of Bitcoin Entity-Entity Transactions ( http://arxiv.org/abs/2408.14147v1 ) ライセンス: Link先を確認 | Célestin Coquidé, Rémy Cazabet, | (参考訳) Bitcoin(BTC)取引の研究は、経済とネットワークの両方の分野における関心事である。
この暗号通貨は分散型システムに基づいており、トランザクションの詳細を自由にアクセスできるようにする。
アクセス可能なデータセットの必要性に対処するため,時間グラフ形式に基づく最初の包括的データセットであるORBITAALを提案する。
このデータセットは2009年1月から2021年1月までの全Bitcoin取引をカバーしている。
ORBITAALは、エンティティ・エンティティ・トランザクションネットワーク、スナップショット、ストリームグラフの時間グラフ表現を提供する。
各取引価値は、日単位の転換レートに関するビットコインとUSドルで与えられる。
このデータセットは、グローバルなBTCバランスや関連するパブリックアドレスなどのエンティティの詳細も提供する。
Research on Bitcoin (BTC) transactions is a matter of interest for both economic and network science fields. Although this cryptocurrency is based on a decentralized system, making transaction details freely accessible, making raw blockchain data analyzable is not straightforward due to the Bitcoin protocol specificity and data richness. To address the need for an accessible dataset, we present ORBITAAL, the first comprehensive dataset based on temporal graph formalism. The dataset covers all Bitcoin transactions from January 2009 to January 2021. ORBITAAL provides temporal graph representations of entity-entity transaction networks, snapshots and stream graph. Each transaction value is given in Bitcoin and US dollar regarding daily-based conversion rate. This dataset also provides details on entities such as their global BTC balance and associated public addresses. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# 解離の地図登録問題への応用
Application of Disentanglement to Map Registration Problem ( http://arxiv.org/abs/2408.14152v1 ) ライセンス: Link先を確認 | Hae Jin Song, Patrycja Krawczuk, Po-Hsuan Huang, | (参考訳) 地理空間データは、衛星、航空機、LiDARなどの様々な情報源から得られた。
ソースのばらつきは、異なる期間の地図があるため、データ取得技術の種類に限ったものではない。
これらのデータをコヒーレントな解析に組み込むためには、まず異なる地理空間データの「スタイル」を、地球表面上の同じ位置を指し示す画像に合わせることが不可欠である。
本稿では,(1)視覚的(および他の非コンテンツ関連)情報に不変な地理空間コンテンツを抽出する2段階のプロセスとして,画像登録にアプローチする。
我々は、$\beta$-VAE-like Architecture [2]と敵対的トレーニングを組み合わせることで、地理的情報と芸術的スタイルの切り離しと、エンコードされた地理情報を任意の芸術的スタイルで構成することで、新しい地図タイルの生成を達成できると仮定する。
Geospatial data come from various sources, such as satellites, aircraft, and LiDAR. The variability of the source is not limited to the types of data acquisition techniques, as we have maps from different time periods. To incorporate these data for a coherent analysis, it is essential to first align different "styles" of geospatial data to its matching images that point to the same location on the surface of the Earth. In this paper, we approach the image registration as a two-step process of (1) extracting geospatial contents invariant to visual (and any other non-content-related) information, and (2) matching the data based on such (purely) geospatial contents. We hypothesize that a combination of $\beta$-VAE-like architecture [2] and adversarial training will achieve both the disentanglement of the geographic information and artistic styles and generation of new map tiles by composing the encoded geographic information with any artistic style. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# 特徴対属性を持つデュアルエンコーダの視覚・言語類似性の説明
Explaining Vision-Language Similarities in Dual Encoders with Feature-Pair Attributions ( http://arxiv.org/abs/2408.14153v1 ) ライセンス: Link先を確認 | Lucas Möller, Pascal Tilli, Ngoc Thang Vu, Sebastian Padó, | (参考訳) CLIPモデルのようなデュアルエンコーダアーキテクチャは、2種類の入力を共有埋め込み空間にマッピングし、それらの類似性を学ぶ。
しかし、そのようなモデルがどのように2つの入力を比較するかは理解されていない。
ここでは、この研究ギャップを2つのコントリビューションで解決する。
まず,任意の微分可能なデュアルエンコーダの予測を,入力間の特徴対相互作用に属性付ける手法を導出する。
次に,この手法をCLIP型モデルに適用し,キャプション部分と画像中の領域間の微粒な対応を学習することを示す。
それらは入力モード間でオブジェクトと一致し、ミスマッチも考慮します。
しかし、この視覚言語的接地能力は、オブジェクトクラス間で大きく異なり、トレーニングデータ分布に依存し、ドメイン内のトレーニング後に大きく改善される。
提案手法を用いることで,個々のモデルにおける特定のオブジェクトクラスに関する知識ギャップを識別し,微調整による改善を監視できる。
Dual encoder architectures like CLIP models map two types of inputs into a shared embedding space and learn similarities between them. However, it is not understood how such models compare two inputs. Here, we address this research gap with two contributions. First, we derive a method to attribute predictions of any differentiable dual encoder onto feature-pair interactions between its inputs. Second, we apply our method to CLIP-type models and show that they learn fine-grained correspondences between parts of captions and regions in images. They match objects across input modes and also account for mismatches. However, this visual-linguistic grounding ability heavily varies between object classes, depends on the training data distribution, and largely improves after in-domain training. Using our method we can identify knowledge gaps about specific object classes in individual models and can monitor their improvement upon fine-tuning. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# 適応対話エージェントを用いたユーザインタラクションにおけるメンタルモデルの効果の検討
Investigating the effect of Mental Models in User Interaction with an Adaptive Dialog Agent ( http://arxiv.org/abs/2408.14154v1 ) ライセンス: Link先を確認 | Lindsey Vanderlyn, Dirk Väth, Ngoc Thang Vu, | (参考訳) メンタルモデルは、対話システムのような知的システムとのユーザインタラクションが成功するかどうかにおいて重要な役割を果たす。
適応ダイアログシステムは、ダイアログエージェントの振る舞いを不均一なユーザ期待と整合させる機会を提供する。
しかし、タスク指向対話システムと対話する際のメンタルモデルと、これらのモデルがユーザのインタラクションに与える影響、このプロセスにおけるシステム適応の役割についてはほとんど研究されていないため、人間とAIのパートナーシップの損傷を避けることは困難である。
本研究では,情報検索ダイアログシステムに関するユーザメンタルモデルを探索するための,新しい公開データセットを収集する。
このようなシステムに関して,ユーザが様々な矛盾するメンタルモデルを持つことを実証し,その妥当性がシステムの成功やユーザビリティに直接的な影響を及ぼすことを示した。
さらに,暗黙的に実行しても,対話エージェントの行動にユーザのメンタルモデルとの整合性を持たせることで,ユーザビリティ,ダイアログ効率,成功感を向上できることを示す。
この目的のために、開発者がまずユーザーのメンタルモデルを理解しさえすれば、暗黙の適応はタスク指向の対話システムにとって有効な戦略になり得ると論じる。
Mental models play an important role in whether user interaction with intelligent systems, such as dialog systems is successful or not. Adaptive dialog systems present the opportunity to align a dialog agent's behavior with heterogeneous user expectations. However, there has been little research into what mental models users form when interacting with a task-oriented dialog system, how these models affect users' interactions, or what role system adaptation can play in this process, making it challenging to avoid damage to human-AI partnership. In this work, we collect a new publicly available dataset for exploring user mental models about information seeking dialog systems. We demonstrate that users have a variety of conflicting mental models about such systems, the validity of which directly impacts the success of their interactions and perceived usability of system. Furthermore, we show that adapting a dialog agent's behavior to better align with users' mental models, even when done implicitly, can improve perceived usability, dialog efficiency, and success. To this end, we argue that implicit adaptation can be a valid strategy for task-oriented dialog systems, so long as developers first have a solid understanding of users' mental models. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# デジタルフィンガープリントのマルチメディア化に関する調査
Digital Fingerprinting on Multimedia: A Survey ( http://arxiv.org/abs/2408.14155v1 ) ライセンス: Link先を確認 | Wendi Chen, Wensheng Gan, Philip S. Yu, | (参考訳) デジタル経済時代におけるマルチメディアコンテンツの爆発的な成長は、コンテンツ認識、著作権保護、データ管理に課題をもたらしている。
新たなコンテンツ管理技術として、マルチメディアコンテンツのコンパクトな要約として機能する知覚的ハッシュベースのデジタル指紋が、様々なモダリティ(テキスト、画像、ビデオ、オーディオなど)にわたる効率的なマルチメディアコンテンツ識別と検索に広く採用され、学術と産業の両方から大きな注目を集めている。
デジタル指紋の応用が増えているにもかかわらず、マルチメディアデジタル指紋に関する体系的で包括的な文献レビューが欠如している。
本調査は, このギャップを埋めることを目的として, マルチメディアデジタル指紋の細部と関連性について研究する研究者にとって重要な資源を提供する。
まず,デジタル指紋の定義,特徴,関連概念(ハッシュ関数,粒度,類似度など)を紹介する。
そして、テキストの指紋、画像の指紋、ビデオの指紋、オーディオの指紋など、さまざまなタイプのデジタルコンテンツから、不死身の指紋を抽出するアルゴリズムの分析と要約に重点を置いている。
特に、ディープラーニングベースの指紋の詳細なレビューと要約を提供する。
さらに、デジタル指紋の様々な応用について詳述し、課題と今後の研究方向性について概説する。
目標は、マルチメディアデジタル指紋研究の継続的な発展を促進することである。
The explosive growth of multimedia content in the digital economy era has brought challenges in content recognition, copyright protection, and data management. As an emerging content management technology, perceptual hash-based digital fingerprints, serving as compact summaries of multimedia content, have been widely adopted for efficient multimedia content identification and retrieval across different modalities (e.g., text, image, video, audio), attracting significant attention from both academia and industry. Despite the increasing applications of digital fingerprints, there is a lack of systematic and comprehensive literature review on multimedia digital fingerprints. This survey aims to fill this gap and provide an important resource for researchers studying the details and related advancements of multimedia digital fingerprints. The survey first introduces the definition, characteristics, and related concepts (including hash functions, granularity, similarity measures, etc.) of digital fingerprints. It then focuses on analyzing and summarizing the algorithms for extracting unimodal fingerprints of different types of digital content, including text fingerprints, image fingerprints, video fingerprints, and audio fingerprints. Particularly, it provides an in-depth review and summary of deep learning-based fingerprints. Additionally, the survey elaborates on the various practical applications of digital fingerprints and outlines the challenges and potential future research directions. The goal is to promote the continued development of multimedia digital fingerprint research. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# Fire-Flyer AI-HPC - ディープラーニングのためのコスト効果のあるソフトウェアハードウェアの共同設計
Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning ( http://arxiv.org/abs/2408.14158v1 ) ライセンス: Link先を確認 | Wei An, Xiao Bi, Guanting Chen, Shanhuang Chen, Chengqi Deng, Honghui Ding, Kai Dong, Qiushi Du, Wenjun Gao, Kang Guan, Jianzhong Guo, Yongqiang Guo, Zhe Fu, Ying He, Panpan Huang, Jiashi Li, Wenfeng Liang, Xiaodong Liu, Xin Liu, Yiyuan Liu, Yuxuan Liu, Shanghao Lu, Xuan Lu, Xiaotao Nie, Tian Pei, Junjie Qiu, Hui Qu, Zehui Ren, Zhangli Sha, Xuecheng Su, Xiaowen Sun, Yixuan Tan, Minghui Tang, Shiyu Wang, Yaohui Wang, Yongji Wang, Ziwei Xie, Yiliang Xiong, Yanhong Xu, Shengfeng Ye, Shuiping Yu, Yukun Zha, Liyue Zhang, Haowei Zhang, Mingchuan Zhang, Wentao Zhang, Yichao Zhang, Chenggang Zhao, Yao Zhao, Shangyan Zhou, Shunfeng Zhou, Yuheng Zou, | (参考訳) ディープラーニング(DL)と大規模言語モデル(LLM)の急速な進歩により、計算能力と帯域幅の需要が指数関数的に増加した。
これは高速な計算チップとインターコネクトの高コストと組み合わさって、ハイパフォーマンス・コンピューティング(HPC)の構築コストを大幅に膨らませた。
これらの課題に対処するために、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介します。
DLトレーニングでは,1万台のPCIe A100 GPUでFire-Flyer 2をデプロイし,DGX-A100の性能評価を達成し,コストを半減し,エネルギー消費を40%削減した。
我々は、アレーダ通信を高速化するためにHFReduceを特別に設計し、計算-ストレージ統合ネットワークの混雑を抑えるために多数の対策を実行した。
HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。
DLトレーニングによるシステム指向エクスペリエンスは、AI-HPCの今後の進歩を促進する上で、貴重な洞察を提供する。
The rapid progress in Deep Learning (DL) and Large Language Models (LLMs) has exponentially increased demands of computational power and bandwidth. This, combined with the high costs of faster computing chips and interconnects, has significantly inflated High Performance Computing (HPC) construction costs. To address these challenges, we introduce the Fire-Flyer AI-HPC architecture, a synergistic hardware-software co-design framework and its best practices. For DL training, we deployed the Fire-Flyer 2 with 10,000 PCIe A100 GPUs, achieved performance approximating the DGX-A100 while reducing costs by half and energy consumption by 40%. We specifically engineered HFReduce to accelerate allreduce communication and implemented numerous measures to keep our Computation-Storage Integrated Network congestion-free. Through our software stack, including HaiScale, 3FS, and HAI-Platform, we achieved substantial scalability by overlapping computation and communication. Our system-oriented experience from DL training provides valuable insights to drive future advancements in AI-HPC. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# 多次元量子ビリヤードにおけるウィグナー電流
Wigner current in multidimensional quantum billiards ( http://arxiv.org/abs/2408.14164v1 ) ライセンス: Link先を確認 | S. S. Seidov, D. G. Bezymiannykh, | (参考訳) 本稿では、粒子が自由に動く空間のコンパクト領域である多次元ビリヤードにおける粒子のウィグナー電流を導出する。
この計算は、ビリヤードの形状によって定義される、ある時間独立な関数を持つ自由粒子ウィグナー関数の畳み込みによる境界条件のインポーティング法に基づく。
この方法ではウィグナー電流の一般表現を大幅に単純化することができ、その$\mathbf{p}$-component を移動自由粒子波動関数の積の曲面積分(自由粒子ウィグナー関数の逆フーリエ変換)として表すことができる。
結果はまた、ハミルトニアンに$\propto \delta'(x)$項を追加することによって境界条件を考慮に入れた別のアプローチに結びついている。
後者は多次元の場合にも一般化される。
In the present paper we derive the Wigner current of the particle in a multidimensional billiard - the compact region of space in which the particle moves freely. The calculation is based on proposed by us previously method of imposing boundary conditions by convolution of the free particle Wigner function with some time independent function, defined by the shape of the billiard. This method allowed to greatly simplify the general expression for the Wigner current, representing its $\mathbf{p}$-component as a surface integral of the product of the shifted free particle wave functions (the inverse Fourier transform of the free particle Wigner function). The results are also connect to an alternative approach, which takes into account the boundary conditions by adding the $\propto \delta'(x)$ term to the Hamiltonian. The latter is also generalized to the multidimensional case. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# 電気自動車充電における動的価格設定
Dynamic Pricing for Electric Vehicle Charging ( http://arxiv.org/abs/2408.14169v1 ) ライセンス: Link先を確認 | Arun Kumar Kalakanti, Shrisha Rao, | (参考訳) 動的価格設定は、従来の時間帯(ToU)レートと定常価格(SP)が動作条件の変化に動的に反応せず、充電ステーション(CS)ベンダーの収益が減少し、グリッド安定性に影響を与えるため、スマート充電の課題に対処するための有望な戦略である。
従来の研究では、EV CS価格ソリューションの目的の単一目的または線形組み合わせを評価し、目的間のトレードオフと嗜好を簡素化した。
本稿では,複数の競合する目的を,従来の研究のように1つの目的やメートル法にのみ焦点をあてるのではなく,効率的に対処することで,動的価格問題の新たな定式化を行う。
NSGA (Non-Maninated Sorting Genetic Algorithm) II と NSGA III を用いて最適なトレードオフやパレートの解を求める。
動的価格モデルでは、需要と価格の関係を定量化するとともに、収益、サービス品質(QoS)、平均値(PAR)といった複数の相反する目標を同時に解決する。
シングルメソッドは、動的な価格設定の上記の側面のいくつかに包括的に対処するしかありません。
本稿では,ベイズモデル,多目的最適化,および擬似重みベクトルを用いたマルチ基準決定(MCDM)を用いた3部動的価格設定手法を提案する。
CS価格における研究ギャップを解決するため,当社の手法は収益,QoS,PARのメトリクスを同時に利用したソリューションを選択する。
カリフォルニアの2つの充電サイトの実際のデータから、私たちのアプローチが検証できます。
Dynamic pricing is a promising strategy to address the challenges of smart charging, as traditional time-of-use (ToU) rates and stationary pricing (SP) do not dynamically react to changes in operating conditions, reducing revenue for charging station (CS) vendors and affecting grid stability. Previous studies evaluated single objectives or linear combinations of objectives for EV CS pricing solutions, simplifying trade-offs and preferences among objectives. We develop a novel formulation for the dynamic pricing problem by addressing multiple conflicting objectives efficiently instead of solely focusing on one objective or metric, as in earlier works. We find optimal trade-offs or Pareto solutions efficiently using Non-dominated Sorting Genetic Algorithms (NSGA) II and NSGA III. A dynamic pricing model quantifies the relationship between demand and price while simultaneously solving multiple conflicting objectives, such as revenue, quality of service (QoS), and peak-to-average ratios (PAR). A single method can only address some of the above aspects of dynamic pricing comprehensively. We present a three-part dynamic pricing approach using a Bayesian model, multi-objective optimization, and multi-criteria decision-making (MCDM) using pseudo-weight vectors. To address the research gap in CS pricing, our method selects solutions using revenue, QoS, and PAR metrics simultaneously. Two California charging sites' real-world data validates our approach. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# BackFlip: 局所的およびグローバルなデータ拡張が芸術的イメージ美的評価に与える影響
BackFlip: The Impact of Local and Global Data Augmentations on Artistic Image Aesthetic Assessment ( http://arxiv.org/abs/2408.14173v1 ) ライセンス: Link先を確認 | Ombretta Strafforello, Gonzalo Muradas Odriozola, Fatemeh Behrad, Li-Wei Chen, Anne-Sofie Maerten, Derya Soydaner, Johan Wagemans, | (参考訳) 芸術的イメージの美的品質を評価することは、美学の主観的な性質と、芸術作品に固有の複雑な視覚的特徴により、ユニークな課題を示す。
コンピュータビジョンにおける自然画像に一般的に適用される基本的データ拡張技術は、美的評価タスクにおける美術画像には適さないかもしれない。
本稿では,局所的およびグローバルなデータ拡張技術が芸術的イメージ美的評価(IAA)に与える影響について検討する。
芸術的IAAに特化したローカルデータ拡張技術であるBackFlipを紹介する。
3つの芸術的イメージデータセットと4つのニューラルネットワークアーキテクチャにまたがるBackFlipの性能を評価する。
次に,BackFlipパイプライン内の成分の影響をアブレーション研究により解析する。
以上の結果から,BackFlip などの局所的な拡張は,芸術的IAA のグローバルな増強よりも優れる傾向が示唆された。
これらの結果は、将来の計算美学研究において、局所的およびグローバル的な拡張の両方を考慮することの重要性を強調している。
Assessing the aesthetic quality of artistic images presents unique challenges due to the subjective nature of aesthetics and the complex visual characteristics inherent to artworks. Basic data augmentation techniques commonly applied to natural images in computer vision may not be suitable for art images in aesthetic evaluation tasks, as they can change the composition of the art images. In this paper, we explore the impact of local and global data augmentation techniques on artistic image aesthetic assessment (IAA). We introduce BackFlip, a local data augmentation technique designed specifically for artistic IAA. We evaluate the performance of BackFlip across three artistic image datasets and four neural network architectures, comparing it with the commonly used data augmentation techniques. Then, we analyze the effects of components within the BackFlip pipeline through an ablation study. Our findings demonstrate that local augmentations, such as BackFlip, tend to outperform global augmentations on artistic IAA in most cases, probably because they do not perturb the composition of the art images. These results emphasize the importance of considering both local and global augmentations in future computational aesthetics research. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# SwiftBrush v2:教師より1段階の拡散モデル
SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher ( http://arxiv.org/abs/2408.14176v1 ) ライセンス: Link先を確認 | Trung Dao, Thuan Hoang Nguyen, Thanh Le, Duc Vu, Khoi Nguyen, Cuong Pham, Anh Tran, | (参考訳) 本稿では,一段階のテキスト・画像拡散モデルであるSwiftBrushの性能向上を目標とし,多段階の安定拡散モデルと競合する。
SwiftBrushとSD Turbo:前者は画像の多様性に優れ、後者は画質に優れています。
この観察は、より優れた重量初期化と効率的なLoRA訓練を含む、トレーニング方法論における我々の提案した修正を動機付けている。
さらに,新しいCLIP損失の導入により,画像テキストのアライメントが向上し,画質が向上した。
注目すべきは、効率的なLoRAとフルトレーニングでトレーニングされたモデルの重みを組み合わせることで、新しい最先端のワンステップ拡散モデルを実現し、8.14のFIDを達成し、すべてのGANベースおよびマルチステップ安定拡散モデルを上回る。
評価コードは、https://github.com/vinairesearch/swiftbrushv2.comで公開されている。
In this paper, we aim to enhance the performance of SwiftBrush, a prominent one-step text-to-image diffusion model, to be competitive with its multi-step Stable Diffusion counterpart. Initially, we explore the quality-diversity trade-off between SwiftBrush and SD Turbo: the former excels in image diversity, while the latter excels in image quality. This observation motivates our proposed modifications in the training methodology, including better weight initialization and efficient LoRA training. Moreover, our introduction of a novel clamped CLIP loss enhances image-text alignment and results in improved image quality. Remarkably, by combining the weights of models trained with efficient LoRA and full training, we achieve a new state-of-the-art one-step diffusion model, achieving an FID of 8.14 and surpassing all GAN-based and multi-step Stable Diffusion models. The evaluation code is available at: https://github.com/vinairesearch/swiftbrushv2. | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# NimbleD:擬似ラベルと大規模ビデオ事前学習による自己教師型単眼深度推定の強化
NimbleD: Enhancing Self-supervised Monocular Depth Estimation with Pseudo-labels and Large-scale Video Pre-training ( http://arxiv.org/abs/2408.14177v1 ) ライセンス: Link先を確認 | Albert Luginov, Muhammad Shahzad, | (参考訳) 我々は,大規模な視覚モデルによって生成された擬似ラベルからの監督を取り入れた,効率的な単眼深度推定学習フレームワークであるNimbleDを紹介する。
このフレームワークはカメラ固有の機能を必要とせず、公開ビデオの大規模な事前トレーニングを可能にする。
我々の単純で効果的な学習戦略は、オーバーヘッドを伴わずに高速で軽量なモデルの性能を大幅に向上させ、最先端の自己教師型単分子深度推定モデルに匹敵する性能を達成する。
この進歩は、低レイテンシ推論を必要とするバーチャルおよび拡張現実アプリケーションにとって特に有益である。
ソースコード、モデルウェイト、および承認はhttps://github.com/xapaxca/nimbled で入手できる。
We introduce NimbleD, an efficient self-supervised monocular depth estimation learning framework that incorporates supervision from pseudo-labels generated by a large vision model. This framework does not require camera intrinsics, enabling large-scale pre-training on publicly available videos. Our straightforward yet effective learning strategy significantly enhances the performance of fast and lightweight models without introducing any overhead, allowing them to achieve performance comparable to state-of-the-art self-supervised monocular depth estimation models. This advancement is particularly beneficial for virtual and augmented reality applications requiring low latency inference. The source code, model weights, and acknowledgments are available at https://github.com/xapaxca/nimbled . | 翻訳日:2024-08-27 14:23:20 公開日:2024-08-26 |
# 巨大原子トポロジカル導波路-QED系における単一光子散乱
Single-photon scattering in giant-atom topological-waveguide-QED systems ( http://arxiv.org/abs/2408.14178v1 ) ライセンス: Link先を確認 | Hai Zhu, Xian-Li Yin, Jie-Qiao Liao, | (参考訳) 巨大-原子トポロジカル-導波管-QED系は、最近、光-物質相互作用を操作するための有望なプラットフォームとして登場した。
多重点結合と位相位相効果の組み合わせは、リッチな物理現象や効果をもたらす可能性がある。
ここでは,Su-Schrieffer-Heeger(SSH)導波路内の単一光子散乱を2つの2つの巨大原子に結合させる。
それぞれの巨大原子が2つの結合点を介して導波路に結合していると仮定し、それぞれ1つの原子対と2つの原子対の結合点に対して4と16の結合配置が存在すると仮定する。
実空間における単光子散乱問題を解くことにより、単光子散乱振幅の正確な式を得る。
SSH導波管内の1つの光子は、適切な結合配置、カップリング点距離、原子共鳴周波数、および二量化パラメータを選択することにより、完全に反射または伝達することができる。
また、適切なパラメータ条件下では、散乱スペクトルは結合点距離によって周期的に変調される。
また、2つの巨大原子の集団的挙動は量子干渉効果とトポロジカル効果によって調整でき、単一光子散乱スペクトルはローレンツ、超ガウス、電磁誘導透過性、非対称ファノ線形状を示すことができる。
この研究は、巨大原子トポロジカル導波路-QED系に基づく制御可能な単一光子デバイスの開発を促す。
The giant-atom topological-waveguide-QED systems have recently emerged as a promising platform for manipulating light-matter interactions. The combination of the multiple-point couplings and topological phase effect could lead to rich physical phenomena and effects. Here, we study single-photon scattering in a Su-Schrieffer-Heeger (SSH) waveguide coupled to either one or two two-level giant atoms. We assume that each giant atom is coupled to the waveguide via two coupling points, and hence there exist four and sixteen coupling configurations for the single-giant-atom case and two-giant-atom separate coupling case, respectively. By solving the single-photon scattering problem in the real space, we obtain the exact expressions of the single-photon scattering amplitudes. It is found that a single photon in the SSH waveguide can be completely reflected or transmitted by choosing proper coupling configurations, coupling-point distances, atomic resonance frequency, and dimerization parameter. In addition, under proper parameter conditions, the scattering spectra are periodically modulated by the coupling-point distances. We also find that the collective behavior of the two giant atoms can be adjusted by quantum interference effect and topological effect, and that the single-photon scattering spectra can exhibit the Lorentzian, super-Gaussian, electromagnetically induced transparency-like, and asymmetric Fano line shapes for some coupling configurations. This work will inspire the development of controllable single-photon devices based on the giant-atom topological-waveguide-QED systems. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# I2EBench: インストラクションベースの画像編集のための総合ベンチマーク
I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing ( http://arxiv.org/abs/2408.14180v1 ) ライセンス: Link先を確認 | Yiwei Ma, Jiayi Ji, Ke Ye, Weihuang Lin, Zhibin Wang, Yonghan Zheng, Qiang Zhou, Xiaoshuai Sun, Rongrong Ji, | (参考訳) Instruction-based Image Editing (IIE) の分野では重要な進歩があった。
しかし、これらのモデルを評価することは大きな課題となる。
この分野での重要な要件は、編集結果を正確に評価し、さらなる開発に有用な洞察を提供するための総合的な評価ベンチマークを確立することである。
I2EBenchは,IIEモデルが生成した編集画像の品質を複数の次元から自動評価するための総合的なベンチマークである。
I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。
特徴は3つある。
1) 総合評価次元: I2EBenchは,高次・低次両方の側面をカバーする16の評価次元から構成され,各IIEモデルの総合評価を提供する。
2) 人間の知覚アライメント: ベンチマークと人間の知覚との整合性を確保するため, 各評価次元について広範なユーザ調査を行った。
3)有意義なリサーチインサイト:16次元にわたる既存のIIEモデルの利点とデメリットを分析することで,この分野における今後の発展を導く貴重な研究インサイトを提供する。
我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。
すべてのIIEモデルのコード、データセット、および生成されたイメージは、githubで提供されている。
Significant progress has been made in the field of Instruction-based Image Editing (IIE). However, evaluating these models poses a significant challenge. A crucial requirement in this field is the establishment of a comprehensive evaluation benchmark for accurately assessing editing results and providing valuable insights for its further development. In response to this need, we propose I2EBench, a comprehensive benchmark designed to automatically evaluate the quality of edited images produced by IIE models from multiple dimensions. I2EBench consists of 2,000+ images for editing, along with 4,000+ corresponding original and diverse instructions. It offers three distinctive characteristics: 1) Comprehensive Evaluation Dimensions: I2EBench comprises 16 evaluation dimensions that cover both high-level and low-level aspects, providing a comprehensive assessment of each IIE model. 2) Human Perception Alignment: To ensure the alignment of our benchmark with human perception, we conducted an extensive user study for each evaluation dimension. 3) Valuable Research Insights: By analyzing the advantages and disadvantages of existing IIE models across the 16 dimensions, we offer valuable research insights to guide future development in the field. We will open-source I2EBench, including all instructions, input images, human annotations, edited images from all evaluated methods, and a simple script for evaluating the results from new IIE models. The code, dataset and generated images from all IIE models are provided in github: https://github.com/cocoshe/I2EBench. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# 深層強化学習を用いたエンティティベース衝突回避ロボットナビゲーション
Robot Navigation with Entity-Based Collision Avoidance using Deep Reinforcement Learning ( http://arxiv.org/abs/2408.14183v1 ) ライセンス: Link先を確認 | Yury Kolomeytsev, Dmitry Golembiovsky, | (参考訳) 動的環境における効率的なナビゲーションは、移動エージェントと静的障害物の両方を含む様々な環境エンティティと対話する自律ロボットにとって不可欠である。
本研究では,特定の安全要件に基づいて,ロボットと異なる種類のエージェントや障害物との相互作用を強化する手法を提案する。
このアプローチでは、エンティティタイプに関する情報を使用し、衝突回避を改善し、より安全なナビゲーションを保証する。
我々は,大人,自転車,子供,静的障害物など,さまざまな物体と衝突するロボットに対して,新たな報酬関数を導入するとともに,ロボットが目標に近づくことを奨励する。
また、ロボットが物体に近いことを罰し、安全な距離は実体の種類にも依存する。
さらに、トレーニングとテストのための最適化アルゴリズムを提案する。これは、トレーニング、検証、テストのステップを大幅に加速し、複雑な環境でのトレーニングを可能にする。
シミュレーションを用いて実施した総合実験により,従来の航法や衝突回避手法よりも一貫した性能を発揮した。
まとめると、この研究は、動的で混み合った環境で自律ロボットのナビゲーションシステムの安全性と効率を高めることに寄与する。
Efficient navigation in dynamic environments is crucial for autonomous robots interacting with various environmental entities, including both moving agents and static obstacles. In this study, we present a novel methodology that enhances the robot's interaction with different types of agents and obstacles based on specific safety requirements. This approach uses information about the entity types, improving collision avoidance and ensuring safer navigation. We introduce a new reward function that penalizes the robot for collisions with different entities such as adults, bicyclists, children, and static obstacles, and additionally encourages the robot's proximity to the goal. It also penalizes the robot for being close to entities, and the safe distance also depends on the entity type. Additionally, we propose an optimized algorithm for training and testing, which significantly accelerates train, validation, and test steps and enables training in complex environments. Comprehensive experiments conducted using simulation demonstrate that our approach consistently outperforms conventional navigation and collision avoidance methods, including state-of-the-art techniques. To sum up, this work contributes to enhancing the safety and efficiency of navigation systems for autonomous robots in dynamic, crowded environments. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# DynamicRouteGPT:大規模言語モデルに基づくリアルタイムマルチサイクル動的ナビゲーションフレームワーク
DynamicRouteGPT: A Real-Time Multi-Vehicle Dynamic Navigation Framework Based on Large Language Models ( http://arxiv.org/abs/2408.14185v1 ) ライセンス: Link先を確認 | Ziai Zhou, Bin Zhou, Hao Liu, | (参考訳) 複雑な交通環境におけるリアルタイムな動的経路計画は、交通量の変化や信号待ち時間といった課題を提示する。
DijkstraやA*のような従来の静的ルーティングアルゴリズムは最短経路を計算するが、しばしば動的条件下で失敗する。
最近の強化学習(RL)アプローチは改善を提供するが、ローカルな最適化、デッドエンドやバウンダリの問題に焦点を合わせる傾向がある。
本稿では,実時間動的経路計画のための因果推論に基づく新しい手法を提案する。
まず静的Dijkstraアルゴリズムを用いて,大域的に最適なベースラインパスを計算する。
分散制御戦略は、この経路に沿って車両を誘導する。
交差点では、DynamicRouteGPTは、リアルタイムトラフィック、運転嗜好、予期せぬイベントを考慮して、ローカルパスの選択のためのリアルタイム意思決定を実行する。
DynamicRouteGPTは、マルコフ連鎖、ベイジアン推論、Llama3 8Bのような大規模事前訓練された言語モデルを統合し、効率的なパス計画ソリューションを提供する。
交通シナリオや運転者の好みに合わせて動的に調整し、事前トレーニングを必要としない。
重要な革新は、反ファクト推論のための因果グラフの構築であり、経路決定を最適化する。
実験結果から,複数車両の動的経路計画において,複雑な交通環境に対して,説明可能な経路選択を提供しながら,リアルタイムな動的経路計画における最先端性能を実現することが示唆された。
Real-time dynamic path planning in complex traffic environments presents challenges, such as varying traffic volumes and signal wait times. Traditional static routing algorithms like Dijkstra and A* compute shortest paths but often fail under dynamic conditions. Recent Reinforcement Learning (RL) approaches offer improvements but tend to focus on local optima, risking dead-ends or boundary issues. This paper proposes a novel approach based on causal inference for real-time dynamic path planning, balancing global and local optimality. We first use the static Dijkstra algorithm to compute a globally optimal baseline path. A distributed control strategy then guides vehicles along this path. At intersections, DynamicRouteGPT performs real-time decision-making for local path selection, considering real-time traffic, driving preferences, and unexpected events. DynamicRouteGPT integrates Markov chains, Bayesian inference, and large-scale pretrained language models like Llama3 8B to provide an efficient path planning solution. It dynamically adjusts to traffic scenarios and driver preferences and requires no pre-training, offering broad applicability across road networks. A key innovation is the construction of causal graphs for counterfactual reasoning, optimizing path decisions. Experimental results show that our method achieves state-of-the-art performance in real-time dynamic path planning for multiple vehicles while providing explainable path selections, offering a novel and efficient solution for complex traffic environments. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# 構造化キーポイント記述のためのアフィンステア
Affine steerers for structured keypoint description ( http://arxiv.org/abs/2408.14186v1 ) ライセンス: Link先を確認 | Georg Bökman, Johan Edstedt, Michael Felsberg, Fredrik Kahl, | (参考訳) 画像平面の局所的なアフィン変換にほぼ同値な深層学習に基づくキーポイント記述子を訓練する方法を提案する。
主な考えは、GL(2) の表現論を用いて、最近導入された回転からアフィン変換へのステアラーの概念を一般化することである。
アフィンステアラーは、キーポイント記述が画像変換の下でどのように変換されるかに対して高い制御を与える。
画像マッチングにこの制御を用いることの可能性を示す。
最後に,一組のステアラーを直立画像上に配置してキーポイント記述子を微調整し,いくつかの標準ベンチマークで最新の結果を得る方法を提案する。
コードはgithub.com/georg-bn/affine-steerersで公開される。
We propose a way to train deep learning based keypoint descriptors that makes them approximately equivariant for locally affine transformations of the image plane. The main idea is to use the representation theory of GL(2) to generalize the recently introduced concept of steerers from rotations to affine transformations. Affine steerers give high control over how keypoint descriptions transform under image transformations. We demonstrate the potential of using this control for image matching. Finally, we propose a way to finetune keypoint descriptors with a set of steerers on upright images and obtain state-of-the-art results on several standard benchmarks. Code will be published at github.com/georg-bn/affine-steerers. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# アンサンブル型シーングラフ生成のための述語復号法
Ensemble Predicate Decoding for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2408.14187v1 ) ライセンス: Link先を確認 | Jiasong Feng, Lichun Wang, Hongbo Xu, Kai Xu, Baocai Yin, | (参考訳) シーングラフ生成(SGG)は、与えられたシナリオの意味情報を正確にキャプチャする包括的グラフィカル表現を生成することを目的としている。
しかし、よりきめ細かい述語を予測するSGGモデルの性能は、有意な述語バイアスによって妨げられる。
既存の研究によると、トレーニングデータにおける述語の長さ分布は、バイアスのあるシーングラフとなる。
しかし、述語カテゴリー間の意味的重複は述語予測を困難にし、意味論的に類似した述語のサンプルサイズに有意な差があり、述語予測がより困難になる。
したがって、より高い要求はモデルの識別能力に置かれる。
そこで本研究では,複数のデコーダを用いて非バイアスなシーングラフ生成を実現するEnsemble Predicate Decoding (EPD)を提案する。
低周波述語で訓練された2つの補助デコーダを用いて、モデルの識別能力を向上させる。
実験結果から,EPDは述語に対するモデルの表現能力を向上することが示された。
さらに,本手法は,従来の未バイアスSGG法と比較して,より頻繁な述語に対して比較的優れた予測能力を確保できることがわかった。
Scene Graph Generation (SGG) aims to generate a comprehensive graphical representation that accurately captures the semantic information of a given scenario. However, the SGG model's performance in predicting more fine-grained predicates is hindered by a significant predicate bias. According to existing works, the long-tail distribution of predicates in training data results in the biased scene graph. However, the semantic overlap between predicate categories makes predicate prediction difficult, and there is a significant difference in the sample size of semantically similar predicates, making the predicate prediction more difficult. Therefore, higher requirements are placed on the discriminative ability of the model. In order to address this problem, this paper proposes Ensemble Predicate Decoding (EPD), which employs multiple decoders to attain unbiased scene graph generation. Two auxiliary decoders trained on lower-frequency predicates are used to improve the discriminative ability of the model. Extensive experiments are conducted on the VG, and the experiment results show that EPD enhances the model's representation capability for predicates. In addition, we find that our approach ensures a relatively superior predictive capability for more frequent predicates compared to previous unbiased SGG methods. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# $SU(2)_k$ anyons による Chern-Simons レベル $k$ の測定
Measuring Chern-Simons level $k$ by braiding $SU(2)_k$ anyons ( http://arxiv.org/abs/2408.14188v1 ) ライセンス: Link先を確認 | Artem Belov, Andrey Morozov, | (参考訳) 量子コンピューティングへの応用におけるチャーン・サイモンズ理論は、現在活発に発展している。
しかし、最も議論されているのは、既知のパラメータを持つ材料を使用し、対応する量子ゲートとアルゴリズムを構築することである。
本稿では、未知の物質中のチャーン・サイモンズ準位を$k$とする逆問題について論じる。
この目的のために、Chern-Simons $SU(2)_k$ anyons に対して以前に導いたブレイディングルールを使用する。
3つのエノン上の特定の操作(ターンアラウンド)を用いることで、理論のパラメータに依存する1対のエノンの消滅確率を測定することができる。
したがって、チャーン・サイモンズ級数$k$はそのような実験から得られる。
トポロジカル量子計算に必要となる特定の性質を付加的に持つことが示唆される。
Chern-Simons theory in application to the quantum computing is actively developing at the present. However, most discussed are the questions of using materials with known parameters and building corresponding quantum gates and algorithms. In this paper we discuss opposite problem of finding Chern-Simons level $k$ in the unknown material. For this purpose, we use the previously derived braiding rules for Chern-Simons $SU(2)_k$ anyons. Using certain operations (turnarounds) on three anyons, one can measure probabilities of annihilation of pairs of anyons, which depend on the parameter of the theory. Therefore, Chern-Simons level $k$ can be found from such an experiment. It is implied that anyons additionally possess certain properties which are required for topological quantum computations. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# EMDFNet:交通信号検出のための効率的なマルチスケール・多角的特徴ネットワーク
EMDFNet: Efficient Multi-scale and Diverse Feature Network for Traffic Sign Detection ( http://arxiv.org/abs/2408.14189v1 ) ライセンス: Link先を確認 | Pengyu Li, Chenhe Liu, Tengfei Li, Xinyu Wang, Shihui Zhang, Dongyang Yu, | (参考訳) 小さな物体、特に交通標識の検出は、物体の検出と自律運転において重要なサブタスクである。
以前の研究で顕著な成果があったにも拘わらず、2つの主要な課題が続いている。
まず第一に、機能抽出の単一性である。
第二に、検出プロセスは、さまざまなサイズやスケールのオブジェクトと効果的に統合できない。
これらの問題は、ジェネリックオブジェクトの検出にも有効である。
本稿では,これらの課題に乗じて,拡張ショートカットモジュールと効率的なハイブリッドエンコーダを統合した交通信号検出のための,EMDFNet(Efficient Multi-scale and Diverse Feature Network)という新しいオブジェクト検出ネットワークを提案する。
具体的には、Augmented Shortcut Moduleは複数のブランチを使用して、様々な空間意味情報とチャネル意味情報を統合し、特徴の多様性を高める。
効率的なハイブリッドエンコーダは、様々な特徴に基づくグローバルな特徴融合と局所的な特徴相互作用を利用して、特徴情報を適応的な方法で統合して特徴分類特徴を生成する。
Tsinghua-Tencent 100K(TT100K)ベンチマークとドイツ交通信号検出ベンチマーク(GTSDB)に関する大規模な実験は、EMDFNetがシングルステージモデルのリアルタイム処理能力を保ちながら、他の最先端検出器よりもパフォーマンスが優れていることを示した。
これにより,EMDFNetによる小信号検出の有効性が実証された。
The detection of small objects, particularly traffic signs, is a critical subtask within object detection and autonomous driving. Despite the notable achievements in previous research, two primary challenges persist. Firstly, the main issue is the singleness of feature extraction. Secondly, the detection process fails to effectively integrate with objects of varying sizes or scales. These issues are also prevalent in generic object detection. Motivated by these challenges, in this paper, we propose a novel object detection network named Efficient Multi-scale and Diverse Feature Network (EMDFNet) for traffic sign detection that integrates an Augmented Shortcut Module and an Efficient Hybrid Encoder to address the aforementioned issues simultaneously. Specifically, the Augmented Shortcut Module utilizes multiple branches to integrate various spatial semantic information and channel semantic information, thereby enhancing feature diversity. The Efficient Hybrid Encoder utilizes global feature fusion and local feature interaction based on various features to generate distinctive classification features by integrating feature information in an adaptable manner. Extensive experiments on the Tsinghua-Tencent 100K (TT100K) benchmark and the German Traffic Sign Detection Benchmark (GTSDB) demonstrate that our EMDFNet outperforms other state-of-the-art detectors in performance while retaining the real-time processing capabilities of single-stage models. This substantiates the effectiveness of EMDFNet in detecting small traffic signs. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# デジタル革命のハーネス:医療変革における遠隔モニタリングのためのmHealthアプリケーションの概要
Harnessing the Digital Revolution: A Comprehensive Review of mHealth Applications for Remote Monitoring in Transforming Healthcare Delivery ( http://arxiv.org/abs/2408.14190v1 ) ライセンス: Link先を確認 | Avnish Singh Jat, Tor-Morten Grønli, | (参考訳) 遠隔監視のためのmHealthアプリケーションの利用は、患者の成果の向上、医療サービスへのアクセスの拡大、医療費の削減によって、医療提供に革命をもたらす可能性がある。
本文献レビューは,mHealthアプリケーションにおけるリモートモニタリングの状況について,そのタイプ,メリット,課題,限界,今後の方向性,研究ギャップなどについて概観する。
PubMed、MEDLINE、EMBASE、CINAHL、Google Scholarといったデータベースを体系的に検索し、過去5年間に公開された関連記事を特定する。
テーマ分析は結果の合成に使われた。
このレビューでは、遠隔医療プラットフォーム、慢性疾患管理用のモバイルアプリ、ウェアラブルデバイスなど、リモート監視に使用されるさまざまなタイプのmHealthアプリケーションを強調している。
これらの応用の利点は、患者の成果の改善、医療へのアクセスの向上、医療費の削減、医療格差への対処である。
しかし、プライバシやセキュリティ上の懸念、技術基盤の欠如、規制のイシュー、データの正確性、ユーザの定着、デジタルディビジョンといった課題や制限は、mHealthアプリケーションの採用と利用を成功させるために対処する必要がある。
mHealth応用の長期的効果が患者の成績に与える影響、mHealthデータと電子健康記録の統合、人工知能によるmHealth応用薬の開発など、さらなる研究が必要である。
mHealthアプリケーションの可能性を活用し、既存の課題に対処することで、医療提供はよりアクセスしやすく、費用対効果が高く、患者中心のモデルに変換される。
The utilization of mHealth applications for remote monitoring has the potential to revolutionize healthcare delivery by enhancing patient outcomes, increasing access to healthcare services, and reducing healthcare costs. This literature review aims to provide a comprehensive overview of the current state of knowledge on mHealth applications for remote monitoring, including their types, benefits, challenges, and limitations, as well as future directions and research gaps. A systematic search of databases such as PubMed, MEDLINE, EMBASE, CINAHL, and Google Scholar was conducted to identify relevant articles published within the last 5 years. Thematic analysis was used to synthesize the findings. The review highlights various types of mHealth applications used for remote monitoring, such as telemedicine platforms, mobile apps for chronic disease management, and wearable devices. The benefits of these applications include improved patient outcomes, increased access to healthcare, reduced healthcare costs, and addressing healthcare disparities. However, challenges and limitations, such as privacy and security concerns, lack of technical infrastructure, regulatory is-sues, data accuracy, user adherence, and the digital divide, need to be addressed to ensure successful adoption and utilization of mHealth applications. Further research is required in areas such as the long-term effects of mHealth applications on patient outcomes, integration of mHealth data with electronic health records, and the development of artificial intelligence-driven mHealth applica-tions. By harnessing the potential of mHealth applications and addressing the existing challenges, healthcare delivery can be transformed towards a more accessible, cost-effective, and patient-centered model. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# 局所記述子重み付きルールを用いた特徴適応型ショット学習法
Feature Aligning Few shot Learning Method Using Local Descriptors Weighted Rules ( http://arxiv.org/abs/2408.14192v1 ) ライセンス: Link先を確認 | Bingchen Yan, | (参考訳) ラベル付きサンプルの限られた数を使用して、新しいカテゴリを識別することを含む分類はほとんどない。
局所記述子に基づく現在の数発の分類法は、主に可視クラスと見えないクラスにまたがる基本的な一貫した特徴を活用し、冗長な隣人情報、ノイズ表現、限定的な解釈可能性などの課題に直面している。
本稿では,局所記述子重み付きルール(FAFD-LDWR)を用いたFew-shot Learning法を提案する。
ローカルディスクリプタの識別情報を可能な限り保存するために、クロスノーマライゼーション手法を少数ショット画像分類に革新的に導入し、サポートのキーローカルディスクリプタとクエリセットを整列させて、バックグラウンドノイズを除去することで分類性能を向上させる。
FAFD-LDWRは3つのベンチマークデータセットで優れたパフォーマンスを発揮し、1ショットと5ショットの両方の設定で最先端の手法より優れている。
設計された可視化実験はまた、FAFD-LDWRの予測解釈性の改善を実証した。
Few-shot classification involves identifying new categories using a limited number of labeled samples. Current few-shot classification methods based on local descriptors primarily leverage underlying consistent features across visible and invisible classes, facing challenges including redundant neighboring information, noisy representations, and limited interpretability. This paper proposes a Feature Aligning Few-shot Learning Method Using Local Descriptors Weighted Rules (FAFD-LDWR). It innovatively introduces a cross-normalization method into few-shot image classification to preserve the discriminative information of local descriptors as much as possible; and enhances classification performance by aligning key local descriptors of support and query sets to remove background noise. FAFD-LDWR performs excellently on three benchmark datasets , outperforming state-of-the-art methods in both 1-shot and 5-shot settings. The designed visualization experiments also demonstrate FAFD-LDWR's improvement in prediction interpretability. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# 代表腕識別:クラスタ代表を識別する固定信頼アプローチ
Representative Arm Identification: A fixed confidence approach to identify cluster representatives ( http://arxiv.org/abs/2408.14195v1 ) ライセンス: Link先を確認 | Sarvesh Gharat, Aniket Yadav, Nikhil Karamchandani, Jayakrishnan Nair, | (参考訳) マルチアームバンディット(MAB)フレームワークにおける代表腕識別(RAI)問題について検討した。
基礎となるインスタンスは、任意の$j > i$に対して、クラスタのすべてのアームは、クラスタの$j$よりも大きな平均報酬を持つように、事前に定義されたサイズのクラスタにアームを分割することによって定義される。
RAIの目標は、可能な限り少ないアームプルを使用しながら、各クラスタから指定された一定の数のアームを確実に識別することである。
RAI問題は、最高の腕や、上位のKドルのうちの$M$の特定や、完全なランキングと粗いランキングなど、いくつかのよく研究されているMABの問題をカバーしている。
まず、この設定で可能なアルゴリズムのサンプルの複雑さにインスタンス依存の低いバウンダリを提供することから始めます。
次に、信頼区間の考え方に基づく2つのアルゴリズムを提案し、それらのサンプルの複雑さに高い確率上界を与える。
最後に,両アルゴリズムとLUCB型アルゴリズムを合成および実世界の両方のデータセットで比較し,ほとんどの場合において提案手法の優れた性能を示す。
We study the representative arm identification (RAI) problem in the multi-armed bandits (MAB) framework, wherein we have a collection of arms, each associated with an unknown reward distribution. An underlying instance is defined by a partitioning of the arms into clusters of predefined sizes, such that for any $j > i$, all arms in cluster $i$ have a larger mean reward than those in cluster $j$. The goal in RAI is to reliably identify a certain prespecified number of arms from each cluster, while using as few arm pulls as possible. The RAI problem covers as special cases several well-studied MAB problems such as identifying the best arm or any $M$ out of the top $K$, as well as both full and coarse ranking. We start by providing an instance-dependent lower bound on the sample complexity of any feasible algorithm for this setting. We then propose two algorithms, based on the idea of confidence intervals, and provide high probability upper bounds on their sample complexity, which orderwise match the lower bound. Finally, we do an empirical comparison of both algorithms along with an LUCB-type alternative on both synthetic and real-world datasets, and demonstrate the superior performance of our proposed schemes in most cases. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# 自動運転の世界における運転:世界モデルによる視覚中心の4D運転予測と計画
Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving ( http://arxiv.org/abs/2408.14197v1 ) ライセンス: Link先を確認 | Yu Yang, Jianbiao Mei, Yukai Ma, Siliang Du, Wenqing Chen, Yijie Qian, Yuxiang Feng, Yong Liu, | (参考訳) 世界モデルは、様々なエゴ行動に基づいて将来の状態を想定している。
それらは、運転環境に関する広範な知識を埋め込んで、安全でスケーラブルな自動運転を促進する。
既存のほとんどの手法は、主にデータ生成または世界モデルの事前学習パラダイムに焦点を当てている。
上記と異なり、我々はビジョン中心の4D予測世界モデルに自律運転のエンド・ツー・エンド計画を適用するDrive-OccWorldを提案する。
具体的には、まず、メモリモジュールに意味的および運動条件の正規化を導入し、歴史的BEV埋め込みから意味的および動的情報を蓄積する。
これらのBEV機能は、幾何学と時空間モデリングの両方を考慮して、将来の占有とフロー予測のために世界デコーダに伝達される。
さらに、速度、操舵角度、軌道、指令などの柔軟な動作条件を世界モデルに注入し、制御可能な生成を可能にし、より広範囲の下流アプリケーションを容易にする。
さらに,4次元世界モデルの生成機能とエンド・ツー・エンド・プランニングの統合,将来状態の連続予測,および占有型コスト関数を用いた最適軌道の選択について検討する。
nuScenesデータセットの大規模な実験により、我々の手法が可塑性で制御可能な4D占有率を生成できることが示され、次世代とエンド・ツー・エンド・プランニングのための新たな道が開かれた。
World models envision potential future states based on various ego actions. They embed extensive knowledge about the driving environment, facilitating safe and scalable autonomous driving. Most existing methods primarily focus on either data generation or the pretraining paradigms of world models. Unlike the aforementioned prior works, we propose Drive-OccWorld, which adapts a vision-centric 4D forecasting world model to end-to-end planning for autonomous driving. Specifically, we first introduce a semantic and motion-conditional normalization in the memory module, which accumulates semantic and dynamic information from historical BEV embeddings. These BEV features are then conveyed to the world decoder for future occupancy and flow forecasting, considering both geometry and spatiotemporal modeling. Additionally, we propose injecting flexible action conditions, such as velocity, steering angle, trajectory, and commands, into the world model to enable controllable generation and facilitate a broader range of downstream applications. Furthermore, we explore integrating the generative capabilities of the 4D world model with end-to-end planning, enabling continuous forecasting of future states and the selection of optimal trajectories using an occupancy-based cost function. Extensive experiments on the nuScenes dataset demonstrate that our method can generate plausible and controllable 4D occupancy, opening new avenues for driving world generation and end-to-end planning. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# 量子ネットワークのマルチパス絡み合い浄化戦略
Multipath entanglement purification strategies for quantum networks ( http://arxiv.org/abs/2408.14201v1 ) ライセンス: Link先を確認 | Md Sohel Mondal, Siddhartha Santra, | (参考訳) 量子ネットワークにおいて、一対のソース・デスティネーションノード間のマルチパス・エンタングルメント・パーフィケーション(MEP)は、そのエンタングルメント接続を大幅に強化することができる。
したがって、効率的なMEP戦略は、二部交絡に基づく量子情報処理タスクを実装可能なネットワーク領域のサイズを増大させることができる。
本稿では、量子ネットワークの一般モデルでMEPを分析し、効率的なMEP戦略の設計基準を得る。
さらに、これらの基準に基づいて2つの異なるMEP戦略をシミュレートすることにより、そのトポロジが固定されたMEP戦略の有効性を決定する方法について検討する。
最後に、MEP戦略の慎重な選択により、そのトポロジから独立して、ソース・デスティネーション・ネットワークノード間の絡み合う接続強度を効果的に発揮できることを示す。
したがって、量子ネットワークや絡み合い分布プロトコルの設計に有用なガイドを提供することができる。
In quantum networks multipath entanglement purification (MEP) between a pair of source-destination nodes can substantially strengthen their entanglement connection. An efficient MEP strategy can therefore increase the size of the network region where bipartite entanglement based quantum information processing tasks can be implemented. Here, we analyse MEP in a general model of a quantum network and obtain design criteria for efficient MEP strategies. Further, by simulating two different MEP strategies, based on these criteria, on different underlying network topologies we explore how the topology determines the effectiveness of a fixed MEP strategy. Finally, we show that a careful choice of MEP strategy can make the entanglement connection strength between source-destination network nodes effectively independent of its topology. Our results can therefore provide a useful guide for the design of quantum networks and entanglement distribution protocols. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# CNN抽出特徴と機械学習分類器を用いたレモン病とオレンジ病の分類
Lemon and Orange Disease Classification using CNN-Extracted Features and Machine Learning Classifier ( http://arxiv.org/abs/2408.14206v1 ) ライセンス: Link先を確認 | Khandoker Nosiba Arifin, Sayma Akter Rupa, Md Musfique Anwar, Israt Jahan, | (参考訳) レモンとオレンジはどちらも世界でもっとも経済的に重要なキツネの果実である。
レモンとオレンジの生産は、成長段階の病気によって深刻な影響を受ける。
果実の品質は欠陥があるため劣化している。
そのため,レモンやオレンジの大量消失を予防するためには,正確な診断が必要である。
レモンとオレンジの病原性分類法を提案した。
このアプローチは、早期の病気の検出と介入を可能にし、収量損失を減らし、リソース割り当てを最適化する。
疾患分類の初期モデリングには、VGG16、VGG19、ResNet50といった革新的なディープラーニングアーキテクチャを使用する。
さらに、より良い精度を達成するために、分類問題に使用される基本的な機械学習アルゴリズムには、ランダムフォレスト、ネイブベイズ、K-Nearest Neighbors (KNN)、ロジスティック回帰がある。
レモンとオレンジの果物の病気は、モデルによりより正確に分類される(レモンは95.0%、オレンジは99.69%)。
モデルの基本的な特徴は、ResNet50事前訓練モデルから抽出され、疾患は他の分類器に対するVGG16とVGG19のパフォーマンスを上回り、ロジスティック回帰によって分類される。
実験結果から,提案モデルが既存のモデルよりも優れており,そのほとんどはソフトマックス分類器を用いて,個々の分類器を使わずに疾患を分類していることがわかった。
Lemons and oranges, both are the most economically significant citrus fruits globally. The production of lemons and oranges is severely affected due to diseases in its growth stages. Fruit quality has degraded due to the presence of flaws. Thus, it is necessary to diagnose the disease accurately so that we can avoid major loss of lemons and oranges. To improve citrus farming, we proposed a disease classification approach for lemons and oranges. This approach would enable early disease detection and intervention, reduce yield losses, and optimize resource allocation. For the initial modeling of disease classification, the research uses innovative deep learning architectures such as VGG16, VGG19 and ResNet50. In addition, for achieving better accuracy, the basic machine learning algorithms used for classification problems include Random Forest, Naive Bayes, K-Nearest Neighbors (KNN) and Logistic Regression. The lemon and orange fruits diseases are classified more accurately (95.0% for lemon and 99.69% for orange) by the model. The model's base features were extracted from the ResNet50 pre-trained model and the diseases are classified by the Logistic Regression which beats the performance given by VGG16 and VGG19 for other classifiers. Experimental outcomes show that the proposed model also outperforms existing models in which most of them classified the diseases using the Softmax classifier without using any individual classifiers. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# MagicMan: 3D-Aware Diffusion とイテレーティブリファインメントによる人間の創造的視点合成
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement ( http://arxiv.org/abs/2408.14211v1 ) ライセンス: Link先を確認 | Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang, | (参考訳) 単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。
本稿では,単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
本研究の核となるのは,3次元認識の促進に先立って,パラメトリックSMPL-Xモデルを3次元体として,事前学習した2次元拡散モデルを活用することである。
3次元の再現性を向上させるために高密度なマルチビュー生成を実現しつつ、一貫性を維持するための重要な課題に取り組むために、まず、異なる視点をまたいだ効率的な情報交換と徹底的な情報交換を容易にするために、ハイブリッドなマルチビューアテンションを導入する。
さらに、RGB領域と正規領域の両方で同時生成を行うための幾何対応の二重分岐を提案し、幾何学的手がかりによる整合性をさらに強化する。
最後に,参照画像と矛盾する不正確なSMPL-X推定から生じる不正確な問題に対処するために,生成したマルチビューの品質と一貫性を向上しつつ,段階的にSMPL-X精度を最適化する新たな反復改善戦略を提案する。
大規模な実験結果から,本手法は新規なビュー合成とその後の3次元再構成作業において,既存手法よりも大幅に優れていたことが示唆された。
Existing works in single-image human reconstruction suffer from weak generalizability due to insufficient training data or 3D inconsistencies for a lack of comprehensive multi-view knowledge. In this paper, we introduce MagicMan, a human-specific multi-view diffusion model designed to generate high-quality novel view images from a single reference image. As its core, we leverage a pre-trained 2D diffusion model as the generative prior for generalizability, with the parametric SMPL-X model as the 3D body prior to promote 3D awareness. To tackle the critical challenge of maintaining consistency while achieving dense multi-view generation for improved 3D human reconstruction, we first introduce hybrid multi-view attention to facilitate both efficient and thorough information interchange across different views. Additionally, we present a geometry-aware dual branch to perform concurrent generation in both RGB and normal domains, further enhancing consistency via geometry cues. Last but not least, to address ill-shaped issues arising from inaccurate SMPL-X estimation that conflicts with the reference image, we propose a novel iterative refinement strategy, which progressively optimizes SMPL-X accuracy while enhancing the quality and consistency of the generated multi-views. Extensive experimental results demonstrate that our method significantly outperforms existing approaches in both novel view synthesis and subsequent 3D human reconstruction tasks. | 翻訳日:2024-08-27 14:13:24 公開日:2024-08-26 |
# Ethereum状態管理におけるPatricia Triesの確率論的解析と実証的検証
Probabilistic Analysis and Empirical Validation of Patricia Tries in Ethereum State Management ( http://arxiv.org/abs/2408.14217v1 ) ライセンス: Link先を確認 | Oleksandr Kuznetsov, Anton Yezhov, Kateryna Kuznetsova, Oleksandr Domin, | (参考訳) 本研究では,Ethereumの状態管理システムの基礎となるデータ構造であるPatricia Tryの総合的理論的および経験的分析について述べる。
本研究では,無作為なEthereumアドレスを含むパトリシアにおける経路長分布を特徴付ける確率論的モデルを構築し,このモデルを広範囲な計算実験により検証する。
以上の結果から,アドレス数に対する平均経路長の対数スケーリングが明らかとなり,Ethereumのスケーラビリティにとって重要な特性であることが確認された。
この研究は、平均経路長の予測において高い精度を示し、100から10万のアドレスの試験スケールで0.01を超えない理論結果と実験結果の相違を示した。
経路長分布の右折特性を特定し,検証し,最悪のシナリオに対する洞察を与え,最適化戦略を提示する。
整合性テストを含む統計的分析は、モデルの精度を強く支持する。
この研究は、特定の三重項レベルのノード濃度に関する構造的な洞察を提供し、ストレージと検索メカニズムを最適化するための道のりを示唆している。
これらの発見はEthereumの基本データ構造をより深く理解し、将来の最適化のための確かな基盤を提供するのに寄与する。
この研究は、超大規模な振る舞い、動的トリエパフォーマンスの調査、および一様でないアドレス分散やその他のブロックチェーンシステムへの適用性など、将来の研究の潜在的な方向性を概説することで締めくくっている。
This study presents a comprehensive theoretical and empirical analysis of Patricia tries, the fundamental data structure underlying Ethereum's state management system. We develop a probabilistic model characterizing the distribution of path lengths in Patricia tries containing random Ethereum addresses and validate this model through extensive computational experiments. Our findings reveal the logarithmic scaling of average path lengths with respect to the number of addresses, confirming a crucial property for Ethereum's scalability. The study demonstrates high precision in predicting average path lengths, with discrepancies between theoretical and experimental results not exceeding 0.01 across tested scales from 100 to 100,000 addresses. We identify and verify the right-skewed nature of path length distributions, providing insights into worst-case scenarios and informing optimization strategies. Statistical analysis, including chi-square goodness-of-fit tests, strongly supports the model's accuracy. The research offers structural insights into node concentration at specific trie levels, suggesting avenues for optimizing storage and retrieval mechanisms. These findings contribute to a deeper understanding of Ethereum's fundamental data structures and provide a solid foundation for future optimizations. The study concludes by outlining potential directions for future research, including investigations into extreme-scale behavior, dynamic trie performance, and the applicability of the model to non-uniform address distributions and other blockchain systems. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# 構造からの脳機能の創出--代数量子モデル
Emergence of brain function from structure: an algebraic quantum model ( http://arxiv.org/abs/2408.14221v1 ) ライセンス: Link先を確認 | Elkaïoum M. Moutuou, Habib Benali, | (参考訳) 神経科学の基本的なパラダイムは、認知機能(知覚、学習、記憶、移動)が脳の構造的組織によって支配されていることである。
しかし、神経系の物理的構造がどのように機能を形成するかを説明する理論的原理は、いまだ解明されていない。
ここでは、量子統計力学とグラフC*-代数の概念を組み合わせて、構造コネクトームの関数状態が基礎となる有向ネットワークの熱平衡状態として現れる理論的枠組みを導入する。
これらの平衡状態は、KMS状態(Kubo-Martin-Schwinger state)から定義され、コネクトーム内の情報フローに対する各ニューロンの相対的な寄与を定量化する。
線虫 elegans {\displaystyle {\em Caenorhabditis elegans} の原型的コネクトームを用いて、これらのKMS状態の包括的記述を行い、その機能的含意を探求し、神経系の解剖学的接続に基づいて予測された機能的ネットワークを確立する。
最終的に、詳細な構造コネクトームの潜在的な機能状態を特定し、構造-機能関係を概念化するモデルを提案する。
A fundamental paradigm in neuroscience is that cognitive functions -- such as perception, learning, memory, and locomotion -- are governed by the brain's structural organization. Yet, the theoretical principles explaining how the physical architecture of the nervous system shapes its function remain elusive. Here, we combine concepts from quantum statistical mechanics and graph C*-algebras to introduce a theoretical framework where functional states of a structural connectome emerge as thermal equilibrium states of the underlying directed network. These equilibrium states, defined from the Kubo-Martin-Schwinger states formalism (KMS states), quantify the relative contribution of each neuron to the information flow within the connectome. Using the prototypical connectome of the nematode {\em Caenorhabditis elegans}, we provide a comprehensive description of these KMS states, explore their functional implications, and establish the predicted functional network based on the nervous system's anatomical connectivity. Ultimately, we present a model for identifying the potential functional states of a detailed structural connectome and for conceptualizing the structure-function relationship. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# Fact Probability Vector を用いたゴール認識
Fact Probability Vector Based Goal Recognition ( http://arxiv.org/abs/2408.14224v1 ) ライセンス: Link先を確認 | Nils Wilken, Lea Cohausz, Christian Bartelt, Heiner Stuckenschmidt, | (参考訳) 観測された事実と予測される確率を比較することを含む新たなゴール認識手法を提案する。
これらの確率は、指定されたゴール g と初期状態 s0 に依存する。
提案手法は,これらの確率と観測された事実を実ベクトル空間にマッピングし,潜在的な目標に対するヒューリスティックな値を計算する。
これらの値は、観測されたエージェントの真の目的である与えられたゴールの確率を推定する。
観測シーケンスにおける観測事実の正確な確率を求めることは現実的に不可能であることが多いので,これらの確率を近似する手法を提案し,実証的に検証する。
実験の結果,提案手法は,計算複雑性を低減しつつ,最先端技術と比較して目標認識精度が向上していることがわかった。
We present a new approach to goal recognition that involves comparing observed facts with their expected probabilities. These probabilities depend on a specified goal g and initial state s0. Our method maps these probabilities and observed facts into a real vector space to compute heuristic values for potential goals. These values estimate the likelihood of a given goal being the true objective of the observed agent. As obtaining exact expected probabilities for observed facts in an observation sequence is often practically infeasible, we propose and empirically validate a method for approximating these probabilities. Our empirical results show that the proposed approach offers improved goal recognition precision compared to state-of-the-art techniques while reducing computational complexity. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# 確率的不均衡点クラスタリング
Provable Imbalanced Point Clustering ( http://arxiv.org/abs/2408.14225v1 ) ライセンス: Link先を確認 | David Denisov, Dan Feldman, Shlomi Dolev, Michael Segal, | (参考訳) すなわち、$k$-centers を任意の$d,k\geq 1$に対して $\mathbb{R}^d$ の点集合に適合させる。
この目的のために \emph{coresets} を用いるが、これは本質的には、与えられた集合のすべてのモデルの適合損失を近似する$\mathbb{R}^d$の重み付き点集合であり、乗算係数は $1\pm\varepsilon$ である。
提案手法は, 実画像, 合成データ, 実世界のデータに対して, 提案手法の実証的寄与を示す実験である。
また、選択クラスタリングを提案し、クラスタリングアルゴリズムを組み合わせることで、各クラスタよりもパフォーマンスが向上する。
We suggest efficient and provable methods to compute an approximation for imbalanced point clustering, that is, fitting $k$-centers to a set of points in $\mathbb{R}^d$, for any $d,k\geq 1$. To this end, we utilize \emph{coresets}, which, in the context of the paper, are essentially weighted sets of points in $\mathbb{R}^d$ that approximate the fitting loss for every model in a given set, up to a multiplicative factor of $1\pm\varepsilon$. We provide [Section 3 and Section E in the appendix] experiments that show the empirical contribution of our suggested methods for real images (novel and reference), synthetic data, and real-world data. We also propose choice clustering, which by combining clustering algorithms yields better performance than each one separately. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# TC-PDM:赤外線可視映像翻訳のための時間一貫性パッチ拡散モデル
TC-PDM: Temporally Consistent Patch Diffusion Models for Infrared-to-Visible Video Translation ( http://arxiv.org/abs/2408.14227v1 ) ライセンス: Link先を確認 | Anh-Dzung Doan, Vu Minh Hieu Phan, Surabhi Gupta, Markus Wagner, Tat-Jun Chin, Ian Reid, | (参考訳) 赤外線イメージングは、物体の温度を計測することで、照明条件の変化に対してレジリエンスを提供する。
しかし、一部のシナリオでは、昼間の可視画像と比較して視覚的な詳細が欠如しているため、人間と機械の解釈には大きな課題が生じる。
本稿では,近赤外可視映像翻訳のための新しい拡散法であるTemporally Consistent Patch Diffusion Models (TC-DPM)を提案する。
Patch Diffusion Modelを拡張する手法は2つのキーコンポーネントから構成される。
まず,基礎モデルの強い表現を活かした意味誘導型認知モデルを提案する。
そこで本手法は,生成した可視画像の意味的構造を忠実に保存する。
次に,連続するフレーム間の時間的整合性を確保するため,聴覚軌道を案内する新しい時間的ブレンディングモジュールを提案する。
TC-PDMは、赤外線可視ビデオ翻訳のFVDの35.3%、昼夜物体検出のAP50の6.1%で、最先端の手法よりも優れていた。
私たちのコードはhttps://github.com/dzungdoan6/tc-pdmで公開されています。
Infrared imaging offers resilience against changing lighting conditions by capturing object temperatures. Yet, in few scenarios, its lack of visual details compared to daytime visible images, poses a significant challenge for human and machine interpretation. This paper proposes a novel diffusion method, dubbed Temporally Consistent Patch Diffusion Models (TC-DPM), for infrared-to-visible video translation. Our method, extending the Patch Diffusion Model, consists of two key components. Firstly, we propose a semantic-guided denoising, leveraging the strong representations of foundational models. As such, our method faithfully preserves the semantic structure of generated visible images. Secondly, we propose a novel temporal blending module to guide the denoising trajectory, ensuring the temporal consistency between consecutive frames. Experiment shows that TC-PDM outperforms state-of-the-art methods by 35.3% in FVD for infrared-to-visible video translation and by 6.1% in AP50 for day-to-night object detection. Our code is publicly available at https://github.com/dzungdoan6/tc-pdm | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# オープンセット顔認識のためのギャラリー認識の不確かさ推定
Gallery-Aware Uncertainty Estimation For Open-Set Face Recognition ( http://arxiv.org/abs/2408.14229v1 ) ライセンス: Link先を確認 | Leonid Erlygin, Alexey Zaytsev, | (参考訳) 画像品質とモデルロバスト性の向上を正確に推定することは、制約のない顔認識において重要な課題であり、確率的顔埋め込みによる不確実性推定によって対処できる。
これまでの研究では、顔認証における不確実性評価を中心に、オープンセットの顔認識タスクを過小評価した。
オープンセットの顔認識では、画像の分類を試みるが、それは未知の場合もある。
ここでは、確率的埋め込みの低分散は低い誤差の確率を示唆しない:画像埋め込みはギャラリー内のいくつかのクラスに近くなり、高い不確実性をもたらす。
オープンセット認識システムでは,(1)重複クラスによるギャラリーの不確実性,(2)顔埋め込みの不確実性という2つの曖昧さを意識した手法を提案する。
いずれのタイプも検出するために、ベイズ確率モデルを用いて埋め込み分布を推定する。
IJB-Cのようなオープンセットの顔認識データセットは、我々の手法のテストベッドとして役立ちます。
また,クジラとイルカの識別のための新しいオープンセット認識プロトコルを提案する。
提案手法は,画像品質のみに基づく不確実性推定法よりも,認識誤差をよりよく同定する。
Accurately estimating image quality and model robustness improvement are critical challenges in unconstrained face recognition, which can be addressed through uncertainty estimation via probabilistic face embeddings. Previous research mainly focused on uncertainty estimation in face verification, leaving the open-set face recognition task underexplored. In open-set face recognition, one seeks to classify an image, which could also be unknown. Here, the low variance of probabilistic embedding does not imply a low error probability: an image embedding could be close to several classes in a gallery, thus yielding high uncertainty. We propose a method aware of two sources of ambiguity in the open-set recognition system: (1) the gallery uncertainty caused by overlapping classes and (2) the uncertainty of the face embeddings. To detect both types, we use a Bayesian probabilistic model of embedding distribution, which provides a principled uncertainty estimate. Challenging open-set face recognition datasets, such as IJB-C, serve as a testbed for our method. We also propose a new open-set recognition protocol for whale and dolphin identification. The proposed approach better identifies recognition errors than uncertainty estimation methods based solely on image quality. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# ブロッホ球上の量子進化のためのエネルギー資源の無駄を伴う最短測地線からの逸脱の定量化
Quantifying Deviations from Shortest Geodesic Paths together with Waste of Energy Resources for Quantum Evolutions on the Bloch Sphere ( http://arxiv.org/abs/2408.14230v1 ) ライセンス: Link先を確認 | Leonardo Rossetti, Carlo Cafaro, Paul M. Alsing, | (参考訳) 最適量子力学の進化において、運動は最短長の未決定経路に沿って最適な時間で起こる。
あるいは、最適進化はエネルギー資源を無駄にせず、100%の速度効率で事前に定義された経路に沿って起こる。
残念ながら、現実的な物理的シナリオは典型的には理想的でない進化をもたらす。
本稿では、静止および時間変化の異なる準最適量子ビットハミルトニアンの族について検討し、それに対応する量子進化の測地効率と速度効率は1以下である。
さらに, 前述した2つの効率量化器から構築した代替ハイブリッド効率測定器を提案した後, 時間最適性から100%の速度効率への平均出発が, 限られた期間にわたってグローバルに捕捉される実例を示した。
特に、このハイブリッド測度のおかげで、量子進化は4つのカテゴリに分けられる:ジオデシックな不無駄、非ジオデシックな不無駄、ジオデシックな無駄、そして最後に非ジオデシックな無駄である。
最後に、定常かつ非定常な磁場配置によって指定されたハミルトニアンは、有限時間間隔で最適なハイブリッド効率(時間最適性と100%速度効率)を得る。
In optimal quantum-mechanical evolutions, motion can occur along non-predetermined paths of shortest length in an optimal time. Alternatively, optimal evolutions can happen along predefined paths with no waste of energy resources and 100% speed efficiency. Unfortunately, realistic physical scenarios typically result in less-than-ideal evolutions. In this paper, we study different families of sub-optimal qubit Hamiltonians, both stationary and time-varying, for which the so-called geodesic efficiency and the speed efficiency of the corresponding quantum evolutions are less than one. Furthermore, after proposing an alternative hybrid efficiency measure constructed out of the two previously mentioned efficiency quantifiers, we provide illustrative examples where the average departures from time-optimality and 100% speed efficiency are globally captured over a limited time period. In particular, thanks to this hybrid measure, quantum evolutions are partitioned in four categories: Geodesic unwasteful, nongeodesic unwasteful, geodesic wasteful and, lastly, nongeodesic wasteful. Finally, we discuss Hamiltonians specified by magnetic field configurations, both stationary and nonstationary, yielding optimal hybrid efficiency (that it, both time-optimality and 100% speed efficiency) over a finite time interval. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# 時間依存性磁場における量子の量子進化の曲率
Curvature of Quantum Evolutions for Qubits in Time-Dependent Magnetic Fields ( http://arxiv.org/abs/2408.14233v1 ) ライセンス: Link先を確認 | Carlo Cafaro, Leonardo Rossetti, Paul M. Alsing, | (参考訳) 量子メカニカル過程の幾何学において、量子進化の時間変化曲率係数は、接ベクトルと状態ベクトルとの共変微分の大きさ2乗によって定義される。
特に、曲率係数は、Schr\\odinger進化方程式を規定する非定常ハミルトニアンの下で一元的に進化する平行輸送された純粋量子状態によって追跡される量子曲線の曲げを測定する。
本稿では,時間依存磁場に浸漬された2レベル量子系に対する量子進化の曲率の正確な解析式を提案する。
具体的には、単位速度効率を持つ2パラメータ非定常エルミートハミルトニアンによって生成される力学について検討する。
2つのパラメータは、進化する純粋状態のブロッホ球表現で使われる極と方位角の変化の時間的変化率を規定する。
量子進化の測地効率が1未満であることから、曲率係数の物理的重要性をよりよく把握し、量子曲線が非測地的であることを示し、2つのハミルトンパラメータをチューニングするために、曲率係数の時間的挙動と、射影ヒルベルト空間における進化の速度と加速度を比較する。
さらに、曲率係数の時間プロファイルと、平行磁場強度と横磁場強度の比の正方形との比較を行った。
最後に、任意の時間依存型エルミート・ハミルトニアンの下で一元的に進化する高次元量子系への幾何学的アプローチを拡張する際の課題について論じる。
In the geometry of quantum-mechanical processes, the time-varying curvature coefficient of a quantum evolution is specified by the magnitude squared of the covariant derivative of the tangent vector to the state vector. In particular, the curvature coefficient measures the bending of the quantum curve traced out by a parallel-transported pure quantum state that evolves in a unitary fashion under a nonstationary Hamiltonian that specifies the Schr\"odinger evolution equation. In this paper, we present an exact analytical expression of the curvature of a quantum evolution for a two-level quantum system immersed in a time-dependent magnetic field. Specifically, we study the dynamics generated by a two-parameter nonstationary Hermitian Hamiltonian with unit speed efficiency. The two parameters specify the constant temporal rates of change of the polar and azimuthal angles used in the Bloch sphere representation of the evolving pure state. To better grasp the physical significance of the curvature coefficient, showing that the quantum curve is nongeodesic since the geodesic efficiency of the quantum evolution is strictly less than one and tuning the two Hamiltonian parameters, we compare the temporal behavior of the curvature coefficient with that of the speed and the acceleration of the evolution in projective Hilbert space. Furthermore, we compare the temporal profile of the curvature coefficient with that of the square of the ratio between the parallel and transverse magnetic field intensities. Finally, we discuss the challenges in extending our geometric approach to higher-dimensional quantum systems that evolve unitarily under an arbitrary time-dependent Hermitian Hamiltonian. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# FSDEM: 特徴選択動的評価基準
FSDEM: Feature Selection Dynamic Evaluation Metric ( http://arxiv.org/abs/2408.14234v1 ) ライセンス: Link先を確認 | Muhammad Rajabinasab, Anton D. Lautrup, Tobias Hyrup, Arthur Zimek, | (参考訳) 表現的評価指標はあらゆる領域において情報的実験には不可欠であり、いくつかの領域ではいくつかの指標が確立されているが、機能選択など他の領域では間接的あるいは限定的な評価指標のみが発見されている。
本稿では,前任者の諸問題に対処し,特徴選択アルゴリズムの柔軟かつ信頼性の高い評価を可能にするための新しい評価基準を提案する。
提案手法は,特徴選択アルゴリズムの性能と安定性の両方を評価できる2つの特性を持つ動的計量である。
本研究では,提案手法を用いて特徴選択アルゴリズムの評価に成功した経験的実験を行った。
また,特徴選択アルゴリズムの評価に係わるさまざまな側面について,比較と分析を行った。
その結果,提案手法は特徴選択アルゴリズムの評価タスクの実行に有効であることが示唆された。
本論文はSISAP 2024で受理された論文の拡張版である。
Expressive evaluation metrics are indispensable for informative experiments in all areas, and while several metrics are established in some areas, in others, such as feature selection, only indirect or otherwise limited evaluation metrics are found. In this paper, we propose a novel evaluation metric to address several problems of its predecessors and allow for flexible and reliable evaluation of feature selection algorithms. The proposed metric is a dynamic metric with two properties that can be used to evaluate both the performance and the stability of a feature selection algorithm. We conduct several empirical experiments to illustrate the use of the proposed metric in the successful evaluation of feature selection algorithms. We also provide a comparison and analysis to show the different aspects involved in the evaluation of the feature selection algorithms. The results indicate that the proposed metric is successful in carrying out the evaluation task for feature selection algorithms. This paper is an extended version of a paper accepted at SISAP 2024. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# DSTI at LLMs4OL 2024 Task A: Intrinsic vs extrinsic Knowledge for type classification (英語)
DSTI at LLMs4OL 2024 Task A: Intrinsic versus extrinsic knowledge for type classification ( http://arxiv.org/abs/2408.14236v1 ) ライセンス: Link先を確認 | Hanna Abi Akl, | (参考訳) 本研究では, 固有知識表現法であるセマンティックタワーを導入し, オントロジー学習のための大規模言語モデルにおける固有知識と比較する。
本実験は, 内在的知識を微調整したモデルに比べ, 内在的知識に対する性能と意味的基盤とのトレードオフを示す。
オントロジー学習のためのLarge Language Models for Ontology Learning (LLMs4OL) 2024の課題について報告する。
We introduce semantic towers, an extrinsic knowledge representation method, and compare it to intrinsic knowledge in large language models for ontology learning. Our experiments show a trade-off between performance and semantic grounding for extrinsic knowledge compared to a fine-tuned model intrinsic knowledge. We report our findings on the Large Language Models for Ontology Learning (LLMs4OL) 2024 challenge. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# Celtibero: フェデレートラーニングのためのロバストな階層化アグリゲーション
Celtibero: Robust Layered Aggregation for Federated Learning ( http://arxiv.org/abs/2408.14240v1 ) ライセンス: Link先を確認 | Borja Molina-Coronado, | (参考訳) Federated Learning(FL)は、分散機械学習に対する革新的なアプローチである。
FLは重要なプライバシー上のアドバンテージを提供するが、特に敵が故意にローカルモデルの更新を操作したり、モデルのパフォーマンスを低下させたり、隠れたバックドアを導入したりすることで、セキュリティ上の課題に直面している。
これらの攻撃に対する既存の防御は、ノード上のデータが同一かつ独立に分散されている場合(すなわち、d)に有効であることが示されているが、制限の少ない非i.dデータ条件下では失敗することが多い。
これらの制限を克服するために,階層化アグリゲーションを統合する新しい防御機構であるセルティベロを導入し,敵の操作に対する堅牢性を向上する。
MNISTおよびIMDBデータセットに関する広範な実験を通じて、セルティベロは、標的外および標的とする毒殺攻撃の範囲で、最小の攻撃成功率(ASR)を維持しながら、常に高い主タスク精度(MTA)を達成することを示した。
本研究は, FL-Defender, LFighter, FLAMEなどの既存の防衛システムよりもセルティベロの方が優れており, 高度な毒殺攻撃に対するフェデレート学習システムの確保に有効なソリューションとして確立されている。
Federated Learning (FL) is an innovative approach to distributed machine learning. While FL offers significant privacy advantages, it also faces security challenges, particularly from poisoning attacks where adversaries deliberately manipulate local model updates to degrade model performance or introduce hidden backdoors. Existing defenses against these attacks have been shown to be effective when the data on the nodes is identically and independently distributed (i.i.d.), but they often fail under less restrictive, non-i.i.d data conditions. To overcome these limitations, we introduce Celtibero, a novel defense mechanism that integrates layered aggregation to enhance robustness against adversarial manipulation. Through extensive experiments on the MNIST and IMDB datasets, we demonstrate that Celtibero consistently achieves high main task accuracy (MTA) while maintaining minimal attack success rates (ASR) across a range of untargeted and targeted poisoning attacks. Our results highlight the superiority of Celtibero over existing defenses such as FL-Defender, LFighter, and FLAME, establishing it as a highly effective solution for securing federated learning systems against sophisticated poisoning attacks. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# 確率振幅からの量子力学進化の複雑さ
Complexity of Quantum-Mechanical Evolutions from Probability Amplitudes ( http://arxiv.org/abs/2408.14241v1 ) ライセンス: Link先を確認 | Carlo Cafaro, Leonardo Rossetti, Paul M. Alsing, | (参考訳) 本研究では,フビニ・スタディ計量を備えたブロッホ球面上の任意のソースとターゲット状態とを接続する時間-最適および時間-最適量子ハミルトン進化の複雑さについて検討する。
この調査はいくつかのステップで行われます。
まず、経路長、測地効率、速度効率、およびソース状態と対象状態とをリンクする対応する動的軌跡の曲率による各ユニタリSchr\"odinger量子進化を記述する。
第2に、いわゆる情報幾何学的複雑性を用いて、系の物理学の基礎となる曲線統計多様体上のエントロピー運動の複雑さを記述する古典的確率論的設定から、それらに関する部分的知識のみが利用可能であるときに、決定論的量子設定に遷移する。
この文脈では、量子進化の複雑さの定義を提案した後、量子複雑性長スケールの概念を提示する。
特に、アクセスされた領域(部分的)とアクセス可能な領域(全体的)のパラメトリックボリュームの両量の物理的意義を議論する。
第4に, 2つの量子進化のそれぞれについて, 複雑度と複雑度を計算した後, その挙動を経路長, 測地効率, 速度効率, 曲率係数と比較した。
一般に、効率的な量子進化は非効率的な進化よりも複雑ではない。
しかし、複雑さは長さ以上であることも観察する。
実際、十分に曲げられた長い経路は、曲率の小さい短い経路よりも複雑でない挙動を示すことができる。
We study the complexity of both time-optimal and time sub-optimal quantum Hamiltonian evolutions connecting arbitrary source and a target states on the Bloch sphere equipped with the Fubini-Study metric. This investigation is performed in a number of steps. First, we describe each unitary Schr\"odinger quantum evolution by means of the path length, the geodesic efficiency, the speed efficiency, and the curvature coefficient of its corresponding dynamical trajectory linking the source state to the target state. Second, starting from a classical probabilistic setting where the so-called information geometric complexity can be employed to describe the complexity of entropic motion on curved statistical manifolds underlying the physics of systems when only partial knowledge about them is available, we transition into a deterministic quantum setting. In this context, after proposing a definition of the complexity of a quantum evolution, we present a notion of quantum complexity length scale. In particular, we discuss the physical significance of both quantities in terms of the accessed (i.e., partial) and accessible (i.e., total) parametric volumes of the regions on the Bloch sphere that specify the quantum mechanical evolution from the source to the target states. Fourth, after calculating the complexity measure and the complexity length scale for each one of the two quantum evolutions, we compare the behavior of our measures with that of the path length, the geodesic efficiency, the speed efficiency, and the curvature coefficient. We find that, in general, efficient quantum evolutions are less complex than inefficient evolutions. However, we also observe that complexity is more than length. Indeed, longer paths that are sufficiently bent can exhibit a behavior that is less complex than that of shorter paths with a smaller curvature coefficient. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# 効率的なビデオ超解像のためのカスケード時間更新ネットワーク
Cascaded Temporal Updating Network for Efficient Video Super-Resolution ( http://arxiv.org/abs/2408.14244v1 ) ライセンス: Link先を確認 | Hao Li, Jiangxin Dong, Jinshan Pan, | (参考訳) 既存のビデオ超解像法(VSR)では、通常、ビデオシーケンス全体から時空間情報を抽出するために、繰り返し伝搬ネットワークを採用している。
しかし、リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を与え、例えばアライメントモジュールはモデルパラメータの大部分を占め、双方向の伝搬機構は推論時間を著しく増幅する。
その結果,資源制約のあるデバイス,例えばスマートフォンに展開可能な,コンパクトで効率的なVSR手法の開発は依然として困難である。
そこで本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
まず、隣接フレームからの時空間対応を探索する暗黙のカスケードアライメントモジュールを開発する。
また,高品質な映像再構成に欠かせない長距離時間情報を効率的に探索する一方向伝搬更新ネットワークを提案する。
具体的には、将来の情報を利用して前方伝搬中に隠れた特徴を更新し、性能を維持しながら推論時間を著しく短縮できる、シンプルで効果的な隠れ更新器を開発する。
最後に、これらすべてのコンポーネントをエンドツーエンドのトレーニング可能なVSRネットワークに定式化する。
以上の結果から,CTUNは従来の方法に比べて効率と性能のトレードオフが良好であることが示唆された。
特に,本手法は,BasicVSRと比較して,約30%のパラメータとランニング時間しか使用せず,より優れた結果が得られる。
ソースコードと事前トレーニングされたモデルはhttps://github.com/House-Leo/CTUN.comで入手できる。
Existing video super-resolution (VSR) methods generally adopt a recurrent propagation network to extract spatio-temporal information from the entire video sequences, exhibiting impressive performance. However, the key components in recurrent-based VSR networks significantly impact model efficiency, e.g., the alignment module occupies a substantial portion of model parameters, while the bidirectional propagation mechanism significantly amplifies the inference time. Consequently, developing a compact and efficient VSR method that can be deployed on resource-constrained devices, e.g., smartphones, remains challenging. To this end, we propose a cascaded temporal updating network (CTUN) for efficient VSR. We first develop an implicit cascaded alignment module to explore spatio-temporal correspondences from adjacent frames. Moreover, we propose a unidirectional propagation updating network to efficiently explore long-range temporal information, which is crucial for high-quality video reconstruction. Specifically, we develop a simple yet effective hidden updater that can leverage future information to update hidden features during forward propagation, significantly reducing inference time while maintaining performance. Finally, we formulate all of these components into an end-to-end trainable VSR network. Extensive experimental results show that our CTUN achieves a favorable trade-off between efficiency and performance compared to existing methods. Notably, compared with BasicVSR, our method obtains better results while employing only about 30% of the parameters and running time. The source code and pre-trained models will be available at https://github.com/House-Leo/CTUN. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# オブジェクト検出の他:詳細な調査
Beyond Few-shot Object Detection: A Detailed Survey ( http://arxiv.org/abs/2408.14249v1 ) ライセンス: Link先を確認 | Vishal Chudasama, Hiran Sarkar, Pankaj Wasnik, Vineeth N Balasubramanian, Jayateja Kalla, | (参考訳) 物体検出はコンピュータビジョンにおいて重要な分野であり、画像やビデオ中の特定の物体を正確に識別し、位置決めすることに焦点を当てている。
従来のオブジェクト検出の方法は、各オブジェクトカテゴリのラベル付きトレーニングデータセットに頼っている。
この問題に対処するため、研究者らは、数発の学習原則とオブジェクト検出原則を融合した、数発のオブジェクト検出(FSOD)アプローチを導入した。
これらのアプローチは、いくつかの注釈付きサンプルだけで、モデルが新しいオブジェクトカテゴリに迅速に適応できるようにする。
従来のFSOD法は従来から研究されてきたが,本調査では,標準FSOD,一般化FSOD,インクリメンタルFSOD,オープンセットFSOD,ドメイン適応FSODなど,さまざまなFSOD設定を対象とするFSOD研究を網羅的にレビューする。
これらのアプローチは、特に効率的な機械学習モデルの必要性が高まっているため、ラベル付きデータセットへの依存を減らす上で重要な役割を果たす。
本研究の目的は,上記の数ショット設定を包括的に理解し,各FSODタスクの方法論を探索することである。
さまざまなFSOD設定の最先端メソッドを徹底的に比較し、評価プロトコルに基づいて詳細に分析する。
さらに、限られたデータによるオブジェクト検出の進化する分野における、アプリケーションや課題、将来的な方向性に関する洞察を提供する。
Object detection is a critical field in computer vision focusing on accurately identifying and locating specific objects in images or videos. Traditional methods for object detection rely on large labeled training datasets for each object category, which can be time-consuming and expensive to collect and annotate. To address this issue, researchers have introduced few-shot object detection (FSOD) approaches that merge few-shot learning and object detection principles. These approaches allow models to quickly adapt to new object categories with only a few annotated samples. While traditional FSOD methods have been studied before, this survey paper comprehensively reviews FSOD research with a specific focus on covering different FSOD settings such as standard FSOD, generalized FSOD, incremental FSOD, open-set FSOD, and domain adaptive FSOD. These approaches play a vital role in reducing the reliance on extensive labeled datasets, particularly as the need for efficient machine learning models continues to rise. This survey paper aims to provide a comprehensive understanding of the above-mentioned few-shot settings and explore the methodologies for each FSOD task. It thoroughly compares state-of-the-art methods across different FSOD settings, analyzing them in detail based on their evaluation protocols. Additionally, it offers insights into their applications, challenges, and potential future directions in the evolving field of object detection with limited data. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# 光双極子トラップにおける中性原子によるボソニック量子誤差補正
Bosonic Quantum Error Correction with Neutral Atoms in Optical Dipole Traps ( http://arxiv.org/abs/2408.14251v1 ) ライセンス: Link先を確認 | Leon H. Bohnmann, David F. Locher, Johannes Zeiher, Markus Müller, | (参考訳) ボソニック量子誤差補正符号は、1つまたは複数の調和振動子のヒルベルト空間における論理量子ビットを符号化する。
ボソニックなコードとしては、Gottesman-Kitaev-Preskill (GKP) がある。
本研究では,光双極子トラップに蓄えられた中性原子の振動モードにおけるGKP量子ビットの合成と誤差補正について理論的に検討する。
このプラットフォームは、閉じ込められた原子の運動自由度と電子自由度を同時に制御する際、顕著な進歩を見せている。
私たちが開発するプロトコルは、運動状態と、さらに、閉じ込められた原子の内部電子状態を利用して、アンシラ量子ビットとして機能する。
我々は,光ツイーザアレイと光学格子を比較し,GKP符号の実装条件の最適化に利用可能な,平面外方向の閉じ込めをより柔軟に制御できることを見出した。
具体的には、軸方向と半径方向の高調波発振器が示す周波数スケールと、小さな発振器アンハーモニック性は、GKP状態の堅牢な符号化に有用であることを示す。
最後に、現実的なパラメータを持つ光学格子におけるGKP量子ビットの生成を数値シミュレーションすることにより、提案プロトコルの実験的実現可能性について考察する。
Bosonic quantum error correction codes encode logical qubits in the Hilbert space of one or multiple harmonic oscillators. A prominent class of bosonic codes are Gottesman-Kitaev-Preskill (GKP) codes of which implementations have been demonstrated with trapped ions and microwave cavities. In this work, we investigate theoretically the preparation and error correction of a GKP qubit in a vibrational mode of a neutral atom stored in an optical dipole trap. This platform has recently shown remarkable progress in simultaneously controlling the motional and electronic degrees of freedom of trapped atoms. The protocols we develop make use of motional states and, additionally, internal electronic states of the trapped atom to serve as an ancilla qubit. We compare optical tweezer arrays and optical lattices and find that the latter provide more flexible control over the confinement in the out-of-plane direction, which can be utilized to optimize the conditions for the implementation of GKP codes. Concretely, the different frequency scales that the harmonic oscillators in the axial and radial lattice directions exhibit and a small oscillator anharmonicity prove to be beneficial for robust encodings of GKP states. Finally, we underpin the experimental feasibility of the proposed protocols by numerically simulating the preparation of GKP qubits in optical lattices with realistic parameters. | 翻訳日:2024-08-27 14:01:29 公開日:2024-08-26 |
# 機械生成テキストのブラックボックス検出のための説明手法の評価
An Evaluation of Explanation Methods for Black-Box Detectors of Machine-Generated Text ( http://arxiv.org/abs/2408.14252v1 ) ライセンス: Link先を確認 | Loris Schoenegger, Yuxi Xia, Benjamin Roth, | (参考訳) 言語モデルと人文テキストを区別することの難しさが増し、機械生成テキスト(MGT)の検出装置の開発に繋がった。
しかし、多くの文脈では、ブラックボックスの予測は不十分であり、検出器がその予測をどのような根拠で行うかを知ることは同様に重要である。
特徴重要度を推定する説明方法は、入力のどの部分が予測のために分類器によって使用されるかを示すことを約束する。
しかし、MGT検出器では、これまで様々な説明法の品質は評価されていない。
本研究は,本課題における説明の質に関する最初の体系的評価を行う。
信頼性と安定性の次元を5つの自動実験で評価し、ユーザスタディにおいて有用性を評価する。
本稿では,ChatGPT生成および人文文書のデータセットと,対応するSHAP,LIME,Anchorの3つの既存言語モデルに基づく検出器のペア予測を利用する。
SHAPは, 信頼性, 安定性, 検知器の挙動を予測するのに最適であることがわかった。
対照的に、ユーザにとって最も有用なと認識されているLIMEは、検知器の動作を予測する際のユーザパフォーマンスにおいて、最悪である。
The increasing difficulty to distinguish language-model-generated from human-written text has led to the development of detectors of machine-generated text (MGT). However, in many contexts, a black-box prediction is not sufficient, it is equally important to know on what grounds a detector made that prediction. Explanation methods that estimate feature importance promise to provide indications of which parts of an input are used by classifiers for prediction. However, the quality of different explanation methods has not previously been assessed for detectors of MGT. This study conducts the first systematic evaluation of explanation quality for this task. The dimensions of faithfulness and stability are assessed with five automated experiments, and usefulness is evaluated in a user study. We use a dataset of ChatGPT-generated and human-written documents, and pair predictions of three existing language-model-based detectors with the corresponding SHAP, LIME, and Anchor explanations. We find that SHAP performs best in terms of faithfulness, stability, and in helping users to predict the detector's behavior. In contrast, LIME, perceived as most useful by users, scores the worst in terms of user performance at predicting the detectors' behavior. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# Text3DAug -- LiDARの認識のためのインスタンス拡張のプロンプト
Text3DAug -- Prompted Instance Augmentation for LiDAR Perception ( http://arxiv.org/abs/2408.14253v1 ) ライセンス: Link先を確認 | Laurenz Reichardt, Luca Uhr, Oliver Wasenmüller, | (参考訳) 都市シナリオのLiDARデータは、異種特性や固有のクラス不均衡など、ユニークな課題を提起する。
したがって、ディープラーニング手法を適用するには大規模なデータセットが必要である。
データセットの多様性を高めるための効率的な方法として、インスタンス拡張が登場した。
しかし、現在の手法では、3Dモデルの時間を要するキュレーションや、高価な手作業によるデータアノテーションが必要である。
このような制約を克服するために,生成モデルを利用した新しいアプローチであるText3DAugを提案する。
Text3DAugはラベル付きデータに依存しておらず、テキストからインスタンスやアノテーションを生成する最初のタイプである。
これにより、完全に自動化されたパイプラインが可能になり、実用的なアプリケーションで手作業の必要がなくなる。
さらに、Text3DAugはセンサー非依存であり、使用するLiDARセンサーに関係なく適用することができる。
LiDARのセグメンテーション、検出、新しいクラス発見に関する総合的な実験的分析は、Text3DAugが既存のメソッドやスタンドアロンメソッドを補うのに有効であることを示した。
コードは公開されている。
LiDAR data of urban scenarios poses unique challenges, such as heterogeneous characteristics and inherent class imbalance. Therefore, large-scale datasets are necessary to apply deep learning methods. Instance augmentation has emerged as an efficient method to increase dataset diversity. However, current methods require the time-consuming curation of 3D models or costly manual data annotation. To overcome these limitations, we propose Text3DAug, a novel approach leveraging generative models for instance augmentation. Text3DAug does not depend on labeled data and is the first of its kind to generate instances and annotations from text. This allows for a fully automated pipeline, eliminating the need for manual effort in practical applications. Additionally, Text3DAug is sensor agnostic and can be applied regardless of the LiDAR sensor used. Comprehensive experimental analysis on LiDAR segmentation, detection and novel class discovery demonstrates that Text3DAug is effective in supplementing existing methods or as a standalone method, performing on par or better than established methods, however while overcoming their specific drawbacks. The code is publicly available. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# 解釈可能なグラフニューラルネットワークを用いたfMRI, DTI, sMRIによる脳結合解析
Integrated Brain Connectivity Analysis with fMRI, DTI, and sMRI Powered by Interpretable Graph Neural Networks ( http://arxiv.org/abs/2408.14254v1 ) ライセンス: Link先を確認 | Gang Qu, Ziyu Zhou, Vince D. Calhoun, Aiying Zhang, Yu-Ping Wang, | (参考訳) マルチモーダル・ニューロイメージング・モデリング(英語版)は広く使われているアプローチとなっているが、データ型、スケール、フォーマットの多様性を含む不均一性のためにかなりの課題に直面している。
この可変性は、これらの多様なデータセットを結合分析フレームワークに統合し解釈する高度な計算手法の展開を必要とする。
本研究では,アマルガメート機能的磁気共鳴イメージング,拡散テンソルイメージング,構造MRIを結合組織に導入した。
この統合は、脳の接続性や解剖学的特性を包括的に理解することを目的として、各モードとその固有の相互接続の独特な強さに重きを置いている。
パーセレーションにGlasser atlasを用いることで、fMRIからの機能的接続、DTIからの構造的接続、sMRIからの一貫した領域における解剖学的特徴など、様々な特徴から派生した画像特徴を統合する。
提案手法は,ニューラルネットワークの重み付けにマスキング戦略を導入し,マルチモーダル画像データの総合的アマルガメーションを容易にする。
この技術は接続レベルでの解釈可能性を高め、特定の地域属性を中心とした伝統的な分析を超越する。
このモデルは、ヒューマンコネクトームプロジェクト(Human Connectome Project)の開発研究に応用され、若年期のマルチモーダルイメージングと認知機能との関係を明らかにする。
この分析により、予測精度が向上し、重要な解剖学的特徴と重要な神経接続が明らかになり、脳の構造と機能に対する理解が深まる。
Multimodal neuroimaging modeling has becomes a widely used approach but confronts considerable challenges due to heterogeneity, which encompasses variability in data types, scales, and formats across modalities. This variability necessitates the deployment of advanced computational methods to integrate and interpret these diverse datasets within a cohesive analytical framework. In our research, we amalgamate functional magnetic resonance imaging, diffusion tensor imaging, and structural MRI into a cohesive framework. This integration capitalizes on the unique strengths of each modality and their inherent interconnections, aiming for a comprehensive understanding of the brain's connectivity and anatomical characteristics. Utilizing the Glasser atlas for parcellation, we integrate imaging derived features from various modalities: functional connectivity from fMRI, structural connectivity from DTI, and anatomical features from sMRI within consistent regions. Our approach incorporates a masking strategy to differentially weight neural connections, thereby facilitating a holistic amalgamation of multimodal imaging data. This technique enhances interpretability at connectivity level, transcending traditional analyses centered on singular regional attributes. The model is applied to the Human Connectome Project's Development study to elucidate the associations between multimodal imaging and cognitive functions throughout youth. The analysis demonstrates improved predictive accuracy and uncovers crucial anatomical features and essential neural connections, deepening our understanding of brain structure and function. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# In-Context Learning を用いたモデリング操作の合成トレース生成に向けて
Towards Synthetic Trace Generation of Modeling Operations using In-Context Learning Approach ( http://arxiv.org/abs/2408.14259v1 ) ライセンス: Link先を確認 | Vittoriano Muttillo, Claudio Di Sipio, Riccardo Rubei, Luca Berardinelli, MohammadHadi Dehghani, | (参考訳) モデル駆動ソフトウェアエンジニアリング(MDE)では、正確なソフトウェアモデルの作成が不可欠である。
しかし、複雑なシステムのモデリングは、深いアプリケーションドメイン知識を必要とするエラーを起こしやすいタスクである。
過去10年間で、関連するモデリング操作を提供することで、学術的および工業的実践者を支援するために、いくつかの自動化技術が提案されている。
それでもこれらの技術は、プライバシーの問題などいくつかの要因のために利用できない大量のトレーニングデータを必要としている。
大規模言語モデル(LLM)の出現は、最先端のアプローチはまだモデリング操作の生成をサポートしていないが、合成データの生成をサポートすることができる。
このギャップを埋めるために、イベントログのモデリング、インテリジェントなモデリングアシスタント、LLMを用いたモデリング操作の生成を組み合わせた概念的フレームワークを提案する。
特に、アーキテクチャは、設計者がシステムを指定するのを助け、その操作をグラフィカルなモデリング環境内で記録し、関連する操作を自動的に推奨する、モデリングコンポーネントから構成される。
さらに、現在利用可能な最も顕著なLCMに言及することで、モデリングイベントの全く新しいデータセットを生成する。
概念実証として、欧州の異なるプロジェクトにおける産業用ユースケースで使用される既存のモデリングツールのセットを用いて、提案したフレームワークをインスタンス化する。
提案手法を評価するため,提案手法はまず,提案手法を基礎とした距離計測手法を用いて,現実的なモデリング操作を生成するためのLLMの能力を評価する。
そして,実世界の産業モデリングアーティファクトを考慮し,推奨業務を評価する。
本研究は,人為的操作を考慮した場合の総合的精度が高いにもかかわらず,LLMがモデリングイベントを生成可能であることを示す。
Producing accurate software models is crucial in model-driven software engineering (MDE). However, modeling complex systems is an error-prone task that requires deep application domain knowledge. In the past decade, several automated techniques have been proposed to support academic and industrial practitioners by providing relevant modeling operations. Nevertheless, those techniques require a huge amount of training data that cannot be available due to several factors, e.g., privacy issues. The advent of large language models (LLMs) can support the generation of synthetic data although state-of-the-art approaches are not yet supporting the generation of modeling operations. To fill the gap, we propose a conceptual framework that combines modeling event logs, intelligent modeling assistants, and the generation of modeling operations using LLMs. In particular, the architecture comprises modeling components that help the designer specify the system, record its operation within a graphical modeling environment, and automatically recommend relevant operations. In addition, we generate a completely new dataset of modeling events by telling on the most prominent LLMs currently available. As a proof of concept, we instantiate the proposed framework using a set of existing modeling tools employed in industrial use cases within different European projects. To assess the proposed methodology, we first evaluate the capability of the examined LLMs to generate realistic modeling operations by relying on well-founded distance metrics. Then, we evaluate the recommended operations by considering real-world industrial modeling artifacts. Our findings demonstrate that LLMs can generate modeling events even though the overall accuracy is higher when considering human-based operations. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# アフリカ系アメリカ人の英語を話す自己教師型音声表現
Self-supervised Speech Representations Still Struggle with African American Vernacular English ( http://arxiv.org/abs/2408.14262v1 ) ライセンス: Link先を確認 | Kalvin Chang, Yi-Hui Chou, Jiatong Shi, Hsuan-Ming Chen, Nicole Holliday, Odette Scharenborg, David R. Mortensen, | (参考訳) アフリカン・アメリカン・ヴァーナクル・イングリッシュ (AAVE) の話者に対するASRシステムの性能の過小評価は、十分に文書化された現象であり、これら品種のスティグマティゼーションを強化するものである。
AAVEとメインストリーム・アメリカン・イングリッシュ(MAE)のASR性能のギャップを埋めることができるかどうかを検討する。
我々はこれらの2種類のゼロショット自動音声認識(ASR)に対して、4つのSSLモデル(wav2vec 2.0, HuBERT, WavLM, XLS-R)を評価し、これらのモデルがAAVEに対する性能バイアスを持続することを発見した。
さらに、これらのモデルは、AAVEのより音韻学的および形態論的特徴を持つ発話における単語誤り率が高い。
SSL音声モデルが低資源品種のASRの改善に成功しているにもかかわらず、SSL事前トレーニングだけではAAVEとMAEのギャップを埋めることはできない。
私たちのコードはhttps://github.com/cmu-llab/s3m-aave.comで公開されています。
Underperformance of ASR systems for speakers of African American Vernacular English (AAVE) and other marginalized language varieties is a well-documented phenomenon, and one that reinforces the stigmatization of these varieties. We investigate whether or not the recent wave of Self-Supervised Learning (SSL) speech models can close the gap in ASR performance between AAVE and Mainstream American English (MAE). We evaluate four SSL models (wav2vec 2.0, HuBERT, WavLM, and XLS-R) on zero-shot Automatic Speech Recognition (ASR) for these two varieties and find that these models perpetuate the bias in performance against AAVE. Additionally, the models have higher word error rates on utterances with more phonological and morphosyntactic features of AAVE. Despite the success of SSL speech models in improving ASR for low resource varieties, SSL pre-training alone may not bridge the gap between AAVE and MAE. Our code is publicly available at https://github.com/cmu-llab/s3m-aave. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# HyperSBINN: 効率的な薬物心安全評価のためのハイパーネットワーク強化システム生物学インフォームドニューラルネットワーク
HyperSBINN: A Hypernetwork-Enhanced Systems Biology-Informed Neural Network for Efficient Drug Cardiosafety Assessment ( http://arxiv.org/abs/2408.14266v1 ) ライセンス: Link先を確認 | Inass Soukarieh, Gerhard Hessler, Hervé Minoux, Marcel Mohr, Friedemann Schmidt, Jan Wenzel, Pierre Barbillon, Hugo Gangloff, Pierre Gloaguen, | (参考訳) システム毒性学における数学的モデリングは、医薬品が心臓の健康に及ぼす影響を包括的に理解することを可能にする。
しかし、これらのモデルの複雑さは、初期の薬物発見における広範囲の応用を制限する。
本稿では,メタラーニング手法とシステム生物学情報ニューラルネットワーク(SBINN)を組み合わせることで,心臓活動電位のパラメータ化モデルを構築する新しい手法を提案する。
提案手法であるHyperSBINNは, 種々の化合物が心活動電位に及ぼす影響を予測し, 従来の微分方程式解法よりも高速であることを示す。
我々のモデルは、限られたデータと複雑なパラメータ化微分方程式でシナリオを効率的に処理する。
HyperSBINNモデルは、PD90値の予測において堅牢な性能を示し、心電気生理学をモデル化し、前臨床薬開発に寄与する信頼性の高いツールとしての可能性を示している。
このフレームワークは、複雑な生物学的システムをシミュレートし理解するためのスケーラブルで効率的なソリューションを提供する、計算モデリングの進歩を表している。
Mathematical modeling in systems toxicology enables a comprehensive understanding of the effects of pharmaceutical substances on cardiac health. However, the complexity of these models limits their widespread application in early drug discovery. In this paper, we introduce a novel approach to solving parameterized models of cardiac action potentials by combining meta-learning techniques with Systems Biology-Informed Neural Networks (SBINNs). The proposed method, HyperSBINN, effectively addresses the challenge of predicting the effects of various compounds at different concentrations on cardiac action potentials, outperforming traditional differential equation solvers in speed. Our model efficiently handles scenarios with limited data and complex parameterized differential equations. The HyperSBINN model demonstrates robust performance in predicting APD90 values, indicating its potential as a reliable tool for modeling cardiac electrophysiology and aiding in preclinical drug development. This framework represents an advancement in computational modeling, offering a scalable and efficient solution for simulating and understanding complex biological systems. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# 1ビットFQT:完全量子化トレーニングの限界を1ビットに
1-Bit FQT: Pushing the Limit of Fully Quantized Training to 1-bit ( http://arxiv.org/abs/2408.14267v1 ) ライセンス: Link先を確認 | Chang Gao, Jianfei Chen, Kang Zhao, Jiaqi Wang, Liping Jing, | (参考訳) フル量子化トレーニング(FQT)は、アクティベーション、ウェイト、勾配をより低い精度に定量化することで、ディープニューラルネットワークのトレーニングを加速する。
FQTの極限(達成可能な最小精度)を探索するため、1ビットFQTの最初の試みを行う。
本稿では、AdamとSGDに基づくFQTの理論解析を行い、勾配分散がFQTの収束に影響を与えることを明らかにした。
これらの理論的結果に基づいて,アクティベーション・グラディエント・プルーニング(AGP)戦略を導入する。
この戦略は、情報的勾配を減らし、勾配の分散を緩和するために残りの勾配の数値的精度を高めることによって勾配の不均一性を利用する。
さらに、重み勾配とアクティベーション勾配の計算に異なる量子化戦略を利用するサンプルチャネルジョイント量子化(SCQ)を提案し、低ビット幅ハードウェアとの親和性を確保する。
最後に,アルゴリズムをデプロイするフレームワークを提案する。
複数のデータセット上でVGGNet-16とResNet-18を微調整する場合,本アルゴリズムはサンプルごとの量子化に比べて平均精度が6%向上する。
さらに、トレーニングのスピードアップは、完全精度のトレーニングに比べて最大5.13倍に達する。
Fully quantized training (FQT) accelerates the training of deep neural networks by quantizing the activations, weights, and gradients into lower precision. To explore the ultimate limit of FQT (the lowest achievable precision), we make a first attempt to 1-bit FQT. We provide a theoretical analysis of FQT based on Adam and SGD, revealing that the gradient variance influences the convergence of FQT. Building on these theoretical results, we introduce an Activation Gradient Pruning (AGP) strategy. The strategy leverages the heterogeneity of gradients by pruning less informative gradients and enhancing the numerical precision of remaining gradients to mitigate gradient variance. Additionally, we propose Sample Channel joint Quantization (SCQ), which utilizes different quantization strategies in the computation of weight gradients and activation gradients to ensure that the method is friendly to low-bitwidth hardware. Finally, we present a framework to deploy our algorithm. For fine-tuning VGGNet-16 and ResNet-18 on multiple datasets, our algorithm achieves an average accuracy improvement of approximately 6%, compared to per-sample quantization. Moreover, our training speedup can reach a maximum of 5.13x compared to full precision training. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# 線形波動と非線形波動の散乱理論の新しいパラダイム:再検討と開問題
A New Paradigm For Scattering Theory of Linear And Nonlinear Waves: Review And Open Problem ( http://arxiv.org/abs/2408.14269v1 ) ライセンス: Link先を確認 | Avy Soffer, | (参考訳) 一般の相互作用項とデータを用いた分散方程式と双曲方程式の研究に統一的なアプローチを提供する散乱理論の最近の進歩について概説する。
これらの方程式は、NLS、NLKG、NLW方程式と同様に時間依存ポテンシャルを含む。
さらに、散乱および逆散乱におけるその意義と将来的な応用について、一連のオープンな問題について論じる。
I present a review of the recent advancements in scattering theory, which provides a unified approach to studying dispersive and hyperbolic equations with general interaction terms and data. These equations encompass time-dependent potentials, as well as NLS, NLKG, and NLW equations. Additionally, I discuss a series of open problems, along with their significance and potential future applications in scattering and inverse scattering. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# 画素ワイドデータに依存しない信頼性のあるマルチモーダル医用画像から画像への変換
Reliable Multi-modal Medical Image-to-image Translation Independent of Pixel-wise Aligned Data ( http://arxiv.org/abs/2408.14270v1 ) ライセンス: Link先を確認 | Langrui Zhou, Guang Li, | (参考訳) 現在の主流のマルチモーダル医療画像から画像への変換法には矛盾がある。
優れた性能を持つ改善された手法は、モデル最適化を制限するためにピクセルワイドなトレーニングデータに依存している。
しかし,画素対応のマルチモーダル医用画像データセットの取得は困難である。
教師なしの方法はペアデータなしで訓練できるが、信頼性は保証できない。
現在、画素ワイドなデータを必要とせず、信頼性の高い翻訳結果を生成できるマルチモーダルな医用画像画像画像変換法は存在しない。
本研究の目的は、画素ワイド・アライメント・データ(MIIA)に依存しない新しい医用画像から画像への変換モデルを開発することである。
提案モデルでは,マルチモーダルな医用画像登録モジュールとマルチモーダルな誤認識検出モジュールから構成される事前抽出ネットワークを用いて,誤認識誤りのあるトレーニングデータから画素レベルの事前情報を最大範囲まで抽出する。
抽出した事前情報を用いて、教師なしサイクル一貫性GANモデルの最適化を制約し、その解空間を制限し、ジェネレータの性能と信頼性を向上させるために正規化項を構築する。
我々は、異なるミスアライメントエラーと2つのよく整列したデータセットを含む6つのデータセットを使用して、MITIAモデルをトレーニングした。
その後,提案手法を他の6種類の画像から画像への翻訳手法と比較した。
定量的解析と定性的視覚検査の両方の結果から,MITIAは,非整合データと整合データの両方において,競合する最先端手法と比較して優れた性能を発揮することが示された。
The current mainstream multi-modal medical image-to-image translation methods face a contradiction. Supervised methods with outstanding performance rely on pixel-wise aligned training data to constrain the model optimization. However, obtaining pixel-wise aligned multi-modal medical image datasets is challenging. Unsupervised methods can be trained without paired data, but their reliability cannot be guaranteed. At present, there is no ideal multi-modal medical image-to-image translation method that can generate reliable translation results without the need for pixel-wise aligned data. This work aims to develop a novel medical image-to-image translation model that is independent of pixel-wise aligned data (MITIA), enabling reliable multi-modal medical image-to-image translation under the condition of misaligned training data. The proposed MITIA model utilizes a prior extraction network composed of a multi-modal medical image registration module and a multi-modal misalignment error detection module to extract pixel-level prior information from training data with misalignment errors to the largest extent. The extracted prior information is then used to construct a regularization term to constrain the optimization of the unsupervised cycle-consistent GAN model, restricting its solution space and thereby improving the performance and reliability of the generator. We trained the MITIA model using six datasets containing different misalignment errors and two well-aligned datasets. Subsequently, we compared the proposed method with six other state-of-the-art image-to-image translation methods. The results of both quantitative analysis and qualitative visual inspection indicate that MITIA achieves superior performance compared to the competing state-of-the-art methods, both on misaligned data and aligned data. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# 量子連想記憶の理論的枠組み
Theoretical framework for quantum associative memories ( http://arxiv.org/abs/2408.14272v1 ) ライセンス: Link先を確認 | Adrià Labay-Mora, Eliana Fiorelli, Roberta Zambrini, Gian Luca Giorgi, | (参考訳) 連想メモリ(Associative memory)とは、メモリと入力を関連付け、劣化したパターンの復元を目標とする能力である。
古典的な物理系、例えば、誘引子力学が安定解に収束するニューラルネットワークにおいて、集中的に研究されている。
量子領域へのいくつかの拡張が最近報告され、異なる特徴が示されている。
本研究では、オープン量子システムダイナミクスに基づく量子連想メモリの包括的なフレームワークを開発し、既存のモデルを比較し、連想メモリタスクを実行する理論的前提条件を特定し、異なる形式で拡張する。
古典システムに対する記憶パターン数の指数関数的増加を実現するマップを導出する。
我々は,量子連想メモリの動作において,対称性と消散の重要な役割を担っている。
我々の理論的分析は、量子パターンと古典パターンの両方、直交記憶と非直交記憶、定常状態と準安定状態、および測定に基づく出力に対処できる可能性を示している。
最後に、量子エラー補正や量子メモリのような、量子コンピューティングと機械学習の実践的な応用のための新しい道を開く。
Associative memory refers to the ability to relate a memory with an input and targets the restoration of corrupted patterns. It has been intensively studied in classical physical systems, as in neural networks where an attractor dynamics settles on stable solutions. Several extensions to the quantum domain have been recently reported, displaying different features. In this work, we develop a comprehensive framework for a quantum associative memory based on open quantum system dynamics, which allows us to compare existing models, identify the theoretical prerequisites for performing associative memory tasks, and extend it in different forms. The map that achieves an exponential increase in the number of stored patterns with respect to classical systems is derived. We establish the crucial role of symmetries and dissipation in the operation of quantum associative memory. Our theoretical analysis demonstrates the feasibility of addressing both quantum and classical patterns, orthogonal and non-orthogonal memories, stationary and metastable operating regimes, and measurement-based outputs. Finally, this opens up new avenues for practical applications in quantum computing and machine learning, such as quantum error correction or quantum memories. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# Trust, but Verify: オープンソースソフトウェアプロジェクトにおけるセキュリティ脆弱性の緩和における開発者の振る舞いの評価
Trust, but Verify: Evaluating Developer Behavior in Mitigating Security Vulnerabilities in Open-Source Software Projects ( http://arxiv.org/abs/2408.14273v1 ) ライセンス: Link先を確認 | Janislley Oliveira de Sousa, Bruno Carvalho de Farias, Eddie Batista de Lima Filho, Lucas Carvalho Cordeiro, | (参考訳) 本研究では,オープンソースソフトウェア(OSS)プロジェクトの依存関係の脆弱性,これらとプロジェクト全体のセキュリティの関係,開発者の行動やプラクティスが緩和に与える影響について検討する。
OSSプロジェクトの分析を通じて、ポインタの参照遅延や配列境界違反など、古いあるいはメンテナンスされていない依存関係の一般的な問題を特定し、重大なセキュリティリスクを生じさせました。
我々はまた、正式な検証対象レポートに対する開発者の反応を調査し、潜在的な問題を偽陽性として否定する傾向があり、見落としの脆弱性につながる可能性があることを指摘した。
この結果から, 直接依存関係の削減と, セキュリティ記録の充実したライブラリの優先順位付けが, ソフトウェアセキュリティの状況改善に有効な戦略であることが示唆された。
特に,本研究の結果,4つの脆弱性が修正され,緩和戦略の有効性が示された。
This study investigates vulnerabilities in dependencies of sampled open-source software (OSS) projects, the relationship between these and overall project security, and how developers' behaviors and practices influence their mitigation. Through analysis of OSS projects, we have identified common issues in outdated or unmaintained dependencies, including pointer dereferences and array bounds violations, that pose significant security risks. We have also examined developer responses to formal verifier reports, noting a tendency to dismiss potential issues as false positives, which can lead to overlooked vulnerabilities. Our results suggest that reducing the number of direct dependencies and prioritizing well-established libraries with strong security records are effective strategies for enhancing the software security landscape. Notably, four vulnerabilities were fixed as a result of this study, demonstrating the effectiveness of our mitigation strategies. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# 大規模言語モデルを用いたイベントベースサーベイランスのエピデミック情報抽出
Epidemic Information Extraction for Event-Based Surveillance using Large Language Models ( http://arxiv.org/abs/2408.14277v1 ) ライセンス: Link先を確認 | Sergio Consoli, Peter Markov, Nikolaos I. Stilianakis, Lorenzo Bertolini, Antonio Puertas Gallardo, Mario Ceresa, | (参考訳) 本稿では,一般的なProMEDやWHO Disease Outbreak Newsなどの非構造化ビッグデータソースを効果的に解釈するために,人工知能と大規模言語モデル(LLMs)の力を利用する,伝染病監視の新しいアプローチを提案する。
いくつかのLSMを探索し、貴重な流行情報を抽出する能力を評価する。
また,複数のオープンソース LLM を組み込んだアンサンブルモデルの性能試験を行った。
以上の結果から, LLMは, パンデミック・モデリングと予測の精度とスケジュールを大幅に向上させ, 将来のパンデミック・イベントを管理するための有望なツールを提供する可能性が示唆された。
This paper presents a novel approach to epidemic surveillance, leveraging the power of Artificial Intelligence and Large Language Models (LLMs) for effective interpretation of unstructured big data sources, like the popular ProMED and WHO Disease Outbreak News. We explore several LLMs, evaluating their capabilities in extracting valuable epidemic information. We further enhance the capabilities of the LLMs using in-context learning, and test the performance of an ensemble model incorporating multiple open-source LLMs. The findings indicate that LLMs can significantly enhance the accuracy and timeliness of epidemic modelling and forecasting, offering a promising tool for managing future pandemic events. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# 目に見えないクラスから点雲再構成のための局所パターンのモジュラー化学習
Learning Local Pattern Modularization for Point Cloud Reconstruction from Unseen Classes ( http://arxiv.org/abs/2408.14279v1 ) ライセンス: Link先を確認 | Chao Chen, Zhizhong Han, Yu-Shen Liu, | (参考訳) 単一の2D画像から見えないクラスの3D点雲を再構築することは困難である。
オブジェクト中心座標系の代わりに、現在の手法は、ビューア中心座標系において見えないクラスから3次元形状を再構成するために、目に見えないクラスで学んだグローバル事前を一般化した。
しかし、再建精度と解釈性は依然として改善が望まれている。
そこで本研究では, 局所パターンのモジュラー化を学習し, 3次元形状を立体的に再構築する手法を提案する。
我々の洞察は、クラスに依存しない局所的な事前学習を、オブジェクト指向座標系において容易に一般化することである。
具体的には、ローカルな事前学習は、ローカルなパターンのモジュール化を学習し、カスタマイズするプロセスを通じて行われる。
この過程で我々はまず,各クラスにまたがる形状の任意の領域を表すために,オブジェクト中心座標系の基本となる局所領域のパターン集合を学習する。
そして、学習した局所パターンを用いて、初期再構成された形状で各領域をモジュール化する。
これに基づいて、より詳細な情報で再構成をすることで、入力画像を用いて局所パターンのモジュール化をカスタマイズする。
本手法では,多数のパターンや,セグメンテーション監視やカメラポーズなどの追加情報を必要とすることなく,オブジェクト中心座標系における未知のクラスから高忠実度点雲を再構成することができる。
広範に用いられているベンチマーク実験の結果,本手法は未知のクラスからの形状に対する最先端の復元精度を達成できることが示唆された。
コードはhttps://github.com/chenchao15/Unseen.comから入手できる。
It is challenging to reconstruct 3D point clouds in unseen classes from single 2D images. Instead of object-centered coordinate system, current methods generalized global priors learned in seen classes to reconstruct 3D shapes from unseen classes in viewer-centered coordinate system. However, the reconstruction accuracy and interpretability are still eager to get improved. To resolve this issue, we introduce to learn local pattern modularization for reconstructing 3D shapes in unseen classes, which achieves both good generalization ability and high reconstruction accuracy. Our insight is to learn a local prior which is class-agnostic and easy to generalize in object-centered coordinate system. Specifically, the local prior is learned via a process of learning and customizing local pattern modularization in seen classes. During this process, we first learn a set of patterns in local regions, which is the basis in the object-centered coordinate system to represent an arbitrary region on shapes across different classes. Then, we modularize each region on an initially reconstructed shape using the learned local patterns. Based on that, we customize the local pattern modularization using the input image by refining the reconstruction with more details. Our method enables to reconstruct high fidelity point clouds from unseen classes in object-centered coordinate system without requiring a large number of patterns or any additional information, such as segmentation supervision or camera poses. Our experimental results under widely used benchmarks show that our method achieves the state-of-the-art reconstruction accuracy for shapes from unseen classes. The code is available at https://github.com/chenchao15/Unseen. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# コンピュータビジョンにおける潜在表現の不確かさ
Uncertainties of Latent Representations in Computer Vision ( http://arxiv.org/abs/2408.14281v1 ) ライセンス: Link先を確認 | Michael Kirchhof, | (参考訳) 不確かさの定量化は、信頼できる機械学習の鍵となる柱である。
マシンラーニングモデルが十分な証拠を検出した場合にのみ予測したり、異常なデータを破棄したり、エラーがインバウンドする可能性がある場合に警告を発したりするなど、安全でない入力の下で安全な反応を可能にする。
これは特に、医療画像の分類や自動運転車のような安全に重要な分野において重要である。
性能ベンチマークのスコアがますます高くなるような不確実性定量化手法が提案されているにもかかわらず、不確実性推定は実際からしばしば排除される。
多くの機械学習プロジェクトは、不確実性見積なしで得られる事前訓練された潜在表現から始まる。
不確実性は、自分自身で実践者によって訓練される必要がある。
この論文は、事前訓練されたコンピュータビジョンモデルの潜在表現ベクトルにそれらを追加することで、不確実性推定を容易にアクセスできるようにする。
モンテカルロ情報NCE(MCInfoNCE)や損失予測など,確率と決定理論に根ざしたアプローチの提案に加えて,理論的および実証的な問題についても検討する。
観測不可能な潜在表現に関するこれらの観測不可能な不確実性は、確実に正しいことを示す。
また,不確実性認識型表現学習(URL)のベンチマークを行い,観測対象と観測対象とを比較した。
最後に,ゼロショット方式で未知のデータセットに転送する大規模コンピュータビジョンモデルにおける軽量表現の不確かさを事前訓練するために,本研究の成果をコンパイルする。
我々の発見は、潜伏変数に対する現在の不確実性に関する理論的理解を前進させるだけでなく、将来の研究者のフィールド内外における不確実性定量化へのアクセスを促進し、簡単だが信頼できる機械学習を可能にしている。
Uncertainty quantification is a key pillar of trustworthy machine learning. It enables safe reactions under unsafe inputs, like predicting only when the machine learning model detects sufficient evidence, discarding anomalous data, or emitting warnings when an error is likely to be inbound. This is particularly crucial in safety-critical areas like medical image classification or self-driving cars. Despite the plethora of proposed uncertainty quantification methods achieving increasingly higher scores on performance benchmarks, uncertainty estimates are often shied away from in practice. Many machine learning projects start from pretrained latent representations that come without uncertainty estimates. Uncertainties would need to be trained by practitioners on their own, which is notoriously difficult and resource-intense. This thesis makes uncertainty estimates easily accessible by adding them to the latent representation vectors of pretrained computer vision models. Besides proposing approaches rooted in probability and decision theory, such as Monte-Carlo InfoNCE (MCInfoNCE) and loss prediction, we delve into both theoretical and empirical questions. We show that these unobservable uncertainties about unobservable latent representations are indeed provably correct. We also provide an uncertainty-aware representation learning (URL) benchmark to compare these unobservables against observable ground-truths. Finally, we compile our findings to pretrain lightweight representation uncertainties on large-scale computer vision models that transfer to unseen datasets in a zero-shot manner. Our findings do not only advance the current theoretical understanding of uncertainties over latent variables, but also facilitate the access to uncertainty quantification for future researchers inside and outside the field, enabling straightforward but trustworthy machine learning. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# 結晶中の個々の核スピンの全マイクロ波読み出し、分光、動的偏光
All-microwave readout, spectroscopy, and dynamic polarization of individual nuclear spins in a crystal ( http://arxiv.org/abs/2408.14282v1 ) ライセンス: Link先を確認 | J. Travesedo, J. O'Sullivan, L. Pallegoix, Z. W. Huang, P. Hogan, P. Goldner, T. Chaneliere, S. Bertaina, D. Esteve, P. Abgrall, D. Vion, E. Flurin, P. Bertet, | (参考訳) 核磁気共鳴分光の感度を単一のスピンレベルに押し上げることは、化学と生物学に大きな影響を与え、強力な研究努力の目標である。
個々の核スピンは、個々の電子常磁性系への超微細結合によって検出され、それ自体は光学的または電気的手段によって測定されている。
しかしながら、これらの方法は適切な光遷移や電子-スピン-電荷変換機構が存在する場合にのみ適用でき、現在ではより普遍的な方法が欠落している。
ここでは、近隣の$\mathrm{Er}^{3+}$イオンがミリケルビン温度でマイクロ波光子計によって検出される超微細相互作用により、CaWO$_4$結晶中の個々の$^{183}\mathrm{W}$核スピンの分光計測を行った。
核スピン状態のリアルタイム量子ジャンプは、個々の性質の証明である。
我々は、$^{183}$W--Er$^{3+}$結合系のゼロ量子遷移と2量子遷移をマイクロ波駆動することで、単一スピンELDOR検出NMR分光を行う。
これらの遷移を繰り返すことによって、単スピン固体効果の動的核分極も達成できる。
マイクロ波駆動とマイクロ波検出にのみ焦点をあてて、ここで報告された方法は原則として、常磁性不純物に結合されたあらゆる核スピンに適用される。
Pushing the sensitivity of nuclear magnetic resonance spectroscopy to the single spin level would have a major impact in chemistry and biology and is the goal of intense research efforts. Individual nuclear spins have been detected via their hyperfine coupling to an individual electronic paramagnetic system, itself measured by optical or electrical means. These methods are however only applicable when suitable optical transitions or electron-spin-to-charge conversion mechanisms exist, and a more universal method is currently lacking. Here, we report spectroscopic measurements of individual $^{183}\mathrm{W}$ nuclear spins in a CaWO$_4$ crystal via their hyperfine interaction with a neighboring $\mathrm{Er}^{3+}$ ion detected by microwave photon counting at millikelvin temperatures. We observe real-time quantum jumps of the nuclear spin state, a proof of their individual nature. We perform single-spin ELDOR-detected NMR spectroscopy by microwave driving the zero- and double-quantum transitions of the $^{183}$W--Er$^{3+}$ coupled system. By repeated driving of these transitions, we also achieve single-spin solid-effect dynamical nuclear polarization. Relying exclusively on microwave driving and microwave detection, the methods reported here apply in principle to any nuclear spin coupled to a paramagnetic impurity, and therefore open the way to single-nuclear-spin spectroscopy in a large class of samples. | 翻訳日:2024-08-27 13:51:27 公開日:2024-08-26 |
# スペイン語と英語の自然言語生成における予測可能性と因果関係
Predictability and Causality in Spanish and English Natural Language Generation ( http://arxiv.org/abs/2408.14283v1 ) ライセンス: Link先を確認 | Andrea Busto-Castiñeira, Francisco J. González-Castaño, Silvia García-Méndez, Francisco de Arriba-Pérez, | (参考訳) 近年、ディープラーニング技術の進歩により、自然言語生成(NLG)の分野が強化されている。
それにもかかわらず、これらの新しいデータ集約手法は、主要なトレーニングデータセットが英語であるため、NLGの言語依存の相違を導入している。
また、ほとんどのニューラルなNLGシステムはデコーダのみの変換言語モデルを使用しており、英語ではうまく機能するが、他の言語を念頭に置いては設計されていない。
本研究は, より厳密な単語順序, 主題の省略, あるいは相対的な節に対するアタッチメントの好みが異なる対象言語における生成バイアスを導入する可能性があるという仮説から逸脱し, 対象言語以外の言語生成戦略の方が望ましい可能性がある。
本稿では、まず、英語とスペイン語の因果的言語モデリングと非因果的言語モデリング、異なる文法構造を持つ2言語、および15億以上の話者と0.5億以上の話者を比較した。
この目的のために,両言語における文法カテゴリー分布の平均因果関係と非因果関係条件のエントロピーを,情報理論の先駆的アプローチとして定義する。
双方の言語における自然テキストソース(トレーニングデータなど)の評価は、スペイン語における平均的な非因果条件エントロピーと英語における低因果条件エントロピーを明らかにしている。
この実験によると、スペイン語は非因果関係から英語よりも予測可能である。
そこで, テキスト生成実験に条件付き相対エントロピー指標を適用し, 英語の因果NLG, スペイン語の非因果NLGを用いて, 最高の性能が得られるという知見を得た。
これらの知見は、双方向トランスフォーマー言語モデルを用いたスペイン語におけるNLGのさらなる研究を支援する。
In recent years, the field of Natural Language Generation (NLG) has been boosted by the recent advances in deep learning technologies. Nonetheless, these new data-intensive methods introduce language-dependent disparities in NLG as the main training data sets are in English. Also, most neural NLG systems use decoder-only (causal) transformer language models, which work well for English, but were not designed with other languages in mind. In this work we depart from the hypothesis that they may introduce generation bias in target languages with less rigid word ordering, subject omission, or different attachment preferences for relative clauses, so that for these target languages other language generation strategies may be more desirable. This paper first compares causal and non-causal language modeling for English and Spanish, two languages with different grammatical structures and over 1.5 billion and 0.5 billion speakers, respectively. For this purpose, we define a novel metric of average causal and non-causal context-conditioned entropy of the grammatical category distribution for both languages as an information-theoretic a priori approach. The evaluation of natural text sources (such as training data) in both languages reveals lower average non-causal conditional entropy in Spanish and lower causal conditional entropy in English. According to this experiment, Spanish is more predictable than English given a non-causal context. Then, by applying a conditional relative entropy metric to text generation experiments, we obtain as insights that the best performance is respectively achieved with causal NLG in English, and with non-causal NLG in Spanish. These insights support further research in NLG in Spanish using bidirectional transformer language models. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# 騒々しいラベルで学ぶための代替リプレイ(動画あり)
May the Forgetting Be with You: Alternate Replay for Learning with Noisy Labels ( http://arxiv.org/abs/2408.14284v1 ) ライセンス: Link先を確認 | Monica Millunzi, Lorenzo Bonicelli, Angelo Porrello, Jacopo Credi, Petter N. Kolm, Simone Calderara, | (参考訳) 特に、ストリーミングデータ環境における新しい知識を同化するために、現代のAIシステムが特に要求される。
この問題を解決するために、継続学習(CL)のほとんどのアプローチは、過去のデータの制限されたバッファの再生に依存している。
しかし、人間のアノテーションが時間制限によって制約されたり、ウェブからデータが自動的に収集されたりする現実世界のシナリオでノイズの存在は、これらの戦略を脆弱にすることが多い。
本研究では, メモリバッファ内のクリーン, 複雑, ノイズの明確な区別を忘れないように, 代替体験再生(Alternate Experience Replay, AER)を導入することで, CLのノイズラベル(CLN)下での問題に対処する。
この考え方は、以前に学習されたデータ分布にほとんど適合しない複雑な、またはラベルのつかない例は、ほとんど忘れられがちである、というものである。
このような分離の利点を把握すべく、AERに非対称平衡サンプリング(ABS)を装備し、過去から関連するサンプルを保持しつつ、現在のタスクに純度を優先する新しいサンプル選択戦略を提案する。
得られたバッファの精度と純度の両方の観点から,提案手法の有効性を検証した結果,既存の損失に基づく浄化戦略に対して,精度が4.71%向上することがわかった。
コードはhttps://github.com/aimagelab/mammoth.comで入手できる。
Forgetting presents a significant challenge during incremental training, making it particularly demanding for contemporary AI systems to assimilate new knowledge in streaming data environments. To address this issue, most approaches in Continual Learning (CL) rely on the replay of a restricted buffer of past data. However, the presence of noise in real-world scenarios, where human annotation is constrained by time limitations or where data is automatically gathered from the web, frequently renders these strategies vulnerable. In this study, we address the problem of CL under Noisy Labels (CLN) by introducing Alternate Experience Replay (AER), which takes advantage of forgetting to maintain a clear distinction between clean, complex, and noisy samples in the memory buffer. The idea is that complex or mislabeled examples, which hardly fit the previously learned data distribution, are most likely to be forgotten. To grasp the benefits of such a separation, we equip AER with Asymmetric Balanced Sampling (ABS): a new sample selection strategy that prioritizes purity on the current task while retaining relevant samples from the past. Through extensive computational comparisons, we demonstrate the effectiveness of our approach in terms of both accuracy and purity of the obtained buffer, resulting in a remarkable average gain of 4.71% points in accuracy with respect to existing loss-based purification strategies. Code is available at https://github.com/aimagelab/mammoth. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# リー代数構造に基づく非Iterative Disentangled Unitary Coupled-Cluster
Non-Iterative Disentangled Unitary Coupled-Cluster based on Lie-algebraic structure ( http://arxiv.org/abs/2408.14289v1 ) ライセンス: Link先を確認 | Mohammad Haidar, Olivier Adjoua, Siwar Baddredine, Alberto Peruzzo, Jean-Philip Piquemal, | (参考訳) 非定常的な性質のため、固定されたユニタリカップリング・クラスタ(UCC) ans\atze は、量子コンピュータ上の前回路測定を避けるために量子化学の変分量子固有解法(VQE)計算を行うのに魅力的である。しかし、UCCと強い相関を持つシステムにおいて、化学精度を達成するには、三重項以上の高次フェルミオン励起を更に含み、回路深度を増大させる必要がある。我々は、特定の$"k"の「量子ビット」励起セットに基づいて、固定かつ非定常なユニタリカップリング・クラスタコンパクトアンサッツである$k$-NI-DUCCを導入し、フェルミオン型励起の必要をなくす。
これらの要素はリー代数構造を利用して線型にスケールする($n$は量子ビットの数である)。
重要な励起は、全ての対称性の強制を含む特定の選択基準によってスクリーニングされ、堅牢な発電機セットの構築が保証される。
NI-DUCCは$"k"$の積を$\mathcal{O}(n)$-反エルミティア・パウリ作用素の指数関数の積とし、各作用素は長さ$p$を持つ。
これにより、2ビットのCNOTゲート回路が小さくなり、ハードウェア実装に適した$\mathcal{O}(knp)$となる。
LiH, H$_6$およびBeH$_2$で試験したところ、NI-DUCC-VQEは平衡からかなり逸脱した分子に対しても化学的精度と急激な収束を達成する。
ハードウェア効率が良く、VQE最適化のステップを大幅に減らしながら、特定の層で正確なフル構成相互作用のエネルギーソリューションに到達する。
NI-DUCC-VQEはADAPT-VQEライクな反復アルゴリズムの勾配測定ボトルネックに効果的に対処するが、$\mathcal{O}(n)$の励起集合を構成する計算コストは、量子ビットの数とともに指数関数的に増加する。
最大20量子ビットを処理可能なジェネレータセットを構築するための最初の実装を提供し、効率の観点について議論する。
Due to their non-iterative nature, fixed Unitary Coupled-Cluster (UCC) ans\"atze are attractive for performing quantum chemistry Variational Quantum Eigensolver (VQE) computations as they avoid pre-circuit measurements on a quantum computer. However, achieving chemical accuracy for strongly correlated systems with UCC requires further inclusion of higher-order fermionic excitations beyond triples increasing circuit depth. We introduce $k$-NI-DUCC, a fixed and Non-iterative Disentangled Unitary Coupled-Cluster compact ansatz, based on specific $"k"$ sets of "qubit" excitations, eliminating the needs for fermionic-type excitations. These elements scale linearly ($\mathcal{O}(n)$) by leveraging Lie algebraic structures, with $n$ being the number of qubits. The key excitations are screened through specific selection criteria, including the enforcement of all symmetries, to ensure the construction of a robust set of generators. NI-DUCC employs $"k"$ products of the exponential of $\mathcal{O}(n)$- anti-Hermitian Pauli operators, where each operator has a length $p$. This results in a fewer two-qubit CNOT gates circuit, $\mathcal{O}(knp)$, suitable for hardware implementations. Tested on LiH, H$_6$ and BeH$_2$, NI-DUCC-VQE achieves both chemical accuracy and rapid convergence even for molecules deviating significantly from equilibrium. It is hardware-efficient, reaching the exact Full Configuration Interaction energy solution at specific layers, while reducing significantly the VQE optimization steps. While NI-DUCC-VQE effectively addresses the gradient measurement bottleneck of ADAPT-VQE-like iterative algorithms, the classical computational cost of constructing the $\mathcal{O}(n)$ set of excitations increases exponentially with the number of qubits. We provide a first implementation for constructing the generators' set able to handle up to 20 qubits and discuss the efficiency perspectives. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# LLM修正スパムメールの検出におけるベイズスパムフィルタの有効性の検討
Investigating the Effectiveness of Bayesian Spam Filters in Detecting LLM-modified Spam Mails ( http://arxiv.org/abs/2408.14293v1 ) ライセンス: Link先を確認 | Malte Josten, Torben Weis, | (参考訳) スパムとフィッシングは、サイバーセキュリティにおける重要な脅威であり、セキュリティインシデントの90%近くを担っている。
これらの攻撃が高度化するにつれて、堅牢な防御機構の必要性が増す。
広く採用されているオープンソースのSpamAssassinのようなベイズスパムフィルターはこの戦いに欠かせないツールだ。
しかし、ChatGPTのような大規模言語モデル(LLM)の出現は、新しい課題を提示している。
これらのモデルは強力でアクセスしやすいだけでなく、安価に利用することができる。従来のスパムフィルターを避けるための高度なスパムメールを作成する際の悪用に対する懸念が高まっている。
本研究は,LLM修正メールコンテンツに対するSpamAssassinの堅牢性と有効性を評価することを目的とする。
この脆弱性をテストするパイプラインを開発しました。
我々のパイプラインは、GPT-3.5 Turboを用いてスパムメールを修正し、これらの修正メールを正しく分類するSpamAssassinの機能を評価する。
結果は、スパムアサシンがLLMに修正されたスパムメールの73.7%を正当と誤分類したことを示している。
対照的に、より単純な辞書置換攻撃では、最大成功率はわずか0.4%であった。
これらの知見は、特に攻撃の費用効率(メール1通あたり0.17セント)を考えると、LLM修正スパムによる重大な脅威を浮き彫りにしている。
本稿では,現在のスパムフィルタの脆弱性とサイバーセキュリティ対策の継続的な改善の必要性について重要な知見を提供する。
Spam and phishing remain critical threats in cybersecurity, responsible for nearly 90% of security incidents. As these attacks grow in sophistication, the need for robust defensive mechanisms intensifies. Bayesian spam filters, like the widely adopted open-source SpamAssassin, are essential tools in this fight. However, the emergence of large language models (LLMs) such as ChatGPT presents new challenges. These models are not only powerful and accessible, but also inexpensive to use, raising concerns about their misuse in crafting sophisticated spam emails that evade traditional spam filters. This work aims to evaluate the robustness and effectiveness of SpamAssassin against LLM-modified email content. We developed a pipeline to test this vulnerability. Our pipeline modifies spam emails using GPT-3.5 Turbo and assesses SpamAssassin's ability to classify these modified emails correctly. The results show that SpamAssassin misclassified up to 73.7% of LLM-modified spam emails as legitimate. In contrast, a simpler dictionary-replacement attack showed a maximum success rate of only 0.4%. These findings highlight the significant threat posed by LLM-modified spam, especially given the cost-efficiency of such attacks (0.17 cents per email). This paper provides crucial insights into the vulnerabilities of current spam filters and the need for continuous improvement in cybersecurity measures. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# LLM-3Dプリンティング:3Dプリンティングの監視と制御のための大規模言語モデル
LLM-3D Print: Large Language Models To Monitor and Control 3D Printing ( http://arxiv.org/abs/2408.14307v1 ) ライセンス: Link先を確認 | Yayati Jadhav, Peter Pak, Amir Barati Farimani, | (参考訳) 業界 4.0 はデジタル化を推進し、追加製造業(AM)へのパラダイムシフトによって製造に革命をもたらした。
AM技術であるFused Deposition Modeling (FDM)は、層間押出による最小限の材料廃棄物による、高度にカスタマイズされたコスト効率の高い製品の作成を可能にする。
しかし、物質押出法が誤認されるには、製品の品質を著しく損なう可能性のある欠陥を検出し、軽減するための専門家の介入が必要となることが多い。
自動エラー検出と機械学習モデルが存在するが、様々な3Dプリンタのセットアップ、ファームウェア、センサーにまたがる一般化性は制限されており、ディープラーニング手法は広範なラベル付きデータセットを必要とし、スケーラビリティと適応性を妨げている。
これらの課題に対処するために,3Dプリンタとともに学習済みのLarge Language Models(LLM)を利用して,印刷欠陥を検出し,対処するプロセス監視・制御フレームワークを提案する。
LLMは、各層またはプリントセグメントから取得した画像を分析し、障害モードを特定し、関連するパラメータをプリンタに問い合わせることで、印刷品質を評価する。
その後、修正アクションプランを生成し実行します。
さまざまなAM専門知識を持つエンジニアのコントロールグループと比較し,欠陥を特定する上で,提案フレームワークの有効性を検証する。
LLMをベースとしたエージェントは, 押出, ストリング, ワープ, 層密着などの一般的な3次元印刷誤差を正確に識別するだけでなく, これらの故障の原因となるパラメータを効果的に決定し, 人的介入を必要とせずに自動補正する。
Industry 4.0 has revolutionized manufacturing by driving digitalization and shifting the paradigm toward additive manufacturing (AM). Fused Deposition Modeling (FDM), a key AM technology, enables the creation of highly customized, cost-effective products with minimal material waste through layer-by-layer extrusion, posing a significant challenge to traditional subtractive methods. However, the susceptibility of material extrusion techniques to errors often requires expert intervention to detect and mitigate defects that can severely compromise product quality. While automated error detection and machine learning models exist, their generalizability across diverse 3D printer setups, firmware, and sensors is limited, and deep learning methods require extensive labeled datasets, hindering scalability and adaptability. To address these challenges, we present a process monitoring and control framework that leverages pre-trained Large Language Models (LLMs) alongside 3D printers to detect and address printing defects. The LLM evaluates print quality by analyzing images captured after each layer or print segment, identifying failure modes and querying the printer for relevant parameters. It then generates and executes a corrective action plan. We validated the effectiveness of the proposed framework in identifying defects by comparing it against a control group of engineers with diverse AM expertise. Our evaluation demonstrated that LLM-based agents not only accurately identify common 3D printing errors, such as inconsistent extrusion, stringing, warping, and layer adhesion, but also effectively determine the parameters causing these failures and autonomously correct them without any need for human intervention. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# ANN分断細胞の論理的解釈
Logic interpretations of ANN partition cells ( http://arxiv.org/abs/2408.14314v1 ) ライセンス: Link先を確認 | Ingo Schmitt, | (参考訳) フィードフォワード人工ニューラルネットワーク(ANN)を用いて解くバイナリ分類問題を考える。
ANNをReLU層と複数のリニア層(畳み込み、サマリプール、あるいは完全に接続された)で構成する。
ネットワークは高い精度でトレーニングされたと仮定する。
多くの提案されたアプローチにもかかわらず、人工ニューラルネットワークの解釈は人間にとって難しいままである。
新しい解釈法として,単純なANNと論理のブリッジを構築する。
その結果、強力なツールセットの論理を用いて、ANNのセマンティクスを分析し、操作することができる。
これを実現するために、ANNの入力空間を複数のネットワーク分割セルに分解する。
各ネットワーク分割セルは、入力値を分類出力値にマッピングする線形結合を表す。
論理式を用いて分割セルの線形写像を解釈するために,簡単なANNの入力として最小値を提案する。
0 に分類されたオブジェクトから 1 に分類されたオブジェクトを分離するための相互作用パターンを表す論理式を導出する。
論理表現の解釈を容易にするために,2進論理木として提示する。
Consider a binary classification problem solved using a feed-forward artificial neural network (ANN). Let the ANN be composed of a ReLU layer and several linear layers (convolution, sum-pooling, or fully connected). We assume the network was trained with high accuracy. Despite numerous suggested approaches, interpreting an artificial neural network remains challenging for humans. For a new method of interpretation, we construct a bridge between a simple ANN and logic. As a result, we can analyze and manipulate the semantics of an ANN using the powerful tool set of logic. To achieve this, we decompose the input space of the ANN into several network partition cells. Each network partition cell represents a linear combination that maps input values to a classifying output value. For interpreting the linear map of a partition cell using logic expressions, we suggest minterm values as the input of a simple ANN. We derive logic expressions representing interaction patterns for separating objects classified as 1 from those classified as 0. To facilitate an interpretation of logic expressions, we present them as binary logic trees. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# スマートシティアプリケーションにおけるリンク型オープンデータの利用障壁克服
Overcoming the Barriers of Using Linked Open Data in Smart City Applications ( http://arxiv.org/abs/2408.14315v1 ) ライセンス: Link先を確認 | Javier Conde, Andres Munoz-Arcentales, Johnny Choque, Gabriel Huecas, Álvaro Alonso, | (参考訳) スマートシティアプリケーションにおいてLinked Open Dataを使用することのメリットと課題について検討し、他のスマートシティアプリケーションのリファレンスガイドとして機能する公道自転車システムにおいて、オープンソースで高度にスケーラブルなツールセットを提案する。
We study the benefits and challenges of using Linked Open Data in smart city applications and propose a set of open source, highly scalable tools within the case of a public-rental bicycle system, which can act as a reference guide for other smart city applications. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# 大規模言語モデルの時代におけるクレーム検証:サーベイ
Claim Verification in the Age of Large Language Models: A Survey ( http://arxiv.org/abs/2408.14317v1 ) ライセンス: Link先を確認 | Alphaeus Dmonte, Roland Oruche, Marcos Zampieri, Prasad Calyam, Isabelle Augenstein, | (参考訳) インターネット上で利用できる膨大な量のデータと、手動のクレームと事実検証の面倒な作業が組み合わさって、自動クレーム検証システムの開発への関心が高まっている。
この課題に対して、ディープラーニングとトランスフォーマーベースのモデルが長年にわたって提案されてきた。
LLM(Large Language Models)の導入と、いくつかのNLPタスクにおけるそれらの優れたパフォーマンスにより、我々は、検索拡張生成(RAG)のような新しい手法の使用とともに、LLMベースの検証を主張するアプローチが急増している。
本稿では,LSMを用いた最近のクレーム検証フレームワークについて概説する。
これらのフレームワークで使用されるクレーム検証パイプラインのさまざまなコンポーネントについて,検索,プロンプト,微調整といった一般的なアプローチを詳細に記述する。
最後に,この課題のために作成した英語データセットについて述べる。
The large and ever-increasing amount of data available on the Internet coupled with the laborious task of manual claim and fact verification has sparked the interest in the development of automated claim verification systems. Several deep learning and transformer-based models have been proposed for this task over the years. With the introduction of Large Language Models (LLMs) and their superior performance in several NLP tasks, we have seen a surge of LLM-based approaches to claim verification along with the use of novel methods such as Retrieval Augmented Generation (RAG). In this survey, we present a comprehensive account of recent claim verification frameworks using LLMs. We describe the different components of the claim verification pipeline used in these frameworks in detail including common approaches to retrieval, prompting, and fine-tuning. Finally, we describe publicly available English datasets created for this task. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# NV中心アンサンブル型磁気センサのブループリント-ダイヤモンドセンサの精密特性評価
Blueprint for NV center ensemble based magnetometer: precise diamond sensor material characterization ( http://arxiv.org/abs/2408.14318v1 ) ライセンス: Link先を確認 | Jixing Zhang, Michael Kuebler, Cheuk Kit Cheung, Magnus Benke, Andrej Denisenko, Jens Anders, Emilio Corcione, Cristina Tarín Sauer, Junichi Isoya, Chen Zhang, Joerg Wrachtrup, | (参考訳) ダイヤモンド中の窒素空孔(NV)中心は、量子センシングのような様々な量子応用の候補である。
高感度のNV系磁気センサは、高密度のNV中心と長い電子スピンの脱落時間を持つダイヤモンドサンプルを必要とする。
本研究では,NV中心アンサンブルの電子スピン脱落時間を決定するための系統的測定法を提案し,NV-NV相互作用,ひずみ分布,$^{13}C$核スピン,P1電子スピンなど,様々な源からの脱落時間に対する寄与を分析する。
提案手法の有効性を一連の高性能ダイヤモンド試料に示すとともに,劣化源の包括的理解を提供し,NVベースの量子センシングアプリケーションの最適化を可能にする。
The nitrogen-vacancy (NV) center in diamond is a promising candidate for various quantum applications, such as quantum sensing. High sensitivity in NV-based magnetic sensing requires a diamond sample with a high density of NV centers and a long electron spin dephasing time. In this work, we propose a systematic measurement method for determining the electron spin dephasing time of NV center ensembles and analyze the contributions to the dephasing time from various sources, including NV-NV interactions, strain distribution, $^{13}C$ nuclear spin, and P1 electron spin. We demonstrate the effectiveness of our method on a series of high-performance diamond samples and provide a comprehensive understanding of dephasing sources, enabling the optimization of NV-based quantum sensing applications. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# 原始情報を用いた学習における知識伝達の再考
Rethinking Knowledge Transfer in Learning Using Privileged Information ( http://arxiv.org/abs/2408.14319v1 ) ライセンス: Link先を確認 | Danil Provodin, Bram van den Akker, Christina Katsimerou, Maurits Kaptein, Mykola Pechenizkiy, | (参考訳) 教師付き機械学習において、特権情報(英: privileged information, PI)とは、推論時に利用できないが、訓練期間中に利用できる情報である。
特権情報(LUPI)を用いた学習の研究は、PIで取得した知識をPIなしで推論できるモデルに転送することを目的としている。
この余分な情報によって、結果のモデルが改善されるはずだ。
しかし、PIを用いて知識を伝達する能力を支持する決定的な理論的または経験的な証拠を見つけることは困難である。
本稿では,既存の理論解析の前提となる仮定を批判的に検討し,LUPIがいつ動作するべきかという理論的根拠はほとんどないと主張している。
我々はLUPI法を解析し、既存の研究の実証的リスクの明らかな改善がPIに直接影響しないことを明らかにする。
代わりに、これらの改善は、PIに誤って帰属するモデル設計におけるデータセットの異常や修正に由来することが多い。
様々なアプリケーション領域に対する実験により、最先端のLUPIアプローチがPIからの知識を効果的に伝達できないことがさらに証明された。
そこで我々は,意図しない帰納的バイアスを避けるため,PIと共同作業する場合に注意を喚起する。
In supervised machine learning, privileged information (PI) is information that is unavailable at inference, but is accessible during training time. Research on learning using privileged information (LUPI) aims to transfer the knowledge captured in PI onto a model that can perform inference without PI. It seems that this extra bit of information ought to make the resulting model better. However, finding conclusive theoretical or empirical evidence that supports the ability to transfer knowledge using PI has been challenging. In this paper, we critically examine the assumptions underlying existing theoretical analyses and argue that there is little theoretical justification for when LUPI should work. We analyze LUPI methods and reveal that apparent improvements in empirical risk of existing research may not directly result from PI. Instead, these improvements often stem from dataset anomalies or modifications in model design misguidedly attributed to PI. Our experiments for a wide variety of application domains further demonstrate that state-of-the-art LUPI approaches fail to effectively transfer knowledge from PI. Thus, we advocate for practitioners to exercise caution when working with PI to avoid unintended inductive biases. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# ベイズワイドニューラルネットワークのための関数空間MCMC
Function-Space MCMC for Bayesian Wide Neural Networks ( http://arxiv.org/abs/2408.14325v1 ) ライセンス: Link先を確認 | Lucia Pezzetti, Stefano Favaro, Stefano Pelucchetti, | (参考訳) ベイズニューラルネットワークは、複雑な予測モデルにおける不確実性を理解するための魅力的なフレームワークを提供する。
本稿では, ベイズニューラルネットワークの幅が大きくなるにつれて, 重みの再パラメータ化後部分布から, プリコンディション付きクランク・ニコソン法とそのランゲヴィン法を用いて検討する。
無限次元環境におけるロバスト性に加えて,ネットワークの幅が大きくなるにつれて提案手法の受容確率が1に近づくことを証明する。
さらに,アンダーダムのランゲヴィン・モンテカルロ,プレコンディションのクランク・ニコソン,プリコンディションのクランク・ニコソン・ランゲヴィンの混合速度が,実世界のいくつかのケースにおけるネットワーク幅の変化の影響について検討・比較した。
その結果,ベイズニューラルネットワークの広い構成において,予備条件付きクランク・ニコソン法により,より効率的な後方分布のサンプリングが可能であることが示唆された。
Bayesian Neural Networks represent a fascinating confluence of deep learning and probabilistic reasoning, offering a compelling framework for understanding uncertainty in complex predictive models. In this paper, we investigate the use of the preconditioned Crank-Nicolson algorithm and its Langevin version to sample from the reparametrised posterior distribution of the weights as the widths of Bayesian Neural Networks grow larger. In addition to being robust in the infinite-dimensional setting, we prove that the acceptance probabilities of the proposed methods approach 1 as the width of the network increases, independently of any stepsize tuning. Moreover, we examine and compare how the mixing speeds of the underdamped Langevin Monte Carlo, the preconditioned Crank-Nicolson and the preconditioned Crank-Nicolson Langevin samplers are influenced by changes in the network width in some real-world cases. Our findings suggest that, in wide Bayesian Neural Networks configurations, the preconditioned Crank-Nicolson method allows for more efficient sampling of the reparametrised posterior distribution, as evidenced by a higher effective sample size and improved diagnostic results compared with the other analysed algorithms. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# 機械学習を用いた子宮における胎児脳のストリーライントラクトグラフィー
Streamline tractography of the fetal brain in utero with machine learning ( http://arxiv.org/abs/2408.14326v1 ) ライセンス: Link先を確認 | Weide Liu, Camilo Calixto, Simon K. Warfield, Davood Karimi, | (参考訳) 拡散強調MRI(Diffusion-weighted magnetic resonance imaging、dMRI)は、白質の消化管と脳の構造的接続を研究するための唯一の非侵襲的ツールである。
これらの評価は、白色物質繊維を表す仮想の流れを再構築するトラクトグラフィー技術に大きく依存している。
成人脳のトラクトグラフィー手法の改善に多くの努力が注がれてきたが、胎児脳のトラクトグラフィーは無視されている。
胎児のトラクトグラフィーは、低dMRI信号品質、未熟で急速に発達する脳構造、および参照データの微妙さにより、特有の困難に直面している。
本研究は胎児のトラクトグラフィーにおける最初の機械学習モデルである。
モデル入力は,(1)dMRI信号に適合する拡散テンソルから推定される繊維配向,(2)最近の伝播の方向,(3)大脳皮質のキーポイントまでの距離として符号化されるグローバル空間情報,(4)組織セグメンテーション情報,(5)アトラスで供給される期待される局所繊維配向に関する事前情報からなる。
局所テンソル推定誤差を軽減するために、拡散テンソル画像の電流点周辺の大きな空間コンテキストを畳み込みニューラルネットワークモジュールを用いて符号化する。
また、モデル入力には、仮説次点における拡散テンソル情報が含まれている。
解剖学的に制約されたトラクトグラフィーに基づくフィルタリング規則を不明瞭な流線形に適用する。
妊娠23週から36週の無作為な11検体で,手作業による全脳胎児体幹画像の訓練を行い,訓練モデルの妥当性を検証した。
その結果,提案手法はすべての評価トラクタに対して優れた性能を示すことがわかった。
本手法は, 子宮の正常脳と異常脳の発達を研究するために, dMRIの能力を著しく向上させることができる。
Diffusion-weighted magnetic resonance imaging (dMRI) is the only non-invasive tool for studying white matter tracts and structural connectivity of the brain. These assessments rely heavily on tractography techniques, which reconstruct virtual streamlines representing white matter fibers. Much effort has been devoted to improving tractography methodology for adult brains, while tractography of the fetal brain has been largely neglected. Fetal tractography faces unique difficulties due to low dMRI signal quality, immature and rapidly developing brain structures, and paucity of reference data. This work presents the first machine learning model for fetal tractography. The model input consists of five sources of information: (1) Fiber orientation, inferred from a diffusion tensor fit to the dMRI signal; (2) Directions of recent propagation steps; (3) Global spatial information, encoded as distances to keypoints in the brain cortex; (4) Tissue segmentation information; and (5) Prior information about the expected local fiber orientations supplied with an atlas. In order to mitigate the local tensor estimation error, a large spatial context around the current point in the diffusion tensor image is encoded using convolutional and attention neural network modules. Moreover, the diffusion tensor information at a hypothetical next point is included in the model input. Filtering rules based on anatomically constrained tractography are applied to prune implausible streamlines. We trained the model on manually-refined whole-brain fetal tractograms and validated the trained model on an independent set of 11 test scans with gestational ages between 23 and 36 weeks. Results show that our proposed method achieves superior performance across all evaluated tracts. The new method can significantly advance the capabilities of dMRI for studying normal and abnormal brain development in utero. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# PHEVA: プライバシー保護のための人間中心のビデオ異常検出データセット
PHEVA: A Privacy-preserving Human-centric Video Anomaly Detection Dataset ( http://arxiv.org/abs/2408.14329v1 ) ライセンス: Link先を確認 | Ghazal Alinezhad Noghre, Shanle Yao, Armin Danesh Pazho, Babak Rahimi Ardabili, Vinit Katariya, Hamed Tabkhi, | (参考訳) PHEVA - プライバシー保護のための人間中心の倫理ビデオ異常検出データセット。
PHEVAは、画素情報を取り除き、非識別の人的アノテーションのみを提供することで、個人識別可能な情報を保護している。
データセットには7つの屋内/屋外シーンが含まれており、1つの新しいコンテキスト固有のカメラを備え、前回の最大のデータセットに比べて5倍のポーズアノテートフレームを提供する。
本研究は,PHEVAの最先端手法を,実世界の展開に関する洞察を提供するために,初めて異常検出に用いられる10%エラーレート(10ER)を含む,包括的なメトリクスセットを用いてベンチマークする。
この種の最初のものとして、PHEVAは継続学習ベンチマークを導入して、従来のトレーニングと実世界のデプロイメントのギャップを埋め、82.14%のケースで従来の手法よりも優れたモデルを提供している。
データセットはhttps://github.com/TeCSAR-UNCC/PHEVA.gitで公開されている。
PHEVA, a Privacy-preserving Human-centric Ethical Video Anomaly detection dataset. By removing pixel information and providing only de-identified human annotations, PHEVA safeguards personally identifiable information. The dataset includes seven indoor/outdoor scenes, featuring one novel, context-specific camera, and offers over 5x the pose-annotated frames compared to the largest previous dataset. This study benchmarks state-of-the-art methods on PHEVA using a comprehensive set of metrics, including the 10% Error Rate (10ER), a metric used for anomaly detection for the first time providing insights relevant to real-world deployment. As the first of its kind, PHEVA bridges the gap between conventional training and real-world deployment by introducing continual learning benchmarks, with models outperforming traditional methods in 82.14% of cases. The dataset is publicly available at https://github.com/TeCSAR-UNCC/PHEVA.git. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# 保険における機械学習の自動化
Automated Machine Learning in Insurance ( http://arxiv.org/abs/2408.14331v1 ) ライセンス: Link先を確認 | Panyi Dong, Zhiyu Quan, | (参考訳) 機械学習(ML)は、アクチュアリ研究や保険産業の応用で人気を博している。
しかし、ほとんどのMLタスクのパフォーマンスは、データ前処理、モデル選択、ハイパーパラメータ最適化に大きく依存している。
Automated Machine Learning (AutoML)は、MLタスクの完全なライフサイクルを自動補完することを目的としており、人間の介入や監督なしに最先端のMLモデルを提供する。
本稿では,ドメイン知識や事前経験のないユーザが,数行のコードを書くだけで,堅牢で労力のかかるMLデプロイメントを実現するためのAutoMLワークフローを紹介する。
提案されたAutoMLは、データ前処理のバランシングステップ、アンサンブルパイプライン、カスタマイズされた損失関数などの機能を備えた、保険アプリケーションに特化している。
これらの特徴は、一般的な保険データセットのバランスの取れない性質を含む、保険領域のユニークな課題に対処するために設計されている。
完全なコードとドキュメントはGitHubリポジトリから入手できる。
(https://github.com/PanyiDong/InsurAutoML)
Machine Learning (ML) has gained popularity in actuarial research and insurance industrial applications. However, the performance of most ML tasks heavily depends on data preprocessing, model selection, and hyperparameter optimization, which are considered to be intensive in terms of domain knowledge, experience, and manual labor. Automated Machine Learning (AutoML) aims to automatically complete the full life-cycle of ML tasks and provides state-of-the-art ML models without human intervention or supervision. This paper introduces an AutoML workflow that allows users without domain knowledge or prior experience to achieve robust and effortless ML deployment by writing only a few lines of code. This proposed AutoML is specifically tailored for the insurance application, with features like the balancing step in data preprocessing, ensemble pipelines, and customized loss functions. These features are designed to address the unique challenges of the insurance domain, including the imbalanced nature of common insurance datasets. The full code and documentation are available on the GitHub repository. (https://github.com/PanyiDong/InsurAutoML) | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# 1層変圧器は誘導ヘッドタスクを解くのに失敗する
One-layer transformers fail to solve the induction heads task ( http://arxiv.org/abs/2408.14332v1 ) ライセンス: Link先を確認 | Clayton Sanford, Daniel Hsu, Matus Telgarsky, | (参考訳) 単純な通信複雑性の議論は、2層変圧器のサイズが2層変圧器に十分な大きさより指数関数的に大きくない限り、1層変圧器が誘導ヘッドタスクを解くことができないことを証明している。
A simple communication complexity argument proves that no one-layer transformer can solve the induction heads task unless its size is exponentially larger than the size sufficient for a two-layer transformer. | 翻訳日:2024-08-27 13:41:26 公開日:2024-08-26 |
# 部分観測可能性を考慮した等変強化学習
Equivariant Reinforcement Learning under Partial Observability ( http://arxiv.org/abs/2408.14336v1 ) ライセンス: Link先を確認 | Hai Nguyen, Andrea Baisero, David Klee, Dian Wang, Robert Platt, Christopher Amato, | (参考訳) 帰納バイアスを組み込むことは、サンプル効率のよいソリューションで挑戦的なロボット学習領域に取り組むための有望なアプローチである。
本稿では,対称性が効果的な学習に有用な帰納的バイアスとなる部分観測可能な領域を同定する。
具体的には、特定のグループ対称性に関する同値をニューラルネットワークに符号化することにより、アクター・クリティカルな強化学習エージェントは、過去のソリューションを、関連するシナリオで再利用することができる。
その結果、同変エージェントはサンプル効率と最終性能の点で非同変アプローチを著しく上回り、シミュレーションや実ハードウェアにおける様々なロボットタスクの実験を通して実証した。
Incorporating inductive biases is a promising approach for tackling challenging robot learning domains with sample-efficient solutions. This paper identifies partially observable domains where symmetries can be a useful inductive bias for efficient learning. Specifically, by encoding the equivariance regarding specific group symmetries into the neural networks, our actor-critic reinforcement learning agents can reuse solutions in the past for related scenarios. Consequently, our equivariant agents outperform non-equivariant approaches significantly in terms of sample efficiency and final performance, demonstrated through experiments on a range of robotic tasks in simulation and real hardware. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# cvc5における量子化器選択のための機械学習
Machine Learning for Quantifier Selection in cvc5 ( http://arxiv.org/abs/2408.14338v1 ) ライセンス: Link先を確認 | Jan Jakubův, Mikoláš Janota, Jelle Piepenbrock, Josef Urban, | (参考訳) 本研究では,一階量子化問題に対する最先端のSMT解法を,量子化器選択の効率的な機械学習ガイダンスにより大幅に改善する。
量子化器はSMTにとって重要な課題であり、技術的には決定不能の源である。
提案手法では,どの量化器をインスタンス化すべきか,どちらがそうでないかを,解法者に知らせる効率的な機械学習モデルを訓練する。
それぞれの量化器は複数回インスタンス化され、解法が進むにつれて活性量化器の集合が変化する。
そこで我々は,ML予測器を複数回起動する。
これを効率的にするために、勾配向上決定木に基づく高速MLモデルを用いる。
この手法を最先端のcvc5 SMTソルバに統合し,Mizar Mathematical Libraryから収集した大量の一階問題の学習後,システムのホールドアウトセット性能を大幅に向上させる。
In this work we considerably improve the state-of-the-art SMT solving on first-order quantified problems by efficient machine learning guidance of quantifier selection. Quantifiers represent a significant challenge for SMT and are technically a source of undecidability. In our approach, we train an efficient machine learning model that informs the solver which quantifiers should be instantiated and which not. Each quantifier may be instantiated multiple times and the set of the active quantifiers changes as the solving progresses. Therefore, we invoke the ML predictor many times, during the whole run of the solver. To make this efficient, we use fast ML models based on gradient boosting decision trees. We integrate our approach into the state-of-the-art cvc5 SMT solver and show a considerable increase of the system's holdout-set performance after training it on a large set of first-order problems collected from the Mizar Mathematical Library. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# ConceptMix: 制御困難を伴う合成画像生成ベンチマーク
ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty ( http://arxiv.org/abs/2408.14339v1 ) ライセンス: Link先を確認 | Xindi Wu, Dingli Yu, Yangsibo Huang, Olga Russakovsky, Sanjeev Arora, | (参考訳) 構成性は、テキスト記述から複数の概念を理解し、組み合わせる能力の反映として、テキスト間画像(T2I)モデルにおいて重要な機能である。
既存の構成能力の評価は、人間の設計したテキストプロンプトや固定テンプレートに大きく依存し、その多様性と複雑さを制限し、識別力の低下を招いている。
本稿では,T2Iモデルの構成生成能力を自動評価する,スケーラブルで制御可能な,カスタマイズ可能なベンチマークであるConceptMixを提案する。
これは2つの段階で行われる。
まず、ConceptMixはテキストプロンプトを生成する: 具体的には、視覚概念のカテゴリ(例えば、オブジェクト、色、形状、空間関係)を使用して、ランダムにオブジェクトとkタプルのビジュアル概念をサンプリングし、次にGPT4-oを使用して、これらのサンプルされた概念に基づいて画像生成のためのテキストプロンプトを生成する。
第2に、ConceptMixはこれらのプロンプトに応答して生成された画像を評価する。具体的には、視覚的概念毎に1つの質問を生成して、強いVLMを使用して、実際に画像に現れるk概念の数をチェックします。
ConceptMix を k の値の増大を利用して T2I モデルの多種多様な集合(プロパティとオープンモデル)に導入することにより、私たちの ConceptMix が以前のベンチマークよりも高い識別能力を持つことを示す。
具体的には、ConceptMixは、いくつかのモデル、特にオープンモデルのパフォーマンスが、kの増加とともに劇的に低下することを明らかにした。
重要なのは、広く使用されているトレーニングデータセットにおいて、迅速な多様性の欠如に関する洞察を提供することだ。
さらに,ConceptMixの設計を検証し,自動階調と人間の判断を比較した。
将来のT2Iモデル開発をガイドすることを期待しています。
Compositionality is a critical capability in Text-to-Image (T2I) models, as it reflects their ability to understand and combine multiple concepts from text descriptions. Existing evaluations of compositional capability rely heavily on human-designed text prompts or fixed templates, limiting their diversity and complexity, and yielding low discriminative power. We propose ConceptMix, a scalable, controllable, and customizable benchmark which automatically evaluates compositional generation ability of T2I models. This is done in two stages. First, ConceptMix generates the text prompts: concretely, using categories of visual concepts (e.g., objects, colors, shapes, spatial relationships), it randomly samples an object and k-tuples of visual concepts, then uses GPT4-o to generate text prompts for image generation based on these sampled concepts. Second, ConceptMix evaluates the images generated in response to these prompts: concretely, it checks how many of the k concepts actually appeared in the image by generating one question per visual concept and using a strong VLM to answer them. Through administering ConceptMix to a diverse set of T2I models (proprietary as well as open ones) using increasing values of k, we show that our ConceptMix has higher discrimination power than earlier benchmarks. Specifically, ConceptMix reveals that the performance of several models, especially open models, drops dramatically with increased k. Importantly, it also provides insight into the lack of prompt diversity in widely-used training datasets. Additionally, we conduct extensive human studies to validate the design of ConceptMix and compare our automatic grading with human judgement. We hope it will guide future T2I model development. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# Foundation Models for Music: A Survey
Foundation Models for Music: A Survey ( http://arxiv.org/abs/2408.14340v1 ) ライセンス: Link先を確認 | Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elio Quinton, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wehhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang, | (参考訳) 近年,大規模言語モデル (LLMs) や潜在拡散モデル (LDMs) といった基礎モデル (FMs) が音楽など様々な分野に多大な影響を与えている。
本総説では、表現学習、生成学習、マルチモーダル学習にまたがる、最先端(SOTA)事前学習モデルと音楽基礎モデルについて概観する。
まず,音楽産業における音楽の重要性を文脈化し,音楽におけるAIの進化を辿る。
ファンデーションモデルが対象とするモダリティを記述することにより、FM開発において多くの音楽表現が過小評価されていることを明らかにする。
そして,音楽理解,生成,医療応用におけるFMの可能性とともに,様々な音楽応用における従来の手法の汎用性の欠如に重点を置いている。
モデル事前学習のパラダイム、アーキテクチャの選択、トークン化、微調整の方法論、制御可能性の詳細を包括的に調べることで、命令チューニングやコンテキスト内学習、法則のスケーリング、創発的能力、そして長いシーケンスモデリングなど、十分に検討すべき重要なトピックを強調します。
専門のセクションでは、音楽エージェントへの洞察を提示し、データセットの徹底的な分析と、事前学習および下流タスクに不可欠な評価を添える。
最後に、倫理的考察の重要さを強調することによって、音楽におけるFM研究は、解釈可能性、透明性、人的責任、著作権問題といった問題にもっと焦点をあてるべきである、と提唱する。
本稿では,音楽分野における人間とAIの連携の軌跡を形成することを目的として,音楽分野におけるFMの今後の課題と動向について考察する。
In recent years, foundation models (FMs) such as large language models (LLMs) and latent diffusion models (LDMs) have profoundly impacted diverse sectors, including music. This comprehensive review examines state-of-the-art (SOTA) pre-trained models and foundation models in music, spanning from representation learning, generative learning and multimodal learning. We first contextualise the significance of music in various industries and trace the evolution of AI in music. By delineating the modalities targeted by foundation models, we discover many of the music representations are underexplored in FM development. Then, emphasis is placed on the lack of versatility of previous methods on diverse music applications, along with the potential of FMs in music understanding, generation and medical application. By comprehensively exploring the details of the model pre-training paradigm, architectural choices, tokenisation, finetuning methodologies and controllability, we emphasise the important topics that should have been well explored, like instruction tuning and in-context learning, scaling law and emergent ability, as well as long-sequence modelling etc. A dedicated section presents insights into music agents, accompanied by a thorough analysis of datasets and evaluations essential for pre-training and downstream tasks. Finally, by underscoring the vital importance of ethical considerations, we advocate that following research on FM for music should focus more on such issues as interpretability, transparency, human responsibility, and copyright issues. The paper offers insights into future challenges and trends on FMs for music, aiming to shape the trajectory of human-AI collaboration in the music realm. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# 重力波検出器試験質量の真と見かけの運動
True and apparent motion of gravitational-wave detector test masses ( http://arxiv.org/abs/2408.14341v1 ) ライセンス: Link先を確認 | Evan D. Hall, Kevin Kuns, | (参考訳) 現代の光学系では、機械の動きを探査し操作するために光の高度な量子力学的状態を用いる。
スクイーズ状態は現在、小さな外部力に対する重力波干渉計の感度を高めるために日常的に使われており、差動試験質量モード(arXiv:2102.12665)のフォノン占有数の達成可能な冷却を促進するために、同じ干渉計のフィードバックベースのトラップと減衰実験にも使用されている。
後者の文脈では、真のテスト質量運動を正確に説明し、損失のすべての源、フィードバック制御の効果、古典的な力と知覚ノイズの影響を組み込むことが最重要である。
我々は、光場の量子力学ノイズ(arxiv:2105.12052)の物理的に動機づけられた分解を拡大する、そのような説明を提供するために、2光子形式の中で作業する(arxiv:2105.12052)。
この分解は、実験的にアクセス可能なパラメータに根ざした洞察を、最低の職業数を達成するために使用されるべき最適に絞られた状態へと導く。
この定式化を、現在の重力波干渉計、LIGO A+、LIGO Voyager、Cosmic Explorer (CE)、CE Voyagerに適用し、捕捉された冷却発振器の帯域幅に匹敵する周波数範囲で1以下の占有数が可能であることを発見した。
また重力波検出器を用いた冷却実験の技術的諸問題についても論じる。
Modern optomechanical systems employ increasingly sophisticated quantum-mechanical states of light to probe and manipulate mechanical motion. Squeezed states are now used routinely to enhance the sensitivity of gravitational-wave interferometers to small external forces, and they are also used in feedback-based trapping and damping experiments on the same interferometers to enhance the achievable cooling of the the phonon occupation number of the differential test mass mode (arXiv:2102.12665). In this latter context, an accurate accounting of the true test mass motion, incorporating all sources of loss, the effect of feedback control, and the influence of classical force and sensing noises, is paramount. We work within the two-photon formalism to provide such an accounting, which extends a physically motivated decomposition of the quantum-mechanical noise of the light field (arxiv:2105.12052). This decomposition provides insight, rooted in experimentally accessible parameters, into the optimal squeezed state that should be employed to achieve the lowest occupation number. We apply this formalism to current and possible future gravitational-wave interferometers, LIGO A+, LIGO Voyager, Cosmic Explorer (CE), and CE Voyager, finding that occupation numbers below 1 are possible over a frequency range comparable to the bandwidth of the trapped and cooled oscillator. We also discuss several technical issues in cooling experiments with gravitational-wave detectors. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# ニホンマメの画像における樹輪方向の反復次境界検出ネットワークの簡単な解析
A Brief Analysis of the Iterative Next Boundary Detection Network for Tree Rings Delineation in Images of Pinus taeda ( http://arxiv.org/abs/2408.14343v1 ) ライセンス: Link先を確認 | Henry Marichal, Gregory Randall, | (参考訳) 本稿では, CVPR-2023でGillertらによって提案されたINBDネットワークについて述べるとともに, スマートフォン(UruDendroデータセット)で捉えたPinus Taeda断面のRGB画像におけるツリーリングの行列化への応用について検討する。
INBDネットワークは、まず背景、穴、リングの境界を分割する。
第2段階では、画像は極座標に変換され、リング境界は、ピットからバークへ反復的に分割される。
どちらのステージもU-Netアーキテクチャに基づいている。
評価セット上のFスコアは77.5、mARは0.540、ARANDは0.205である。
実験のコードはhttps://github.com/hmarichal93/mlbrief_inbd.comで公開されている。
This work presents the INBD network proposed by Gillert et al. in CVPR-2023 and studies its application for delineating tree rings in RGB images of Pinus taeda cross sections captured by a smartphone (UruDendro dataset), which are images with different characteristics from the ones used to train the method. The INBD network operates in two stages: first, it segments the background, pith, and ring boundaries. In the second stage, the image is transformed into polar coordinates, and ring boundaries are iteratively segmented from the pith to the bark. Both stages are based on the U-Net architecture. The method achieves an F-Score of 77.5, a mAR of 0.540, and an ARAND of 0.205 on the evaluation set. The code for the experiments is available at https://github.com/hmarichal93/mlbrief_inbd. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# 深層学習に基づくカメラトラップ画像の生態学的解析は、訓練データの品質とサイズに影響を及ぼす
Deep learning-based ecological analysis of camera trap images is impacted by training data quality and size ( http://arxiv.org/abs/2408.14348v1 ) ライセンス: Link先を確認 | Omiros Pantazis, Peggy Bevan, Holly Pringle, Guilherme Braga Ferreira, Daniel J. Ingram, Emily Madsen, Liam Thomas, Dol Raj Thanet, Thakur Silwal, Santosh Rayamajhi, Gabriel Brostow, Oisin Mac Aodha, Kate E. Jones, | (参考訳) カメラトラップからの大規模な野生生物画像収集は、生物多様性の監視に不可欠であり、種の豊かさ、占有率、活動パターンに関する洞察を提供する。
しかし、これらのデータの手作業による処理は時間を要するため、分析プロセスの妨げとなる。
これを解決するために、画像解析を自動化するためにディープニューラルネットワークが広く採用されている。
利用が増えているにもかかわらず、下流の生態指標に対するモデルトレーニングの決定の影響は依然として不明である。
ここでは,アフリカサバンナとアジア亜熱帯乾燥林のカメラトラップデータを分析し,専門家による種同定から得られた重要な生態指標と深層ニューラルネットワークから生成されたカメラトラップデータを比較した。
モデルアーキテクチャ, トレーニングデータノイズ, データセットサイズが, 種多様性, 占有率, 活動パターンなどの生態指標に与える影響を評価する。
その結果、モデルアーキテクチャは最小限の影響しか与えないが、大量のノイズとデータセットサイズがこれらの指標に大きく影響していることが判明した。
それでも、推定された生態指標はかなりのノイズに耐性があり、種ラベルで最大10%の誤差を許容し、大きく変化することなくトレーニングセットのサイズを50%削減する。
また、分類エラーのような従来のメトリクスは、必ずしも生態系のメトリクスを正確に測定するモデルの能力を表すものではないことも強調する。
我々は、深層ニューラルネットワーク予測から得られた生態指標が、専門家ラベルから算出した指標と密に一致し、探索された要因の変動に頑健なままである、と結論付けた。
しかし、ディープニューラルネットワークのトレーニング決定は下流の生態学的分析に影響を及ぼす可能性がある。
したがって、実践者は、興味のある生態指標を測定する能力に基づいて、大規模でクリーンなトレーニングセットの作成とディープニューラルネットワークソリューションの評価を優先すべきである。
Large wildlife image collections from camera traps are crucial for biodiversity monitoring, offering insights into species richness, occupancy, and activity patterns. However, manual processing of these data is time-consuming, hindering analytical processes. To address this, deep neural networks have been widely adopted to automate image analysis. Despite their growing use, the impact of model training decisions on downstream ecological metrics remains unclear. Here, we analyse camera trap data from an African savannah and an Asian sub-tropical dry forest to compare key ecological metrics derived from expert-generated species identifications with those generated from deep neural networks. We assess the impact of model architecture, training data noise, and dataset size on ecological metrics, including species richness, occupancy, and activity patterns. Our results show that while model architecture has minimal impact, large amounts of noise and reduced dataset size significantly affect these metrics. Nonetheless, estimated ecological metrics are resilient to considerable noise, tolerating up to 10% error in species labels and a 50% reduction in training set size without changing significantly. We also highlight that conventional metrics like classification error may not always be representative of a model's ability to accurately measure ecological metrics. We conclude that ecological metrics derived from deep neural network predictions closely match those calculated from expert labels and remain robust to variations in the factors explored. However, training decisions for deep neural networks can impact downstream ecological analysis. Therefore, practitioners should prioritize creating large, clean training sets and evaluate deep neural network solutions based on their ability to measure the ecological metrics of interest. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# 大規模言語モデルにおける汚染評価:LogProber法の導入
Assessing Contamination in Large Language Models: Introducing the LogProber method ( http://arxiv.org/abs/2408.14352v1 ) ライセンス: Link先を確認 | Nicolas Yax, Pierre-Yves Oudeyer, Stefano Palminteri, | (参考訳) 機械学習において、汚染とは、データテストがトレーニングセットにリークする状況を指す。
この問題は、大言語モデル(LLM)の性能評価に特に関係しており、一般的にはガーガントゥアンで訓練され、一般にはワールドワイドウェブから取り除かれた不透明でコーパスのコーパスである。
したがって, 汚染検出ツールの開発は, LLMの性能の進化を適切に, 適切に追跡することが重要である。
この分野での最近の研究は、心理学のアンケートで見られるような短いテキスト列の汚染の定量化には適していない。
本稿では,与えられた文中のトークン確率を用いて汚染を検出するアルゴリズムであるLogProberを紹介する。
第2部では,提案手法の限界について検討し,トークン確率の痕跡を残さずに,異なるトレーニング手法がモデルを汚染する方法について考察する。
In machine learning, contamination refers to situations where testing data leak into the training set. The issue is particularly relevant for the evaluation of the performance of Large Language Models (LLMs), which are generally trained on gargantuan, and generally opaque, corpora of text scraped from the world wide web. Developing tools to detect contamination is therefore crucial to be able to fairly and properly track the evolution of the performance of LLMs. Most recent works in the field are not tailored to quantify contamination on short sequences of text like we find in psychology questionnaires. In the present paper we introduce LogProber, a novel, efficient, algorithm that we show able to detect contamination using token probability in given sentences. In the second part we investigate the limitations of the method and discuss how different training methods can contaminate models without leaving traces in the token probabilities. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# SWE-bench-java: Javaのベンチマークを解決するGitHubの問題
SWE-bench-java: A GitHub Issue Resolving Benchmark for Java ( http://arxiv.org/abs/2408.14354v1 ) ライセンス: Link先を確認 | Daoguang Zan, Zhirong Huang, Ailun Yu, Shaoxin Lin, Yifan Shi, Wei Liu, Dong Chen, Zongshuai Qi, Hao Yu, Lei Yu, Dezhi Ran, Muhan Zeng, Bo Shen, Pan Bian, Guangtai Liang, Bei Guan, Pengjie Huang, Tao Xie, Yongji Wang, Qianxiang Wang, | (参考訳) GitHubの問題解決はソフトウェアエンジニアリングにおける重要な課題であり、最近、業界と学界の両方で大きな注目を集めている。
このタスクの中で、SWE-benchは、大きな言語モデル(LLM)の問題解決能力を評価するためにリリースされた。
しかし、業界に強い需要があるため、より多くのプログラミング言語をサポートすることも重要である。
マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。
データセットと,それに対応するDockerベースの評価環境とリーダボードを合わせて公開しています。
SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
よく知られているように、高品質な多言語ベンチマークの開発には時間がかかり、労力がかかるため、プルリクエストやコラボレーションを通じて、イテレーションと改善を加速し、完全に自動化されたプログラミングの道を開くことで、コントリビューションを歓迎します。
GitHub issue resolving is a critical task in software engineering, recently gaining significant attention in both industry and academia. Within this task, SWE-bench has been released to evaluate issue resolving capabilities of large language models (LLMs), but has so far only focused on Python version. However, supporting more programming languages is also important, as there is a strong demand in industry. As a first step toward multilingual support, we have developed a Java version of SWE-bench, called SWE-bench-java. We have publicly released the dataset, along with the corresponding Docker-based evaluation environment and leaderboard, which will be continuously maintained and updated in the coming months. To verify the reliability of SWE-bench-java, we implement a classic method SWE-agent and test several powerful LLMs on it. As is well known, developing a high-quality multi-lingual benchmark is time-consuming and labor-intensive, so we welcome contributions through pull requests or collaboration to accelerate its iteration and refinement, paving the way for fully automated programming. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# グループベース暗号における自己相似集団の縮約
Contracting Self-similar Groups in Group-Based Cryptography ( http://arxiv.org/abs/2408.14355v1 ) ライセンス: Link先を確認 | Delaram Kahrobaei, Arsalan Akram Malik, Dmytro Savchuk, | (参考訳) 本稿では,同時共役探索問題(SCSP)に基づく暗号スキームのプラットフォームとして,自己相似契約群を提案する。
これらのグループのクラスには、非線型であることが知られているグリゴルチャック群のような異常な例が含まれており、既存のSCSPに対する攻撃のいくつかは適用不可能である。
このクラスの群は、我々のアプローチにおいて重要な役割を果たす核像の概念に基づく自然な正規形を認めている。
クラス内のいくつかのグループでは、共役探索の問題が研究されているが、それを解決するアルゴリズムが知られていないグループも数多く存在する。
さらに、決定不能な共役問題を持つ自己相似群もいくつか存在する。
本稿では,グループベース暗号におけるこれらのグループの利用のメリットと欠点について論じ,GrigorchukグループやBasilicaグループなど,クラス内のいくつかのグループに対するSCSPに対する長さベース攻撃の変種を計算解析する。
We propose self-similar contracting groups as a platform for cryptographic schemes based on simultaneous conjugacy search problem (SCSP). The class of these groups contains extraordinary examples like Grigorchuk group, which is known to be non-linear, thus making some of existing attacks against SCSP inapplicable. The groups in this class admit a natural normal form based on the notion of a nucleus portrait, that plays a key role in our approach. While for some groups in the class the conjugacy search problem has been studied, there are many groups for which no algorithms solving it are known. Moreover, there are some self-similar groups with undecidable conjugacy problem. We discuss benefits and drawbacks of using these groups in group-based cryptography and provide computational analysis of variants of the length-based attack on SCSP for some groups in the class, including Grigorchuk group, Basilica group, and others. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# ChatGPTアプリのエコシステムを探る - 分散、デプロイ、セキュリティ
Exploring ChatGPT App Ecosystem: Distribution, Deployment and Security ( http://arxiv.org/abs/2408.14357v1 ) ライセンス: Link先を確認 | Chuan Yan, Ruomai Ren, Mark Huasong Meng, Liuhuo Wan, Tian Yang Ooi, Guangdong Bai, | (参考訳) ChatGPTは、サードパーティ開発者がChatGPTの機能を拡張するプラグインを作成することを可能にする。
ChatGPTをバックボーンとして、このアプリのエコシステムは、ユーザがパーソナライズされたサービスを対話的に提供することによって、大きなビジネスの可能性を示している。
それでも、このエコシステムのアプリ開発、デプロイメント、セキュリティに関する多くの重要な側面は、まだ研究コミュニティで徹底的に研究されていない。
本研究は,ChatGPTアプリエコシステムの総合的研究であり,研究コミュニティの景観を照らすことを目的としている。
本研究は,LDMとサードパーティアプリの統合における分散およびデプロイメントモデルについて検討し,それらのセキュリティおよびプライバシへの影響を評価する。
ChatGPTプラグインの間に不均一な機能の分布が発見され、広く普及し、新たなトピックが浮かび上がっています。
また、LLMに組み込まれたサードパーティのアプリAPIの認証とユーザデータ保護の深刻な欠陥を特定し、このアプリのエコシステムにおけるセキュリティとプライバシに関する状況を明らかにします。
私たちの研究は、この急速に進化するエコシステムの安全で持続可能な開発に関する洞察を与えてくれます。
ChatGPT has enabled third-party developers to create plugins to expand ChatGPT's capabilities.These plugins are distributed through OpenAI's plugin store, making them easily accessible to users. With ChatGPT as the backbone, this app ecosystem has illustrated great business potential by offering users personalized services in a conversational manner. Nonetheless, many crucial aspects regarding app development, deployment, and security of this ecosystem have yet to be thoroughly studied in the research community, potentially hindering a broader adoption by both developers and users. In this work, we conduct the first comprehensive study of the ChatGPT app ecosystem, aiming to illuminate its landscape for our research community. Our study examines the distribution and deployment models in the integration of LLMs and third-party apps, and assesses their security and privacy implications. We uncover an uneven distribution of functionality among ChatGPT plugins, highlighting prevalent and emerging topics. We also identify severe flaws in the authentication and user data protection for third-party app APIs integrated within LLMs, revealing a concerning status quo of security and privacy in this app ecosystem. Our work provides insights for the secure and sustainable development of this rapidly evolving ecosystem. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# 埋め込みは、何千もの騒々しいラベルの価値がある
An Embedding is Worth a Thousand Noisy Labels ( http://arxiv.org/abs/2408.14358v1 ) ライセンス: Link先を確認 | Francesco Di Salvo, Sebastian Doerrich, Ines Rieger, Christian Ledig, | (参考訳) ディープニューラルネットワークのパフォーマンスはデータセットのサイズとラベルの品質でスケールし、ロバストで費用対効果の高いシステムを構築する上で欠かせない低品質のデータアノテーションを効率よく緩和する。
ラベルノイズに対処する既存の戦略は、計算複雑性とアプリケーション依存性による厳しい制限を示す。
本研究では,基礎モデルから得られた自己教師付き特徴表現をベースとした,重み付き適応的近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近
重み付き投票方式を導出するために、信頼性スコアを導入し、データラベルの正しさを計測する。
WANNは、ロバストな損失関数で訓練された線形層を含む参照手法を、様々な大きさの多様なデータセットと様々なノイズタイプと重大さで上回る。
WANNは、適応NN(Adaptive-NN)と固定k-NN(固定k-NN)と比較して、不均衡なデータに対して優れた一般化を示す。
さらに,重み付け方式により,ノイズラベル下でのディメンタリティ低減が促進される。
これにより、分類性能が10倍、100倍に向上し、レイテンシとストレージの要件が最小化される。
私たちのアプローチは、効率性と説明可能性を強調し、ディープニューラルネットワークトレーニングの固有の制限を克服するための、シンプルで堅牢なソリューションとして現れます。
コードはhttps://github.com/francescodisalvo05/wann-noisy-labelsで入手できる。
The performance of deep neural networks scales with dataset size and label quality, rendering the efficient mitigation of low-quality data annotations crucial for building robust and cost-effective systems. Existing strategies to address label noise exhibit severe limitations due to computational complexity and application dependency. In this work, we propose WANN, a Weighted Adaptive Nearest Neighbor approach that builds on self-supervised feature representations obtained from foundation models. To guide the weighted voting scheme, we introduce a reliability score, which measures the likelihood of a data label being correct. WANN outperforms reference methods, including a linear layer trained with robust loss functions, on diverse datasets of varying size and under various noise types and severities. WANN also exhibits superior generalization on imbalanced data compared to both Adaptive-NNs (ANN) and fixed k-NNs. Furthermore, the proposed weighting scheme enhances supervised dimensionality reduction under noisy labels. This yields a significant boost in classification performance with 10x and 100x smaller image embeddings, minimizing latency and storage requirements. Our approach, emphasizing efficiency and explainability, emerges as a simple, robust solution to overcome the inherent limitations of deep neural network training. The code is available at https://github.com/francescodisalvo05/wann-noisy-labels . | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# GR-MG:マルチモーダルゴール条件付きポリシによる部分アノテーションデータの活用
GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal Conditioned Policy ( http://arxiv.org/abs/2408.14368v1 ) ライセンス: Link先を確認 | Peiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, Tao Kong, | (参考訳) ロボットコミュニティは、フレキシブルな自然言語による汎用的なロボット操作の実現を一貫して目標としてきた。
主な課題の1つは、アクションとテキストの両方で完全に注釈付けされたロボットデータを取得することは、時間がかかり、労働集約的であることである。
しかし、アクションラベルなしの人間活動ビデオや、言語ラベルなしのロボットプレイデータなど、部分的に注釈付けされたデータは、収集がずっと簡単である。
ロボットの一般化能力を高めるために、これらのデータを活用することは可能か?
本稿では,言語命令と目標画像の両方を条件付けする新しい手法であるGR-MGを提案する。
GR-MGはトレーニング中、テキストとゴールイメージの両方の軌跡と条件からゴールイメージをサンプリングする。
テキストのみを提供する推論中、GR-MGは拡散ベースの画像編集モデルを介して目標画像を生成し、テキストと生成された画像の両方に条件を付与する。
このアプローチにより、GR-MGは、言語を使ってタスクを柔軟に指定しながら、大量の部分的な注釈付きデータを活用することができる。
精度の高い目標画像を生成するために,タスク進捗情報を生成プロセスに注入し,忠実度と性能を大幅に向上させる新しい目標画像生成モデルを提案する。
シミュレーション実験では、GR-MGは5列のタスクの平均数を3.35から4.04に改善した。
実ロボット実験では、GR-MGは47種類のタスクを実行でき、成功率は62.5%から75.0%に向上し、単純な設定では42.4%から57.6%に向上した。
コードとチェックポイントはプロジェクトのページで確認できる。
The robotics community has consistently aimed to achieve generalizable robot manipulation with flexible natural language instructions. One of the primary challenges is that obtaining robot data fully annotated with both actions and texts is time-consuming and labor-intensive. However, partially annotated data, such as human activity videos without action labels and robot play data without language labels, is much easier to collect. Can we leverage these data to enhance the generalization capability of robots? In this paper, we propose GR-MG, a novel method which supports conditioning on both a language instruction and a goal image. During training, GR-MG samples goal images from trajectories and conditions on both the text and the goal image or solely on the image when text is unavailable. During inference, where only the text is provided, GR-MG generates the goal image via a diffusion-based image-editing model and condition on both the text and the generated image. This approach enables GR-MG to leverage large amounts of partially annotated data while still using language to flexibly specify tasks. To generate accurate goal images, we propose a novel progress-guided goal image generation model which injects task progress information into the generation process, significantly improving the fidelity and the performance. In simulation experiments, GR-MG improves the average number of tasks completed in a row of 5 from 3.35 to 4.04. In real-robot experiments, GR-MG is able to perform 47 different tasks and improves the success rate from 62.5% to 75.0% and 42.4% to 57.6% in simple and generalization settings, respectively. Code and checkpoints will be available at the project page: https://gr-mg.github.io/. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# 多インスタンス部分ラベル学習のための共役ラベル情報の爆発的抽出
Exploiting Conjugate Label Information for Multi-Instance Partial-Label Learning ( http://arxiv.org/abs/2408.14369v1 ) ライセンス: Link先を確認 | Wei Tang, Weijia Zhang, Min-Ling Zhang, | (参考訳) MIPL(Multi-instance partial-label Learning)は、各トレーニングサンプルが1つの真のラベルといくつかの偽陽性を含む候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現されるシナリオに対処する。
既存のMIPLアルゴリズムは主に、ラベル空間の内在的性質と非候補ラベルセットによって提供される教師情報を無視して、曖昧性を示すための候補ラベルセットにマルチインスタンスバッグをマッピングすることに重点を置いている。
本稿では,共役ラベル情報を利用した多インスタンス部分ラベル学習のための共役ラベル情報を出力するELIMIPLというアルゴリズムを提案する。
そこで我々は,候補ラベルと非候補ラベルの双方に埋め込まれたラベル情報を抽出し,ラベル空間の内在的性質を取り入れた。
ベンチマークおよび実世界のデータセットから得られた実験結果は、既存のMIPLアルゴリズムや他の確立された部分ラベル学習アルゴリズムよりも提案したERIMIPLの方が優れていることを示す。
Multi-instance partial-label learning (MIPL) addresses scenarios where each training sample is represented as a multi-instance bag associated with a candidate label set containing one true label and several false positives. Existing MIPL algorithms have primarily focused on mapping multi-instance bags to candidate label sets for disambiguation, disregarding the intrinsic properties of the label space and the supervised information provided by non-candidate label sets. In this paper, we propose an algorithm named ELIMIPL, i.e., Exploiting conjugate Label Information for Multi-Instance Partial-Label learning, which exploits the conjugate label information to improve the disambiguation performance. To achieve this, we extract the label information embedded in both candidate and non-candidate label sets, incorporating the intrinsic properties of the label space. Experimental results obtained from benchmark and real-world datasets demonstrate the superiority of the proposed ELIMIPL over existing MIPL algorithms and other well-established partial-label learning algorithms. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# SelEx: ファイングラインド一般化カテゴリー発見における自己証明
SelEx: Self-Expertise in Fine-Grained Generalized Category Discovery ( http://arxiv.org/abs/2408.14371v1 ) ライセンス: Link先を確認 | Sarah Rastegar, Mohammadreza Salehi, Yuki M. Asano, Hazel Doughty, Cees G. M. Snoek, | (参考訳) 本稿では,新しいカテゴリーを同時に発見し,既知のカテゴリを正確に分類することを目的とした一般化カテゴリー発見について述べる。
自己超越と対照的な学習に強く依存する伝統的な手法は、細かなカテゴリーを区別する場合にしばしば不足する。
これを解決するために,モデルが微妙な違いを認識し,未知のカテゴリを明らかにする能力を高める「自己経験」という新しい概念を導入する。
提案手法は,教師なしと教師なしの自己訓練戦略を組み合わせて,モデルの認識と一般化を洗練させる。
当初、階層的な擬似ラベルは'ソフトな監督'を提供するために使われ、自己訓練の有効性が向上する。
我々の指導的手法は、より抽象的な正と負のサンプルを利用して、新しいカテゴリに一般化できるクラスターの形成を支援する従来の手法とは異なる。
一方、我々の教師なし戦略は、カテゴリー内の例を「堅い」負として考慮し、カテゴリーの区別を強化することを奨励している。
理論的知見によって支援され、我々の実験結果により、我々の手法は、いくつかのきめ細かいデータセットにわたる一般化カテゴリー発見において、既存の最先端技術よりも優れていることが示された。
私たちのコードは、https://github.com/SarahRastegar/SelExで利用可能です。
In this paper, we address Generalized Category Discovery, aiming to simultaneously uncover novel categories and accurately classify known ones. Traditional methods, which lean heavily on self-supervision and contrastive learning, often fall short when distinguishing between fine-grained categories. To address this, we introduce a novel concept called `self-expertise', which enhances the model's ability to recognize subtle differences and uncover unknown categories. Our approach combines unsupervised and supervised self-expertise strategies to refine the model's discernment and generalization. Initially, hierarchical pseudo-labeling is used to provide `soft supervision', improving the effectiveness of self-expertise. Our supervised technique differs from traditional methods by utilizing more abstract positive and negative samples, aiding in the formation of clusters that can generalize to novel categories. Meanwhile, our unsupervised strategy encourages the model to sharpen its category distinctions by considering within-category examples as `hard' negatives. Supported by theoretical insights, our empirical results showcase that our method outperforms existing state-of-the-art techniques in Generalized Category Discovery across several fine-grained datasets. Our code is available at: https://github.com/SarahRastegar/SelEx. | 翻訳日:2024-08-27 13:31:39 公開日:2024-08-26 |
# 量子電池充電用シングルイオンインフォメーションエンジン
A Single-Ion Information Engine for Charging Quantum Battery ( http://arxiv.org/abs/2408.14373v1 ) ライセンス: Link先を確認 | Jialiang Zhang, Pengfei Wang, Wentao Chen, Zhengyang Cai, Mu Qiao, Riling Li, Yingye Huang, Haonan Tian, Henchao Tu, Kaifeng Cui, Leilei Yan, Junhua Zhang, Jingning Zhang, Manhong Yung, Kihwan Kim, | (参考訳) 情報エンジンは、測定と適応制御によって機械的な作業を生成する。
インフォメーションエンジンにとって、主要な課題は、その後の利用のために生成された作業を保存する方法である。
本稿では,量子化された機械的運動が量子電池として機能し,1つの閉じ込められたイオン情報エンジンによって繰り返し充電される実験例を報告する。
これは、急激な国家差別における重要な技術進歩によって実現され、測定による乱れを抑制することができる。
その結果、最適温度における理論限界の50%以上を充電効率で得ることができた。
実験結果から, トラップイオンを顕微鏡情報エンジンのための将来性のあるプラットフォームとして, スケールアップ時に応用できる可能性が示唆された。
Information engines produce mechanical work through measurement and adaptive control. For information engines, the principal challenge lies in how to store the generated work for subsequent utilization. Here, we report an experimental demonstration where quantized mechanical motion serves as a quantum battery and gets charged in repeated cycles by a single trapped-ion information engine. This is enabled by a key technological advancement in rapid state discrimination, allowing us to suppress measurement-induced disturbances. Consequently, we were able to obtain a charging efficiency over 50\% of the theoretical limit at the optimal temperature. The experimental results substantiate that this approach can render trapped ions a promising platform for microscopic information engines with potential applications in the future upon scaling up. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# 大規模言語モデルの因果関係の探索
Probing Causality Manipulation of Large Language Models ( http://arxiv.org/abs/2408.14380v1 ) ライセンス: Link先を確認 | Chenyang Zhang, Haibo Tong, Bin Zhang, Dongyu Zhang, | (参考訳) 大規模言語モデル(LLM)は、因果関係の問題を含む自然言語処理に様々な能力を示している。
LLMが因果関係を指示するのは直感的ではない、なぜなら事前訓練されたモデルは、通常統計関連に作用し、文の因果関係や影響に焦点を絞らないからである。
したがって、LSMには因果関係を内部的に操作することが必要である。
本稿では、モデルに異なるショートカットを提供し、行動を観察し、因果操作を階層的に探索する新しいアプローチを提案する。
我々は、設計因果分類タスクのモデルに対して、検索拡張生成(RAG)とインコンテキスト学習(ICL)を利用する。
我々は、GPT-4 や、より小型でドメイン固有のモデルを含む、主要な LLM 上で実験を行う。
以上の結果から,LSMは因果関係に関連する実体を検知し,直接因果関係を認識できることが示唆された。
しかし、LLMには因果関係の認知が欠如しており、単に文のグローバルな意味論の一部として扱うだけである。
Large language models (LLMs) have shown various ability on natural language processing, including problems about causality. It is not intuitive for LLMs to command causality, since pretrained models usually work on statistical associations, and do not focus on causes and effects in sentences. So that probing internal manipulation of causality is necessary for LLMs. This paper proposes a novel approach to probe causality manipulation hierarchically, by providing different shortcuts to models and observe behaviors. We exploit retrieval augmented generation (RAG) and in-context learning (ICL) for models on a designed causality classification task. We conduct experiments on mainstream LLMs, including GPT-4 and some smaller and domain-specific models. Our results suggest that LLMs can detect entities related to causality and recognize direct causal relationships. However, LLMs lack specialized cognition for causality, merely treating them as part of the global semantic of the sentence. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# データ拡張における木構造構成の学習
Learning Tree-Structured Composition of Data Augmentation ( http://arxiv.org/abs/2408.14381v1 ) ライセンス: Link先を確認 | Dongyue Li, Kailai Chen, Predrag Radivojac, Hongyang R. Zhang, | (参考訳) データ拡張は、ラベル付きデータが少ないニューラルネットワークのトレーニングに広く使用されている。
拡張トレーニングの一般的な実践は、複数の変換の合成をデータに順次適用することである。
RandAugmentのような既存の拡張手法は、事前選択された変換のリストからランダムにサンプリングするが、AutoAugmentのようなメソッドは、$k$の変換列の数である$k^d$の拡張セットを最適化するために高度な検索を適用する。
本稿では,実行時間の複雑さが$O(k^d)$よりもはるかに高速なアルゴリズムを設計する。
そこで我々は,木ノードが1つの変換に対応するような$k$変換の2進木構造合成を探索するアルゴリズムを提案する。
二分木は、コントラスト学習のためのSimCLR拡張スキームのようなシーケンシャルな拡張を一般化する。
我々のアルゴリズムは、トップダウンで再帰的な探索手順を用いて、O(2^d k)$のランタイム複雑性を達成し、$O(k^d)$よりもはるかに高速である。
本研究では,各サブポピュレーションに1本の木を探索し,重み付けされた組み合わせを学習することにより,不均質なサブポピュレーションを持つデータ分布に対処するアルゴリズムを提案する。
提案したアルゴリズムを,収集した多ラベルグラフ分類データセットを含む多数のグラフおよび画像データセットで検証する。
データセットはグラフのサイズとその平均度に大きなバリエーションを示しており、データ拡張を研究するのに最適である。
提案手法は,既存の検索手法よりも計算コストを43%削減し,性能を4.3%向上させる。
木構造は、小さなグラフと大きなグラフの重要な変換を特定するなど、各変換の相対的な重要性を解釈するのに使うことができる。
Data augmentation is widely used for training a neural network given little labeled data. A common practice of augmentation training is applying a composition of multiple transformations sequentially to the data. Existing augmentation methods such as RandAugment randomly sample from a list of pre-selected transformations, while methods such as AutoAugment apply advanced search to optimize over an augmentation set of size $k^d$, which is the number of transformation sequences of length $d$, given a list of $k$ transformations. In this paper, we design efficient algorithms whose running time complexity is much faster than the worst-case complexity of $O(k^d)$, provably. We propose a new algorithm to search for a binary tree-structured composition of $k$ transformations, where each tree node corresponds to one transformation. The binary tree generalizes sequential augmentations, such as the SimCLR augmentation scheme for contrastive learning. Using a top-down, recursive search procedure, our algorithm achieves a runtime complexity of $O(2^d k)$, which is much faster than $O(k^d)$ as $k$ increases above $2$. We apply our algorithm to tackle data distributions with heterogeneous subpopulations by searching for one tree in each subpopulation and then learning a weighted combination, resulting in a forest of trees. We validate our proposed algorithms on numerous graph and image datasets, including a multi-label graph classification dataset we collected. The dataset exhibits significant variations in the sizes of graphs and their average degrees, making it ideal for studying data augmentation. We show that our approach can reduce the computation cost by 43% over existing search methods while improving performance by 4.3%. The tree structures can be used to interpret the relative importance of each transformation, such as identifying the important transformations on small vs. large graphs. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# トロッタ誤差除去を用いた指数減少回路深さ
Exponentially Reduced Circuit Depths Using Trotter Error Mitigation ( http://arxiv.org/abs/2408.14385v1 ) ライセンス: Link先を確認 | James D. Watson, Jacob Watkins, | (参考訳) 製品公式は、その概念的単純さ、オーバーヘッドの低さ、そしてしばしば理論的な期待を超える性能のため、デジタル量子シミュレーションアルゴリズムの一般的なクラスである。
近年、リチャードソン外挿法と多項式補間法が提案され、これらの公式を用いて引き起こされるトロッター誤差を緩和している。
この研究は、時間発展予測値を計算するタスクのために、これらの技術の改良的で厳密な分析を提供する。
誤差$\epsilon$を得るには、$p^\text{th}$-order product formula with a extrapolation, circuits depths of $O\left(T^{1+1/p} \textrm{polylog}(1/\epsilon)\right)$が十分である。
さらに、計算器のスケーリングを実現し、T$で複雑性を向上し、トロッターステップの分数的な実装を必要としない。
この結果は,現在提案されているトロッター誤差を低減するアルゴリズム的誤差軽減手法のより正確な特徴付けを提供する。
Product formulae are a popular class of digital quantum simulation algorithms due to their conceptual simplicity, low overhead, and performance which often exceeds theoretical expectations. Recently, Richardson extrapolation and polynomial interpolation have been proposed to mitigate the Trotter error incurred by use of these formulae. This work provides an improved, rigorous analysis of these techniques for the task of calculating time-evolved expectation values. We demonstrate that, to achieve error $\epsilon$ in a simulation of time $T$ using a $p^\text{th}$-order product formula with extrapolation, circuits depths of $O\left(T^{1+1/p} \textrm{polylog}(1/\epsilon)\right)$ are sufficient -- an exponential improvement in the precision over product formulae alone. Furthermore, we achieve commutator scaling, improve the complexity with $T$, and do not require fractional implementations of Trotter steps. Our results provide a more accurate characterisation of the algorithmic error mitigation techniques currently proposed to reduce Trotter error. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# 時空間予測アプリケーションのためのエンタープライズ導入のための基礎的大規模言語モデル(LLM)の再プログラミング:コパイロット誘導型クロスモーダル時系列表現学習の新しい時代を開拓する
Reprogramming Foundational Large Language Models(LLMs) for Enterprise Adoption for Spatio-Temporal Forecasting Applications: Unveiling a New Era in Copilot-Guided Cross-Modal Time Series Representation Learning ( http://arxiv.org/abs/2408.14387v1 ) ライセンス: Link先を確認 | Sakhinana Sagar Srinivas, Chidaksh Ravuru, Geethan Sannidhi, Venkataramana Runkana, | (参考訳) 時空間予測は輸送システム、物流、サプライチェーン管理など様々な分野において重要な役割を担っている。
しかし、既存の手法は大規模で複雑なデータセットを扱う能力によって制限されている。
この制限を克服するために,オープンソースの大規模・小規模言語モデル(LLM,LM)と従来の予測手法を組み合わせたハイブリッドアプローチを導入する。
進化する非線形時系列データにおいて、動的プロンプトとグループ化クエリ、マルチヘッドアテンション機構を用いて従来の手法を拡張し、シリーズ内およびシリーズ間依存関係をより効果的に捕捉する。
さらに,小型のオープンソースLMを微調整した時系列傾向解析によりオンプレミスのカスタマイズを容易にし,低ランク適応型アクティベーションメモリリダクション(LoRA-AMR)技術を用いて,推論レイテンシを保ちながら計算オーバーヘッドと記憶メモリの活性化を低減した。
時系列トレンド分析のための言語モデル処理と、クロスモーダル統合のための伝統的な時系列表現学習法を組み合わせて、堅牢で正確な予測を行う。
フレームワークの有効性は、様々な実世界のデータセットに関する広範な実験を通じて実証され、予測精度の点で既存の手法よりも優れている。
Spatio-temporal forecasting plays a crucial role in various sectors such as transportation systems, logistics, and supply chain management. However, existing methods are limited by their ability to handle large, complex datasets. To overcome this limitation, we introduce a hybrid approach that combines the strengths of open-source large and small-scale language models (LLMs and LMs) with traditional forecasting methods. We augment traditional methods with dynamic prompting and a grouped-query, multi-head attention mechanism to more effectively capture both intra-series and inter-series dependencies in evolving nonlinear time series data. In addition, we facilitate on-premises customization by fine-tuning smaller open-source LMs for time series trend analysis utilizing descriptions generated by open-source large LMs on consumer-grade hardware using Low-Rank Adaptation with Activation Memory Reduction (LoRA-AMR) technique to reduce computational overhead and activation storage memory demands while preserving inference latency. We combine language model processing for time series trend analysis with traditional time series representation learning method for cross-modal integration, achieving robust and accurate forecasts. The framework effectiveness is demonstrated through extensive experiments on various real-world datasets, outperforming existing methods by significant margins in terms of forecast accuracy. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# ハイパーキューブ、クラウチョーク連鎖、ディック状態の関係の$q$-version
A $q$-version of the relation between the hypercube, the Krawtchouk chain and Dicke states ( http://arxiv.org/abs/2408.14388v1 ) ライセンス: Link先を確認 | Pierre-Antoine Bernard, Étienne Poliquin, Luc Vinet, | (参考訳) 二重$q$-Krawtchouk多項式に基づくスピン鎖が、$q$-Dicke状態を用いて重み付きハイパーキューブにどのように接続されているかが示される。
量子代数 $U_q(\mathfrak{su}(2))$ に基づく表現論的アンダーピングが強調される。
It is shown how the spin chain based on the dual $q$-Krawtchouk polynomials is connected to a weighted hypercube through the use of $q$-Dicke states. The representation theoretic underpinnings based on the quantum algebra $U_q(\mathfrak{su}(2))$ are emphasized. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# エントロピーからの重力
Gravity from entropy ( http://arxiv.org/abs/2408.14391v1 ) ライセンス: Link先を確認 | Ginestra Bianconi, | (参考訳) 重力はエントロピー作用結合物質場と幾何学から導かれる。
基本的な考え方は、ローレンツ時空の計量を密度行列に関連付けることである。
物質場は時空を曲線とし、物質場によって誘導される計量を定義する。
エントロピー作用は、時空の計量と物質場によって誘導される計量の間の量子相対エントロピーである。
修正されたアインシュタイン方程式は、低結合状態のアインシュタイン方程式に還元された。
理論を単純化するために、専らスカラー物質場を考える。
この理論的な枠組みは、例えばフェルミオン性物質場とゲージ場を含めることで、異なる方向に拡張することができる。
この場の理論の正準量子化は、量子重力に対する新たな洞察をもたらす可能性がある。
Gravity is derived from an entropic action coupling matter fields with geometry. The fundamental idea is to relate the metric of Lorentzian spacetime to a density matrix. The matter fields curve spacetime, defining a metric induced by the matter fields. The entropic action is the quantum relative entropy between the metric of spacetime and the metric induced by the matter fields. The modified Einstein equations obtained reduce to the Einstein equations in the regime of low coupling. To simplify the theory, exclusively scalar matter fields are considered. This theoretical framework can be extended in different directions, for instance by including fermionic matter fields and gauge fields. A canonical quantization of this field theory could bring new insights into quantum gravity. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# CURE4Rec: より深い影響を持つレコメンデーションアンラーニングのためのベンチマーク
CURE4Rec: A Benchmark for Recommendation Unlearning with Deeper Influence ( http://arxiv.org/abs/2408.14393v1 ) ライセンス: Link先を確認 | Chaochao Chen, Jiaming Zhang, Yizhao Zhang, Li Zhang, Lingjuan Lyu, Yuyuan Li, Biao Gong, Chenggang Yan, | (参考訳) 人工知能のプライバシーに関する懸念が高まる中、規制は忘れられる権利を義務付け、個人にモデルからデータを取り出す権利を与えている。
機械学習は、特に歴史的データが機密性の高いユーザー情報を含むレコメンデーションシステムにおいて、モデルを選択的に忘れることを可能にする潜在的な解決策として浮上している。
近年のレコメンデーションアンラーニングの進歩にもかかわらず、統一的な評価フレームワークが存在しないことや、より深い影響力、例えば公正さの面を見落としているために、未学習の手法を総合的に評価することは困難である。
これらのギャップに対処するため, CURE4Recを提案する。
CURE4Recは、コアデータ、エッジデータ、ランダムデータという3つのデータ選択戦略の下で、未学習完全性、推奨ユーティリティ、解放効率、レコメンデーションフェアンEsの4つの側面をカバーしている。
具体的には、非学習が、様々な影響レベルを持つデータに対する推奨公正性と堅牢性に与える影響について検討する。
CURE4Rec評価を用いて複数のデータセットを構築し,既存のレコメンデーションアンラーニング手法に関する広範な実験を行った。
私たちのコードはhttps://github.com/xiye7lai/CURE4Rec.comでリリースされています。
With increasing privacy concerns in artificial intelligence, regulations have mandated the right to be forgotten, granting individuals the right to withdraw their data from models. Machine unlearning has emerged as a potential solution to enable selective forgetting in models, particularly in recommender systems where historical data contains sensitive user information. Despite recent advances in recommendation unlearning, evaluating unlearning methods comprehensively remains challenging due to the absence of a unified evaluation framework and overlooked aspects of deeper influence, e.g., fairness. To address these gaps, we propose CURE4Rec, the first comprehensive benchmark for recommendation unlearning evaluation. CURE4Rec covers four aspects, i.e., unlearning Completeness, recommendation Utility, unleaRning efficiency, and recommendation fairnEss, under three data selection strategies, i.e., core data, edge data, and random data. Specifically, we consider the deeper influence of unlearning on recommendation fairness and robustness towards data with varying impact levels. We construct multiple datasets with CURE4Rec evaluation and conduct extensive experiments on existing recommendation unlearning methods. Our code is released at https://github.com/xiye7lai/CURE4Rec. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# 知識グラフを用いた放射線学レポート生成モデルにおける知識ギャップの発見
Uncovering Knowledge Gaps in Radiology Report Generation Models through Knowledge Graphs ( http://arxiv.org/abs/2408.14397v1 ) ライセンス: Link先を確認 | Xiaoman Zhang, Julián N. Acosta, Hong-Yu Zhou, Pranav Rajpurkar, | (参考訳) 人工知能の最近の進歩は、放射線学レポートの自動生成を著しく改善した。
しかし, 既存の評価手法では, モデルによる放射線画像の理解と, 人体レベルでの詳細な記述を実現する能力を明らかにするには至らなかった。
このギャップを埋めるために、我々はReXKGというシステムを導入し、処理されたレポートから構造化された情報を抽出し、総合的な放射線学知識グラフを構築する。
次に,ノードの類似性(ReXKG-NSC),エッジの分布(ReXKG-AMS),およびサブグラフ(ReXKG-SCS)を様々な知識グラフで表すための3つの指標を提案する。
我々はAIと人手による放射線学レポートの詳細な比較分析を行い、専門家モデルとジェネラリストモデルの両方のパフォーマンスを評価する。
我々の研究は、放射線学レポート生成における現在のAIモデルの能力と限界をより深く理解し、モデルの性能と臨床応用性を改善するための貴重な洞察を提供する。
Recent advancements in artificial intelligence have significantly improved the automatic generation of radiology reports. However, existing evaluation methods fail to reveal the models' understanding of radiological images and their capacity to achieve human-level granularity in descriptions. To bridge this gap, we introduce a system, named ReXKG, which extracts structured information from processed reports to construct a comprehensive radiology knowledge graph. We then propose three metrics to evaluate the similarity of nodes (ReXKG-NSC), distribution of edges (ReXKG-AMS), and coverage of subgraphs (ReXKG-SCS) across various knowledge graphs. We conduct an in-depth comparative analysis of AI-generated and human-written radiology reports, assessing the performance of both specialist and generalist models. Our study provides a deeper understanding of the capabilities and limitations of current AI models in radiology report generation, offering valuable insights for improving model performance and clinical applicability. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# 多言語言語モデル作成のための言語固有の校正法
Language-specific Calibration for Pruning Multilingual Language Models ( http://arxiv.org/abs/2408.14398v1 ) ライセンス: Link先を確認 | Simon Kurz, Zhixue Zhao, Jian-Jia Chen, Lucie Flek, | (参考訳) 大規模言語モデル(LLM)プルーニングの最近の進歩は、高い予測性能を維持しながら、後トレーニングや再学習不要な設定において、最先端の圧縮結果を示している。
しかし、このような研究は主に、現代のLLMの多言語性や非英語言語での頻繁な使用にもかかわらず、英語のテキストを用いたプルーニングの校正について検討している。
本稿では,多言語言語モデルのプルーニングを校正するための効果的な戦略を探究する。
多様なタスク,モデル,最先端のプルーニング技術にまたがる多言語モデルにおけるキャリブレーション言語の比較を行った。
この結果から,例えば,対象言語を校正することで,効率の低いパープレキシティが得られるが,下流タスクのメリットは必ずしも得られない,という現実的な提案が得られた。
さらなる分析実験により,対象言語の校正が,言語理解や推論といった言語に依存しない特徴の獲得に大きく寄与するが,言語理解や推論といった言語に依存しない特徴の獲得には寄与しない可能性が示された。
最後に、将来の実践者には実践的なレコメンデーションを提供する。
Recent advances in large language model (LLM) pruning have shown state-of-the-art compression results in post-training and retraining-free settings while maintaining high predictive performance. However, such research mainly considers calibrating pruning using English text, despite the multilingual nature of modern LLMs and their frequent uses in non-English languages. In this paper, we set out to explore effective strategies for calibrating the pruning of multilingual language models. We present the first comprehensive empirical study, comparing different calibration languages for pruning multilingual models across diverse tasks, models, and state-of-the-art pruning techniques. Our results present practical suggestions, for example, calibrating in the target language can efficiently yield lower perplexity, but does not necessarily benefit downstream tasks. Our further analysis experiments unveil that calibration in the target language mainly contributes to preserving language-specific features related to fluency and coherence, but might not contribute to capturing language-agnostic features such as language understanding and reasoning. Last, we provide practical recommendations for future practitioners. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# 衛星サンルーフ:高解像度デジタル表面モデルとグローバルソーラーマッピングのための屋根セグメンテーション
Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping ( http://arxiv.org/abs/2408.14400v1 ) ライセンス: Link先を確認 | Vishal Batchu, Alex Wilson, Betty Peng, Carl Elkin, Umangi Jain, Christopher Van Arsdale, Ross Goroshin, Varun Gulshan, | (参考訳) 再生可能エネルギー、特に太陽エネルギーへの移行は、気候変動を緩和する鍵となる。
GoogleのSolar APIは、太陽ポテンシャルを空中画像から推定することで、この移行を支援するが、その影響は地理的カバレッジによって制限されている。
本稿では,衛星画像を用いてAPIの範囲を拡大し,地球規模の太陽ポテンシャル評価を可能にすることを提案する。
我々は,DSM(Digital Surface Model)と屋根のインスタンスセグメンテーションを低解像度から,深層学習モデルを用いた単一斜めビューから構築する際の課題に取り組む。
我々のモデルは、衛星と空中のデータセットに基づいて訓練され、25cmのDSMと屋根のセグメントを生成します。
建物に約1mのDSM MAE、屋根のピッチ誤差に約5deg、屋根のセグメンテーションに約56%のIOUがあるため、ソーラーAPIのソーラー採用を促進する可能性は大きく向上した。
The transition to renewable energy, particularly solar, is key to mitigating climate change. Google's Solar API aids this transition by estimating solar potential from aerial imagery, but its impact is constrained by geographical coverage. This paper proposes expanding the API's reach using satellite imagery, enabling global solar potential assessment. We tackle challenges involved in building a Digital Surface Model (DSM) and roof instance segmentation from lower resolution and single oblique views using deep learning models. Our models, trained on aligned satellite and aerial datasets, produce 25cm DSMs and roof segments. With ~1m DSM MAE on buildings, ~5deg roof pitch error and ~56% IOU on roof segmentation, they significantly enhance the Solar API's potential to promote solar adoption. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# 非畳み込み密度推定のための準ベイズ的シーケンシャルアプローチ
A quasi-Bayesian sequential approach to deconvolution density estimation ( http://arxiv.org/abs/2408.14402v1 ) ライセンス: Link先を確認 | Stefano Favaro, Sandra Fortini, | (参考訳) 密度デコンボリューションは、独立な加法的ランダムノイズで観測されるデータから、未知(確率)密度関数$f$のランダム信号の推定に対処する。
これは統計学における古典的な問題であり、静的データやバッチデータを扱うために、頻繁なおよびベイズ的非パラメトリックなアプローチが利用可能である。
本稿では, 所定のサンプルサイズを伴わずに, ノイズデータが徐々に到着するストリーミングやオンライン環境での密度デコンボリューションの問題について考察し, 逐次的非パラメトリック手法を用いて$f$を推定する手法を提案する。
準ベイジアンシーケンシャルアプローチ(ニュートンのアルゴリズムと呼ばれる)を頼りにすることで、計算効率が良く、データ量が増加するにつれて計算コストが一定であり、ストリーミング環境では重要となる$f$の推定値を得る。
提案した推定値の大規模なサンプル漸近特性について検討し、ある点(局所)および間隔(一様)における$f$の推定に関する証明可能な保証を得る。
特に、局所的および均一な中心極限定理を確立し、対応する漸近的可約区間と帯域を提供する。
本研究では,Laplace と Gaussian の雑音分布の共通設定を考慮し,実データに対する我々の手法を実証的に検証し,前述したDirichlet プロセスの混合によるカーネルベースアプローチとベイズ非パラメトリックアプローチとの比較を行う。
Density deconvolution addresses the estimation of the unknown (probability) density function $f$ of a random signal from data that are observed with an independent additive random noise. This is a classical problem in statistics, for which frequentist and Bayesian nonparametric approaches are available to deal with static or batch data. In this paper, we consider the problem of density deconvolution in a streaming or online setting where noisy data arrive progressively, with no predetermined sample size, and we develop a sequential nonparametric approach to estimate $f$. By relying on a quasi-Bayesian sequential approach, often referred to as Newton's algorithm, we obtain estimates of $f$ that are of easy evaluation, computationally efficient, and with a computational cost that remains constant as the amount of data increases, which is critical in the streaming setting. Large sample asymptotic properties of the proposed estimates are studied, yielding provable guarantees with respect to the estimation of $f$ at a point (local) and on an interval (uniform). In particular, we establish local and uniform central limit theorems, providing corresponding asymptotic credible intervals and bands. We validate empirically our methods on synthetic and real data, by considering the common setting of Laplace and Gaussian noise distributions, and make a comparison with respect to the kernel-based approach and a Bayesian nonparametric approach with a Dirichlet process mixture prior. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# ニューラル正規微分方程式のITER燃焼プラズマダイナミクスへの応用
Application of Neural Ordinary Differential Equations for ITER Burning Plasma Dynamics ( http://arxiv.org/abs/2408.14404v1 ) ライセンス: Link先を確認 | Zefang Liu, Weston M. Stacey, | (参考訳) トカマクの燃焼プラズマのダイナミクスは、制御熱核融合の進行に不可欠である。
In this study introduced the NeuralPlasmaODE, a multi-rea multi-timescale transport model tosimulated the complex energy transfer process in ITER deuterium-tritium (D-T) plasmas。
我々のモデルでは、熱流出不安定性のような現象を理解するのに欠かせない、エネルギー的なアルファ粒子、電子、イオン間の相互作用を捉えている。
拡散係数の数値導出にはニューラル常微分方程式(Neural ODE)を用い,異なるプラズマ領域間のエネルギー相互作用を正確にモデル化する。
DIII-D実験データから得られたモデルパラメータを応用し、スクラッチからトレーニングすることなくシミュレーションの効率と精度を向上させる。
このモデルをITERの誘導的かつ非誘導的運用シナリオに適用することにより、放射・輸送プロセスがコアプラズマからの余剰熱を効果的に除去し、熱流出不安定を防止していることを示す。
本研究は,核融合炉における燃焼プラズマ力学の理解と制御を促進するための機械学習の可能性を明らかにするものである。
The dynamics of burning plasmas in tokamaks are crucial for advancing controlled thermonuclear fusion. This study introduces the NeuralPlasmaODE, a multi-region multi-timescale transport model to simulate the complex energy transfer processes in ITER deuterium-tritium (D-T) plasmas. Our model captures the interactions between energetic alpha particles, electrons, and ions, which are vital for understanding phenomena such as thermal runaway instability. We employ neural ordinary differential equations (Neural ODEs) for the numerical derivation of diffusivity parameters, enabling precise modeling of energy interactions between different plasma regions. By leveraging transfer learning, we utilize model parameters derived from DIII-D experimental data, enhancing the efficiency and accuracy of our simulations without training from scratch. Applying this model to ITER's inductive and non-inductive operational scenarios, our results demonstrate that radiation and transport processes effectively remove excess heat from the core plasma, preventing thermal runaway instability. This study underscores the potential of machine learning in advancing our understanding and control of burning plasma dynamics in fusion reactors. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# 流体のスペクトルインフォームド学習
Spectrally Informed Learning of Fluid Flows ( http://arxiv.org/abs/2408.14407v1 ) ライセンス: Link先を確認 | Benjamin D. Shaffer, Jeremy R. Vorenberg, M. Ani Hsieh, | (参考訳) 精密で効率的な流体流動モデルは、地球物理学、空気力学、生物学的システムを含む多くの物理現象に関する応用に不可欠である。
これらの流れはリッチでマルチスケールなダイナミクスを示すかもしれないが、多くの場合において、運動の大部分を記述した低ランク構造が存在する。
これらの構造は空間的に大きく、時間的に遅い傾向にあり、与えられた流れにほとんどのエネルギーを含むことがある。
高次元データからこれらの低ランクダイナミックスの抽出と類似表現は重要な課題である。
物理インフォームド機械学習手法の成功に触発されて,学習過程における既知のスペクトル特性を利用して,流体の低ランクモデル抽出のためのスペクトルインフォームドアプローチを提案する。
我々はこの知識を、学習力学に規則化を課し、学習過程を高出力の低周波構造学習に偏らせることによって取り入れる。
本手法の有効性を実証し, 原型流体のスペクトル特性に適合する学習モデルを構築した。
Accurate and efficient fluid flow models are essential for applications relating to many physical phenomena including geophysical, aerodynamic, and biological systems. While these flows may exhibit rich and multiscale dynamics, in many cases underlying low-rank structures exist which describe the bulk of the motion. These structures tend to be spatially large and temporally slow, and may contain most of the energy in a given flow. The extraction and parsimonious representation of these low-rank dynamics from high-dimensional data is a key challenge. Inspired by the success of physics-informed machine learning methods, we propose a spectrally-informed approach to extract low-rank models of fluid flows by leveraging known spectral properties in the learning process. We incorporate this knowledge by imposing regularizations on the learned dynamics, which bias the training process towards learning low-frequency structures with corresponding higher power. We demonstrate the effectiveness of this method to improve prediction and produce learned models which better match the underlying spectral properties of prototypical fluid flows. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# LoG-VMamba:医療画像セグメンテーションのためのローカル・グローバル・ビジョン・マンバ
LoG-VMamba: Local-Global Vision Mamba for Medical Image Segmentation ( http://arxiv.org/abs/2408.14415v1 ) ライセンス: Link先を確認 | Trung Dinh Quoc Dang, Huy Hoang Nguyen, Aleksei Tiulpin, | (参考訳) 状態空間モデル(SSM)であるMambaは、最近、自然言語処理と一般的なシーケンスモデリングにおける畳み込みニューラルネットワーク(CNN)とトランスフォーマーとの競合性能を示した。
医療画像セグメンテーション(MIS)などのコンピュータビジョンタスクにマンバを適応させる様々な試みがなされている。
Vision Mamba (VM) ベースのネットワークは、Vision Transformers のようなグローバルな受容フィールドを実現する能力に加えて、トークン数の線形複雑性も維持できるため、特に魅力的である。
しかし、既存のVMモデルは、そのシーケンシャルな性質のため、高次元配列におけるトークンの空間的局所的およびグローバル的依存関係の維持に苦慮している。
MIS問題に共通する高次元2次元および3次元画像へのSSMの応用を妨げるため、複数および/または複雑なスキャン戦略を採用するのに計算コストがかかる。
本研究では,空間的に隣接したトークンをチャネル軸付近に保持するように明示的に強制し,グローバルコンテキストを圧縮形式で保持するローカル・グローバル・ビジョン・マンバ(LoG-VMamba)を提案する。
本手法により,SSMは,単純なスキャン戦略を必要とせず,最後のトークンに到達する前に,ローカルコンテキストとグローバルコンテキストにアクセスできる。
我々のセグメンテーションモデルは計算効率が高く、CNNとTransformersベースのベースラインを多種多様な2次元MISタスクと3次元MISタスクで大幅に上回っている。
LoG-VMambaの実装は \url{https://github.com/Oulu-IMEDS/LoG-VMamba} で公開されている。
Mamba, a State Space Model (SSM), has recently shown competitive performance to Convolutional Neural Networks (CNNs) and Transformers in Natural Language Processing and general sequence modeling. Various attempts have been made to adapt Mamba to Computer Vision tasks, including medical image segmentation (MIS). Vision Mamba (VM)-based networks are particularly attractive due to their ability to achieve global receptive fields, similar to Vision Transformers, while also maintaining linear complexity in the number of tokens. However, the existing VM models still struggle to maintain both spatially local and global dependencies of tokens in high dimensional arrays due to their sequential nature. Employing multiple and/or complicated scanning strategies is computationally costly, which hinders applications of SSMs to high-dimensional 2D and 3D images that are common in MIS problems. In this work, we propose Local-Global Vision Mamba, LoG-VMamba, that explicitly enforces spatially adjacent tokens to remain nearby on the channel axis, and retains the global context in a compressed form. Our method allows the SSMs to access the local and global contexts even before reaching the last token while requiring only a simple scanning strategy. Our segmentation models are computationally efficient and substantially outperform both CNN and Transformers-based baselines on a diverse set of 2D and 3D MIS tasks. The implementation of LoG-VMamba is available at \url{https://github.com/Oulu-IMEDS/LoG-VMamba}. | 翻訳日:2024-08-27 13:21:54 公開日:2024-08-26 |
# 超次元コンピューティングを用いたメタバース用無線ネットワーク上のフェデレーションモデル
Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse ( http://arxiv.org/abs/2408.14416v1 ) ライセンス: Link先を確認 | Yahao Ding, Wen Shang, Minrui Xu, Zhaohui Yang, Ye Hu, Dusit Niyato, Mohammad Shikh-Bahaei, | (参考訳) このMetaverseは、拡張現実と永続的なバーチャルワールドを融合して、没入的で対話的な体験をサポートするために、高度な人工知能(AI)とコミュニケーション技術を必要としている。
フェデレートラーニング(FL)は、データプライバシを保持しながらAIモデルを協調的にトレーニングするための有望なテクニックとして登場した。
しかしFLは、特にニューラルネットワーク(NN)モデルにおいて、高い通信オーバーヘッドやかなりの計算要求といった課題に直面している。
これらの課題に対処するために,新しい基礎モデルのための統合型分割学習と超次元計算(FSL-HDC)フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、特にMetaverseのリソース制約されたエッジデバイスに適している。
さらに,サーバに送信する全ユーザ間の最大伝送時間を最小化するために,送信電力と帯域幅を同時に最適化する最適化アルゴリズムを導入する。
MNISTデータセットに基づくシミュレーションの結果、FSL-HDCの精度は約87.5%であり、FL-HDCよりもわずかに低い。
しかし、FSL-HDCはFSL-NNの約3.733倍のはるかに高速な収束速度を示し、非IIDデータ分布に対する堅牢性を示す。
さらに,提案アルゴリズムは,ベースラインと比較して最大伝送時間を最大64%削減することができる。
The Metaverse, a burgeoning collective virtual space merging augmented reality and persistent virtual worlds, necessitates advanced artificial intelligence (AI) and communication technologies to support immersive and interactive experiences. Federated learning (FL) has emerged as a promising technique for collaboratively training AI models while preserving data privacy. However, FL faces challenges such as high communication overhead and substantial computational demands, particularly for neural network (NN) models. To address these issues, we propose an integrated federated split learning and hyperdimensional computing (FSL-HDC) framework for emerging foundation models. This novel approach reduces communication costs, computation load, and privacy risks, making it particularly suitable for resource-constrained edge devices in the Metaverse, ensuring real-time responsive interactions. Additionally, we introduce an optimization algorithm that concurrently optimizes transmission power and bandwidth to minimize the maximum transmission time among all users to the server. The simulation results based on the MNIST dataset indicate that FSL-HDC achieves an accuracy rate of approximately 87.5%, which is slightly lower than that of FL-HDC. However, FSL-HDC exhibits a significantly faster convergence speed, approximately 3.733x that of FSL-NN, and demonstrates robustness to non-IID data distributions. Moreover, our proposed optimization algorithm can reduce the maximum transmission time by up to 64% compared with the baseline. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# MEDSAGE: LLM合成対話を用いたASR誤りに対する医療対話要約のロバスト性向上
MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues ( http://arxiv.org/abs/2408.14418v1 ) ライセンス: Link先を確認 | Kuluhan Binici, Abhinav Ramesh Kashyap, Viktor Schlegel, Andy T. Liu, Vijay Prakash Dwivedi, Thanh-Tung Nguyen, Xiaoxue Gao, Nancy F. Chen, Stefan Winkler, | (参考訳) 音声認識(ASR)システムは、音声をテキストに書き起こす上で重要なシステムであるが、それらが導入した誤りは、要約のような下流タスクのパフォーマンスを著しく低下させる可能性がある。
この問題は、微調整のための教師付きデータが不足している低リソース領域である臨床対話要約において特に顕著であり、ブラックボックスソリューションとしてASRモデルを使用する必要がある。
要約モデルのノイズロバスト性を高めるために従来のデータ拡張を利用することは、十分な医療対話音声記録とそれに対応するASR転写が利用できないため、実現不可能である。
そこで本研究では,大規模言語モデル(LLM)を用いたデータ拡張のための合成サンプル生成手法であるMEDSAGEを提案する。
具体的には、LLMのテキスト内学習機能を活用し、音声録音で利用可能な医療対話例に基づいて、ASRのようなエラーを生成するよう指示する。
実験の結果,LSMはASRノイズを効果的にモデル化し,このノイズデータをトレーニングプロセスに組み込むことで,医用対話要約システムの堅牢性と精度を著しく向上できることがわかった。
本手法は、臨床対話要約の信頼性を高めるための堅牢なソリューションを提供する、重要な応用におけるノイズの多いASR出力の課題に対処する。
Automatic Speech Recognition (ASR) systems are pivotal in transcribing speech into text, yet the errors they introduce can significantly degrade the performance of downstream tasks like summarization. This issue is particularly pronounced in clinical dialogue summarization, a low-resource domain where supervised data for fine-tuning is scarce, necessitating the use of ASR models as black-box solutions. Employing conventional data augmentation for enhancing the noise robustness of summarization models is not feasible either due to the unavailability of sufficient medical dialogue audio recordings and corresponding ASR transcripts. To address this challenge, we propose MEDSAGE, an approach for generating synthetic samples for data augmentation using Large Language Models (LLMs). Specifically, we leverage the in-context learning capabilities of LLMs and instruct them to generate ASR-like errors based on a few available medical dialogue examples with audio recordings. Experimental results show that LLMs can effectively model ASR noise, and incorporating this noisy data into the training process significantly improves the robustness and accuracy of medical dialogue summarization systems. This approach addresses the challenges of noisy ASR outputs in critical applications, offering a robust solution to enhance the reliability of clinical dialogue summarization. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# CHARTOM: マルチモーダル大規模言語モデルのためのビジュアル・オブ・ミンドベンチマーク
CHARTOM: A Visual Theory-of-Mind Benchmark for Multimodal Large Language Models ( http://arxiv.org/abs/2408.14419v1 ) ライセンス: Link先を確認 | Shubham Bharti, Shiyun Cheng, Jihyun Rho, Martina Rao, Xiaojin Zhu, | (参考訳) マルチモーダルな大規模言語モデルのためのビジュアル・オブ・ミンド・ベンチマークであるCHARTOMを紹介する。
CHARTOMは、特別に設計されたデータ視覚化チャートで構成されている。
グラフが与えられたら、言語モデルはチャートを正しく理解するだけでなく(FACTの質問)、チャートが人間の読者に誤解をもたらすかどうかを判断する必要がある(MINDの質問)。
どちらの質問も社会的な利点がある。
人体性能の校正を含むCHARTOMベンチマークの構築について詳述する。
We introduce CHARTOM, a visual theory-of-mind benchmark for multimodal large language models. CHARTOM consists of specially designed data visualizing charts. Given a chart, a language model needs to not only correctly comprehend the chart (the FACT question) but also judge if the chart will be misleading to a human reader (the MIND question). Both questions have significant societal benefits. We detail the construction of the CHARTOM benchmark including its calibration on human performance. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# 表面異常の学習による自然環境の点群における塩分濃度の評価
Evaluating saliency scores in point clouds of natural environments by learning surface anomalies ( http://arxiv.org/abs/2408.14421v1 ) ライセンス: Link先を確認 | Reuma Arav, Dennis Wittich, Franz Rottensteiner, | (参考訳) 近年では、3次元の点雲が自然環境の文書化にますます利用されている。
各データセットには、さまざまな形状と大きさのさまざまなオブジェクトセットが含まれており、データ全体に分散し、トポグラフィと複雑に絡み合っている。
したがって、興味のある地域を見つけることは困難であり、その結果分析が困難になる。
視覚知覚の原理から着想を得て, 環境の散らばった環境, すなわち幾何学的サリエンス(Sallience, 幾何学的サリエンス(Sallience, 幾何学的サリエンス(Sallience, 幾何学的サリエンス))から, それらがどの程度目立ったかを評価することによって, 興味の対象と環境を区別することを提案する。
以前のサリエンシ検出アプローチでは、主に手作りの属性が提案されていた。
しかし、データのノイズが多すぎたり、テクスチャのレベルが高い場合には、そのような手法は失敗する。
そこで本研究では,音やテクスチャを考慮した学習機構を提案する。
自然環境の中では、主表面からのいかなる変化も有意な対象を示唆するであろうと仮定する。
したがって、まず基礎となる表面を学習し、その内部の異常を探索する。
当初、深層ニューラルネットワークは表面を再構築するために訓練される。
再構成部が元の点雲から著しくずれた領域は、実質的な再構成誤差を生じ、異常、すなわち、塩分濃度を示す。
提案手法の有効性を,様々な自然シナリオにおいて有意な特徴を探索し,異なる獲得プラットフォームによって獲得された手法の有効性を実証する。
復元誤差と有意な対象との間には強い相関関係が認められた。
In recent years, three-dimensional point clouds are used increasingly to document natural environments. Each dataset contains a diverse set of objects, at varying shapes and sizes, distributed throughout the data and intricately intertwined with the topography. Therefore, regions of interest are difficult to find and consequent analyses become a challenge. Inspired from visual perception principles, we propose to differentiate objects of interest from the cluttered environment by evaluating how much they stand out from their surroundings, i.e., their geometric salience. Previous saliency detection approaches suggested mostly handcrafted attributes for the task. However, such methods fail when the data are too noisy or have high levels of texture. Here we propose a learning-based mechanism that accommodates noise and textured surfaces. We assume that within the natural environment any change from the prevalent surface would suggest a salient object. Thus, we first learn the underlying surface and then search for anomalies within it. Initially, a deep neural network is trained to reconstruct the surface. Regions where the reconstructed part deviates significantly from the original point cloud yield a substantial reconstruction error, signifying an anomaly, i.e., saliency. We demonstrate the effectiveness of the proposed approach by searching for salient features in various natural scenarios, which were acquired by different acquisition platforms. We show the strong correlation between the reconstruction error and salient objects. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# 高忠実度数値モデルを用いた数ホールGe量子ドットの形状推定
Using a high-fidelity numerical model to infer the shape of a few-hole Ge quantum dot ( http://arxiv.org/abs/2408.14422v1 ) ライセンス: Link先を確認 | Mitchell Brickson, N. Tobias Jacobson, Andrew J. Miller, Leon N. Maurer, Tzu-Ming Lu, Dwight R. Luhman, Andrew D. Baczewski, | (参考訳) Geの孔量子ドットの磁気的性質は、強いスピン軌道結合と閉じ込めの間の相互作用により、その形状に敏感である。
我々は,Ge/SiGeヘテロ構造におけるリソグラフィ量子ドットの有効$g$係数の計算に,分割バンド,SiGe層を取り巻く層,ホールホール相互作用が強い影響を与えることを示す。
これらの効果を含むモデルから生磁気分光データとの比較を行い,最大4つの穴を持つ量子ドットの形状を推定するために最大形状推定を適用した。
このような手法は、半導体のスピンに基づく量子コンピューティング技術のさらなるスケーリングに欠かせない量子ビット対量子ビットの変動を評価するのに有用であると考えています。
The magnetic properties of hole quantum dots in Ge are sensitive to their shape due to the interplay between strong spin-orbit coupling and confinement. We show that the split-off band, surrounding SiGe layers, and hole-hole interactions have a strong influence on calculations of the effective $g$ factor of a lithographic quantum dot in a Ge/SiGe heterostructure. Comparing predictions from a model including these effects to raw magnetospectroscopy data, we apply maximum-likelihood estimation to infer the shape of a quantum dot with up to four holes. We expect that methods like this will be useful in assessing qubit-to-qubit variability critical to further scaling quantum computing technologies based on spins in semiconductors. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# マルチサロゲート核融合によるFew-Shot 3Dボリュームセグメンテーション
Few-Shot 3D Volumetric Segmentation with Multi-Surrogate Fusion ( http://arxiv.org/abs/2408.14427v1 ) ライセンス: Link先を確認 | Meng Zheng, Benjamin Planche, Zhongpai Gao, Terrence Chen, Richard J. Radke, Ziyan Wu, | (参考訳) 従来の3D画像分割法では、オーバーフィッティングを避けるために、重い3Dネットワーク(例えば3D-UNet)の学習と、正確なピクセル/ボクセルレベルのラベルを持つ大量のドメインデータが必要である。
これらの解は、非常に時間と労力がかかるが、訓練中に目に見えない物体に一般化するのに失敗することもある。
この問題を軽減するために,MSFSegを提案する。MSFSegは軽量なマルチサロゲート融合(MSF)を備えた,数発の3Dセグメンテーションフレームワークである。
MSFSegは、患者集団間で、密集したクエリサポートされた臓器/レジオンの解剖学的相関を学習することで、1つまたは数個の注釈付き2Dスライスまたは3Dシーケンスセグメントを備えた、目に見えない3Dオブジェクト/組織(トレーニング中)を自動的に分割することができる。
提案するMSFモジュールは,複数のサロゲートを用いてラベル付きスライスと少数のラベル付きスライス/シーケンス間の網羅的および多様化した形態相関関係を抽出し,アノテートスライスまたはシーケンスを付与した正確なクロスドメイン3Dセグメンテーションマスクを生成する。
提案手法の有効性は,従来の少数ショットセグメンテーションベンチマークにおいて先行技術と比較して優れた性能を示すとともに,プロプライエタリな3次元セグメンテーションデータセット上でのドメイン間クロスボリュームセグメンテーション性能を顕著に示すことで実証した。
Conventional 3D medical image segmentation methods typically require learning heavy 3D networks (e.g., 3D-UNet), as well as large amounts of in-domain data with accurate pixel/voxel-level labels to avoid overfitting. These solutions are thus extremely time- and labor-expensive, but also may easily fail to generalize to unseen objects during training. To alleviate this issue, we present MSFSeg, a novel few-shot 3D segmentation framework with a lightweight multi-surrogate fusion (MSF). MSFSeg is able to automatically segment unseen 3D objects/organs (during training) provided with one or a few annotated 2D slices or 3D sequence segments, via learning dense query-support organ/lesion anatomy correlations across patient populations. Our proposed MSF module mines comprehensive and diversified morphology correlations between unlabeled and the few labeled slices/sequences through multiple designated surrogates, making it able to generate accurate cross-domain 3D segmentation masks given annotated slices or sequences. We demonstrate the effectiveness of our proposed framework by showing superior performance on conventional few-shot segmentation benchmarks compared to prior art, and remarkable cross-domain cross-volume segmentation performance on proprietary 3D segmentation datasets for challenging entities, i.e., tubular structures, with only limited 2D or 3D labels. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# 二重)正弦-ゴルドンモデルにおける緩和ダイナミクス--開系の観点から
Relaxation dynamics in the (double) sine-Gordon model -- an open-system viewpoint ( http://arxiv.org/abs/2408.14428v1 ) ライセンス: Link先を確認 | D. Szász-Schagrin, D. X. Horváth, G. Takács, | (参考訳) 本研究では, 可積分性破壊が(二重)正弦-ゴルドンモデルの緩和力学に及ぼす影響について検討した。
従来の研究と比較して、位相場を均質な部分と不均一な部分に分離し、量子振り子(サブシステム)と相互作用する音速浴(環境)を記述することにより、オープンシステム物理学によって動機付けられた別の視点を適用する。
モデル内の緩和力学を研究するために、最近開発されたミニスーパースペースベースのトランケートハミルトンアプローチを用いて量子クエンチを行い、様々な絡み合い尺度のリアルタイム進化とサブシステムとその環境間のエネルギー移動をシミュレートする。
本研究は,積分可能性破壊摂動の存在下では,量子振り子とフォノン浴の間の絡み合いの増加とエネルギー移動によって緩和ダイナミクスが著しく速くなることを示した。
We study the effects of integrability breaking on the relaxation dynamics of the (double) sine-Gordon model. Compared to previous studies, we apply an alternative viewpoint motivated by open-system physics by separating the phase field into homogeneous and inhomogeneous parts, describing a quantum pendulum (subsystem) and an interacting phononic bath (environment). To study the relaxation dynamics in the model, we perform quantum quenches using the mini-superspace-based truncated Hamiltonian approach developed recently and simulate the real-time evolution of various entanglement measures and the energy transfer between the subsystem and its environment. Our findings demonstrate that in the presence of integrability-breaking perturbations, the relaxation dynamics is substantially faster, signalled by the increase of entanglement and energy transfer between the quantum pendulum and the phonon bath. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# NPM生態系の破壊的変化の理解向上に向けて
Towards Better Comprehension of Breaking Changes in the NPM Ecosystem ( http://arxiv.org/abs/2408.14431v1 ) ライセンス: Link先を確認 | Dezhen Kong, Jiakun Liu, Lingfeng Bao, David Lo, | (参考訳) 下流の開発者は、破壊的な変更に適応する必要があるし、上流の開発者はそれらを識別し、文書化する責任がある。
NPMエコシステムでは、頻繁なコード変更と破壊的な変更に対する高い耐性によって特徴づけられるが、その労力は大きい。
NPMエコシステムの破壊的変化の理解を深め,破壊的変化検出ツールを強化するため,我々はNPMエコシステムの破壊的変化を大規模に調査する。
我々は381のNPMプロジェクトから明示的に文書化された破壊的変更のデータセットを構築した。
検出された破壊的な変更の93.6%は開発者のドキュメントでカバーでき、破壊的な変更の約19%は回帰テストでは検出できない。
次に、収集した破壊的変化のソースコードを調べる過程で、JavaScriptとTypeScript固有の構文的破壊的変化の分類と、主要な行動的破壊的変化の分類が得られる。
さらに、開発者がNPMの破壊的な変更を行う理由を調査し、コードの冗長性を減らし、識別子名を改善し、API設計を改善する3つの主な理由を見つけ、それぞれのカテゴリにはいくつかのサブ項目が含まれている。
例えば、JavaScriptプロジェクトでは、識別子名を改善するために自動命名とリネーム技術が適用されるべきであり、将来の研究では、より多くのタイプの行動破壊的な変更を検出することができる。
本発表では,自動リネームおよびBC検出手法の弱点についても論じる。
Breaking changes cause a lot of effort to both downstream and upstream developers: downstream developers need to adapt to breaking changes and upstream developers are responsible for identifying and documenting them. In the NPM ecosystem, characterized by frequent code changes and a high tolerance for making breaking changes, the effort is larger. For better comprehension of breaking changes in the NPM ecosystem and to enhance breaking change detection tools, we conduct a large-scale empirical study to investigate breaking changes in the NPM ecosystem. We construct a dataset of explicitly documented breaking changes from 381 popular NPM projects. We find that 93.6% of the detected breaking changes can be covered by developers' documentation, and about 19% of the breaking changes cannot be detected by regression testing. Then in the process of investigating source code of our collected breaking changes, we yield a taxonomy of JavaScript and TypeScript-specific syntactic breaking changes and a taxonomy of major types of behavioral breaking changes. Additionally, we investigate the reasons why developers make breaking changes in NPM and find three major reasons, i.e., to reduce code redundancy, to improve identifier name, and to improve API design, and each category contains several sub-items. We provide actionable implications for future research, e.g., automatic naming and renaming techniques should be applied in JavaScript projects to improve identifier names, future research can try to detect more types of behavioral breaking changes. By presenting the implications, we also discuss the weakness of automatic renaming and BC detection approaches. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# ハーディング効果のあるコンテキスト帯域:アルゴリズムと勧告応用
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications ( http://arxiv.org/abs/2408.14432v1 ) ライセンス: Link先を確認 | Luyue Xu, Liming Wang, Hong Xie, Mingqiang Zhou, | (参考訳) コンテキスト帯域幅は、オンラインのレコメンデーション決定を最適化するための基本的なアルゴリズムのフレームワークとして機能する。
推奨アプリケーションのためのコンテキスト的帯域幅を調整するために、広範囲に注意が払われているが、ユーザフィードバックの"ハーディングエフェクト"は無視されている。
これらのハーディング効果は、ユーザーのフィードバックを歴史的評価に偏り、文脈的盗聴に固有の偏りのないフィードバックの仮定を分解する。
本報告では, 群れ効果によるフィードバックバイアスに対処するために, 文脈的包帯の新たな変種を考案する。
このフィードバックバイアスを捉えるために、ユーザフィードバックモデルが定式化されます。
我々は、探索と悪用のトレードオフのバランスをとるために後続サンプリングを利用するTS-Confアルゴリズムを設計する。
我々は,アルゴリズムが学習速度に与える影響を明らかにすることによって,アルゴリズムの後悔に対する上限を証明した。
データセットに関する大規模な実験は、TS-Confが4つのベンチマークアルゴリズムを上回っていることを示している。
解析の結果、TS-Confは遺伝効果の負の影響を効果的に軽減し、学習の高速化と推奨精度の向上をもたらすことが明らかとなった。
Contextual bandits serve as a fundamental algorithmic framework for optimizing recommendation decisions online. Though extensive attention has been paid to tailoring contextual bandits for recommendation applications, the "herding effects" in user feedback have been ignored. These herding effects bias user feedback toward historical ratings, breaking down the assumption of unbiased feedback inherent in contextual bandits. This paper develops a novel variant of the contextual bandit that is tailored to address the feedback bias caused by the herding effects. A user feedback model is formulated to capture this feedback bias. We design the TS-Conf (Thompson Sampling under Conformity) algorithm, which employs posterior sampling to balance the exploration and exploitation tradeoff. We prove an upper bound for the regret of the algorithm, revealing the impact of herding effects on learning speed. Extensive experiments on datasets demonstrate that TS-Conf outperforms four benchmark algorithms. Analysis reveals that TS-Conf effectively mitigates the negative impact of herding effects, resulting in faster learning and improved recommendation accuracy. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# Colmenaによるエクササイズワークフローのステアリングに人工知能を活用する
Employing Artificial Intelligence to Steer Exascale Workflows with Colmena ( http://arxiv.org/abs/2408.14434v1 ) ライセンス: Link先を確認 | Logan Ward, J. Gregory Pauloski, Valerie Hayot-Sasson, Yadu Babuji, Alexander Brace, Ryan Chard, Kyle Chard, Rajeev Thakur, Ian Foster, | (参考訳) 計算ワークフローはスーパーコンピュータ上の一般的なアプリケーションクラスであるが、疎結合で異質なワークフローの性質は、しばしばそれらの能力を最大限に活用できない。
我々は、人工知能(AI)を用いて、スーパーコンピュータの巨大な並列性を活用してワークフローを学習し、実行時に適応するためにColmenaを開発した。
Colmenaは、アプリケーションがどのようにイベント(例えばタスク完了)に応答すべきかを、一連の協調エージェントとして定義することを可能にする。
本稿では、Colmenaの設計、エクサスケールシステムにアプリケーションをデプロイする際の課題、AIを織り込んだ科学ワークフローについて述べる。
議論するスケーリングの課題には、ノード利用を最大化するステアリング戦略の開発、データ集約タスクの通信オーバーヘッドを低減するデータファブリックの導入、呼び出し間のコストの高い操作をキャッシュするワークフロータスクの実装などがあります。
これらのイノベーションとエージェントベースのステアリングモデルを通じてアクセス可能なさまざまなアプリケーションパターンが組み合わさって、さまざまなタイプのAIを用いた化学、生物物理学、材料科学の科学的進歩を可能にした。
私たちのビジョンは、Colmenaが科学コンピューティングの多くの領域でAIを活用する創造的なソリューションを刺激することです。
Computational workflows are a common class of application on supercomputers, yet the loosely coupled and heterogeneous nature of workflows often fails to take full advantage of their capabilities. We created Colmena to leverage the massive parallelism of a supercomputer by using Artificial Intelligence (AI) to learn from and adapt a workflow as it executes. Colmena allows scientists to define how their application should respond to events (e.g., task completion) as a series of cooperative agents. In this paper, we describe the design of Colmena, the challenges we overcame while deploying applications on exascale systems, and the science workflows we have enhanced through interweaving AI. The scaling challenges we discuss include developing steering strategies that maximize node utilization, introducing data fabrics that reduce communication overhead of data-intensive tasks, and implementing workflow tasks that cache costly operations between invocations. These innovations coupled with a variety of application patterns accessible through our agent-based steering model have enabled science advances in chemistry, biophysics, and materials science using different types of AI. Our vision is that Colmena will spur creative solutions that harness AI across many domains of scientific computing. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# 視覚言語モデルにおける顔の社会的知覚
Social perception of faces in a vision-language model ( http://arxiv.org/abs/2408.14435v1 ) ライセンス: Link先を確認 | Carina I. Hausladen, Manuel Knott, Colin F. Camerer, Pietro Perona, | (参考訳) オープンソースの視覚言語モデルであるCLIPにおける人間の顔の社会的知覚について検討する。
この目的のために、異なるテキストプロンプトと一連の顔画像とのCLIP埋め込みの類似性を比較する。
我々のテキスト・プロンプトは、社会的知覚を示す社会的心理学用語から成り立っている。
顔画像は合成され、年齢、性別、人種の法的保護された属性、表情、照明、ポーズの6つの次元に沿って、体系的に、独立的に異なる。
顔の属性を独立かつ体系的に操作することで、それぞれの特性が社会的知覚に与える影響を研究でき、属性間の非制御的な体系的相関により、野生の収集データで起こりうる矛盾を避けることができる。
したがって,本研究の成果は観察的ではなく実験的である。
主な発見は3つです。
第一に、CLIPは多種多様な画像やテキストで訓練されているが、顔画像上で人間のようなきめ細かい社会的判断をすることができる。
第二に、年齢、性別、人種はCLIPの顔に対する社会的認識に体系的に影響を与え、CLIP vis-a-vis の法的に保護された属性に対する望ましくない偏見を示唆している。
最も顕著なことに、私たちは黒人女性の顔に関する強い偏見パターンを見つけ、そこでCLIPは年齢や表情の異なる社会的知覚の極端な価値を生み出します。
第3に、表情は年齢よりも社会的知覚に影響を及ぼし、照明は年齢にも及ばない。
最後の発見は、保護されていない視覚特性を制御していない研究が、バイアスに関する間違った結論に達する可能性があることを予測している。
本研究は,社会心理学の文献と個々の属性の操作に関する実験に基づいて,従来の観察方法よりも鋭く,信頼性の高い観察結果が得られるとともに,任意の視覚言語モデルにおけるバイアスの研究にも適用することができる。
We explore social perception of human faces in CLIP, a widely used open-source vision-language model. To this end, we compare the similarity in CLIP embeddings between different textual prompts and a set of face images. Our textual prompts are constructed from well-validated social psychology terms denoting social perception. The face images are synthetic and are systematically and independently varied along six dimensions: the legally protected attributes of age, gender, and race, as well as facial expression, lighting, and pose. Independently and systematically manipulating face attributes allows us to study the effect of each on social perception and avoids confounds that can occur in wild-collected data due to uncontrolled systematic correlations between attributes. Thus, our findings are experimental rather than observational. Our main findings are three. First, while CLIP is trained on the widest variety of images and texts, it is able to make fine-grained human-like social judgments on face images. Second, age, gender, and race do systematically impact CLIP's social perception of faces, suggesting an undesirable bias in CLIP vis-a-vis legally protected attributes. Most strikingly, we find a strong pattern of bias concerning the faces of Black women, where CLIP produces extreme values of social perception across different ages and facial expressions. Third, facial expression impacts social perception more than age and lighting as much as age. The last finding predicts that studies that do not control for unprotected visual attributes may reach the wrong conclusions on bias. Our novel method of investigation, which is founded on the social psychology literature and on the experiments involving the manipulation of individual attributes, yields sharper and more reliable observations than previous observational methods and may be applied to study biases in any vision-language model. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# スパイクニューラルネットワークのスポーサリティ対応ハードウェアソフト共同設計の概要
Sparsity-Aware Hardware-Software Co-Design of Spiking Neural Networks: An Overview ( http://arxiv.org/abs/2408.14437v1 ) ライセンス: Link先を確認 | Ilkin Aliyev, Kama Svoboda, Tosiron Adegbija, Jean-Marc Fellous, | (参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的ニューラルネットワークのスパースでイベント駆動的な性質にインスパイアされ、超低消費電力人工知能の可能性を秘めている。
しかし、その効率性を実現するには特別なハードウェアと、空間性を効果的に活用する共同設計アプローチが必要である。
スパースSNNのハードウェア・ソフトウェア共同設計について検討し,スパース表現,ハードウェアアーキテクチャ,トレーニング技術がハードウェア効率に与える影響について検討する。
静的および動的疎結合の影響を解析し、異なるニューロンモデルと符号化スキームの影響を考察し、ハードウェア設計における適応性の必要性について検討する。
本研究の目的は,スパースSNNの計算的優位性をフル活用した,組込みニューロモルフィックシステムへの道筋を解明することである。
Spiking Neural Networks (SNNs) are inspired by the sparse and event-driven nature of biological neural processing, and offer the potential for ultra-low-power artificial intelligence. However, realizing their efficiency benefits requires specialized hardware and a co-design approach that effectively leverages sparsity. We explore the hardware-software co-design of sparse SNNs, examining how sparsity representation, hardware architectures, and training techniques influence hardware efficiency. We analyze the impact of static and dynamic sparsity, discuss the implications of different neuron models and encoding schemes, and investigate the need for adaptability in hardware designs. Our work aims to illuminate the path towards embedded neuromorphic systems that fully exploit the computational advantages of sparse SNNs. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# 空間課題における大規模言語モデルの評価:マルチタスクベンチマークによる検討
Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study ( http://arxiv.org/abs/2408.14438v1 ) ライセンス: Link先を確認 | Liuchang Xu Shuo Zhao, Qingming Lin, Luyao Chen, Qianqian Luo, Sensen Wu, Xinyue Ye, Hailin Feng, Zhenhong Du, | (参考訳) ChatGPTやGeminiといった大規模言語モデルの出現は、自然言語理解からコード生成まで、さまざまな能力を評価することの重要性を強調している。
しかし,空間的課題におけるそれらの性能は包括的に評価されていない。
本研究では,空間的タスクにおけるいくつかの高度なモデルの性能を体系的に探索し,比較するために設計された,新しいマルチタスク空間評価データセットを導入することで,このギャップに対処する。
データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含み、それぞれが検証された正確な答えを持っている。
2相試験により,OpenAIのgpt-3.5-turbo,gpt-4o,ZhipuAIのglm-4を含む複数のモデルを評価した。
最初はゼロショットテストを行い、続いてデータセットを難易度で分類し、迅速なチューニングテストを実行しました。
結果,gpt-4oは第1相において平均71.3%の総合的精度を示した。
ムーンショット-v1-8kは全体的に若干性能が劣ったが、地名認識タスクではgpt-4oを上回った。
調査はまた、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。
例えば、Chain-of-Thought(COT)戦略では、経路計画におけるgpt-4oの精度が12.4%から87.5%に向上し、一方、1ショット戦略では、マッピングタスクにおけるv1-8kの精度が10.1%から76.3%に向上した。
The advent of large language models such as ChatGPT, Gemini, and others has underscored the importance of evaluating their diverse capabilities, ranging from natural language understanding to code generation. However, their performance on spatial tasks has not been comprehensively assessed. This study addresses this gap by introducing a novel multi-task spatial evaluation dataset, designed to systematically explore and compare the performance of several advanced models on spatial tasks. The dataset encompasses twelve distinct task types, including spatial understanding and path planning, each with verified, accurate answers. We evaluated multiple models, including OpenAI's gpt-3.5-turbo, gpt-4o, and ZhipuAI's glm-4, through a two-phase testing approach. Initially, we conducted zero-shot testing, followed by categorizing the dataset by difficulty and performing prompt tuning tests. Results indicate that gpt-4o achieved the highest overall accuracy in the first phase, with an average of 71.3%. Although moonshot-v1-8k slightly underperformed overall, it surpassed gpt-4o in place name recognition tasks. The study also highlights the impact of prompt strategies on model performance in specific tasks. For example, the Chain-of-Thought (COT) strategy increased gpt-4o's accuracy in path planning from 12.4% to 87.5%, while a one-shot strategy enhanced moonshot-v1-8k's accuracy in mapping tasks from 10.1% to 76.3%. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# リモート光浮遊ナノ粒子の運動絡み合い
Motional entanglement of remote optically levitated nanoparticles ( http://arxiv.org/abs/2408.14439v1 ) ライセンス: Link先を確認 | Nicola Carlon Zambon, Massimiliano Rossi, Martin Frimmer, Lukas Novotny, Carlos Gonzalez-Ballestero, Oriol Romero-Isart, Andrei Militaru, | (参考訳) 遠方の光学的ツイーザにおいて、光浮遊ナノ粒子の運動をどう絡めるかを示す。
このスキームは、各粒子の非弾性散乱光を伝送線に結合し、他の粒子に誘導する。
この光と背景場の干渉は、2つの粒子を効果的に結合させ、同時にリコイル加熱の効果を低減させる。
遠隔粒子間の過渡的および条件的絡み合いを現実的な実験条件下で行うことができることを示す。
We show how to entangle the motion of optically levitated nanoparticles in distant optical tweezers. The scheme consists in coupling the inelastically scattered light of each particle into transmission lines and directing it towards the other particle. The interference between this light and the background field introduces an effective coupling between the two particles while simultaneously reducing the effect of recoil heating. We analyze the system dynamics, showing that both transient and conditional entanglement between remote particles can be achieved under realistic experimental conditions. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# Attend-Fusion:ビデオ分類のための効率的なオーディオ・ビジュアル・フュージョン
Attend-Fusion: Efficient Audio-Visual Fusion for Video Classification ( http://arxiv.org/abs/2408.14441v1 ) ライセンス: Link先を確認 | Mahrukh Awan, Asmar Nadeem, Muhammad Junaid Awan, Armin Mustafa, Syed Sameed Husain, | (参考訳) 既存の手法では大規模なモデルアーキテクチャが必要であり、高い計算複雑性とリソース要求をもたらすため、ビデオ分類のためのオーディオと視覚の両方のモダリティの爆発は難しい課題である。
一方、より小さなアーキテクチャは、最適なパフォーマンスを達成するのに苦労する。
本稿では,映像データ中の複雑な音声と視覚の関係を捉えるための,コンパクトなモデルアーキテクチャを導入する,オーディオ・視覚融合(AV)融合アプローチであるAttend-Fusionを提案する。
挑戦的なYouTube-8Mデータセットに関する広範な実験を通じて、Attend-Fusionは72Mパラメータだけで75.64\%のF1スコアを達成し、Fully-Connected Late Fusion(75.96\% F1スコア、341Mパラメータ)のような大規模なベースラインモデルのパフォーマンスと同等であることを示した。
Attend-Fusionは、より大きなベースラインモデルと同じようなパフォーマンスを実現し、モデルサイズを80%近く削減し、モデルの複雑さの観点からその効率性を強調します。
本研究は,映像分類のための音声情報と視覚情報を効果的に結合し,モデルサイズを大幅に縮小した競合性能を実現することを実証する。
このアプローチは、様々なアプリケーションにわたるリソース制約のある環境において、高性能なビデオ理解システムをデプロイする新たな可能性を開く。
Exploiting both audio and visual modalities for video classification is a challenging task, as the existing methods require large model architectures, leading to high computational complexity and resource requirements. Smaller architectures, on the other hand, struggle to achieve optimal performance. In this paper, we propose Attend-Fusion, an audio-visual (AV) fusion approach that introduces a compact model architecture specifically designed to capture intricate audio-visual relationships in video data. Through extensive experiments on the challenging YouTube-8M dataset, we demonstrate that Attend-Fusion achieves an F1 score of 75.64\% with only 72M parameters, which is comparable to the performance of larger baseline models such as Fully-Connected Late Fusion (75.96\% F1 score, 341M parameters). Attend-Fusion achieves similar performance to the larger baseline model while reducing the model size by nearly 80\%, highlighting its efficiency in terms of model complexity. Our work demonstrates that the Attend-Fusion model effectively combines audio and visual information for video classification, achieving competitive performance with significantly reduced model size. This approach opens new possibilities for deploying high-performance video understanding systems in resource-constrained environments across various applications. | 翻訳日:2024-08-27 13:12:07 公開日:2024-08-26 |
# ドメイン分割による畳み込みニューラルネットワークのモデル並列学習と伝達学習
Model Parallel Training and Transfer Learning for Convolutional Neural Networks by Domain Decomposition ( http://arxiv.org/abs/2408.14442v1 ) ライセンス: Link先を確認 | Axel Klawonn, Martin Lanser, Janine Weber, | (参考訳) ディープ畳み込みニューラルネットワーク(CNN)は、幅広い画像処理アプリケーションで非常に成功したことが示されている。
しかし、モデルパラメータの増大と大量のトレーニングデータの可用性の向上により、複雑なCNNを効率的に訓練するための並列化戦略が必要である。
著者らによる以前の研究で、ドメイン分解に着想を得た新しいモデル並列CNNアーキテクチャが提案された。
特に、新しいネットワークアーキテクチャは、入力データの小さなサブイメージへの分解に基づいている。
これらのサブイメージのそれぞれについて、パラメータ数が比例的に少ないローカルCNNを並列にトレーニングし、その結果のローカル分類を、高密度フィードフォワードニューラルネットワーク(DNN)によって第2ステップに集約する。
本研究は,CNN-DNNアーキテクチャを,ローカル分類を最終的,グローバルな決定に組み合わせるために,コストのかかる代替品と比較する。
さらに,1つのコヒーレントモデルとして訓練されたCNN-DNNの性能と,それに続くグローバルコヒーレントCNN-DNNモデルの初期値として,事前学習されたローカルCNNのパラメータを用いる転送学習戦略について検討する。
Deep convolutional neural networks (CNNs) have been shown to be very successful in a wide range of image processing applications. However, due to their increasing number of model parameters and an increasing availability of large amounts of training data, parallelization strategies to efficiently train complex CNNs are necessary. In previous work by the authors, a novel model parallel CNN architecture was proposed which is loosely inspired by domain decomposition. In particular, the novel network architecture is based on a decomposition of the input data into smaller subimages. For each of these subimages, local CNNs with a proportionally smaller number of parameters are trained in parallel and the resulting local classifications are then aggregated in a second step by a dense feedforward neural network (DNN). In the present work, we compare the resulting CNN-DNN architecture to less costly alternatives to combine the local classifications into a final, global decision. Additionally, we investigate the performance of the CNN-DNN trained as one coherent model as well as using a transfer learning strategy, where the parameters of the pre-trained local CNNs are used as initial values for a subsequently trained global coherent CNN-DNN model. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# 時間的アンサンブル論理
Temporal Ensemble Logic ( http://arxiv.org/abs/2408.14443v1 ) ライセンス: Link先を確認 | Guo-Qiang Zhang, | (参考訳) 線形時間時間的推論のためのモナディックな1次モーダル論理であるテンポラル・アンサンブル論理(TEL)を導入する。
TELには、 ``always up to $t$ time later'(\Box_t$)、 ``sometimes before $t$ time in the future'(\Diamond_t$)、 ``$t$-time later''' $\varphi_t$などの原始的な時間構造が含まれている。
TELは、生物学的医学における時間的推論の形式化のギャップを埋めるために、臨床および人口健康研究におけるコホート仕様と発見の厳格化と再現性の必要性から動機付けられてきた。
本稿では、まず、離散時間と高密度時間とを特別な場合として、TELを一般設定で導入する。
次に、正の整数の時間領域である $\mathbb{N}^+$, ${\rm TEL}_{\mathbb{N}^+}$ に対する離散 TEL の理論的発展に焦点を当てる。
${\rm TEL}_{\mathbb{N}^+}$ は標準的なモナディック二階述語論理よりも厳密に表現され、B\"{u}chi autoa で特徴づけられる。
本稿では,その形式的意味論,証明システム,および${\rm TEL}_{\mathbb{N}^+}$の満足度の未決定性の証明を提供する。
また,${\rm TEL}_{\mathbb{N}^+}$に対する表現性や決定可能性の断片についても論じる。
We introduce Temporal Ensemble Logic (TEL), a monadic, first-order modal logic for linear-time temporal reasoning. TEL includes primitive temporal constructs such as ``always up to $t$ time later'' ($\Box_t$), ``sometimes before $t$ time in the future'' ($\Diamond_t$), and ``$t$-time later'' $\varphi_t$. TEL has been motivated from the requirement for rigor and reproducibility for cohort specification and discovery in clinical and population health research, to fill a gap in formalizing temporal reasoning in biomedicine. In this paper, we first introduce TEL in a general set up, with discrete and dense time as special cases. We then focus on the theoretical development of discrete TEL on the temporal domain of positive integers $\mathbb{N}^+$, denoted as ${\rm TEL}_{\mathbb{N}^+}$. ${\rm TEL}_{\mathbb{N}^+}$ is strictly more expressive than the standard monadic second order logic, characterized by B\"{u}chi automata. We present its formal semantics, a proof system, and provide a proof for the undecidability of the satisfiability of ${\rm TEL}_{\mathbb{N}^+}$. We also discuss expressiveness and decidability fragments for ${\rm TEL}_{\mathbb{N}^+}$, followed by illustrative applications. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# Haldane-Shastry型超対称スピン鎖の熱力学と臨界性
Thermodynamics and criticality of supersymmetric spin chains of Haldane-Shastry type ( http://arxiv.org/abs/2408.14444v1 ) ライセンス: Link先を確認 | Federico Finkel, Artemio González-López, | (参考訳) 我々は、Haldane-Shastry (HS) 型の Su$(m|n)$ 超対称スピン鎖の4つの族の熱力学と臨界特性を解析し、A_{N-1}$とBC_N$古典ルート系の両方に関連する。
これらのモデルのスピンあたりの熱力学的自由エネルギーを、適切な不均一移動行列のペロン固有値で表す既知の公式を用いて、任意の$k=1,2,\dots$とSu$(p|q)$自由エネルギーに関する一般結果を証明する。
このようにして、超対称HS型鎖の無限族のスピン当たりの熱力学自由エネルギーを評価し、その熱力学を研究することができる。
特に, 一定体積における比熱は1つのマークされたショットキーピークが特徴であり, 等間隔のエネルギーを持つ適切な多層系でモデルを近似することにより, ヒューリスティックに説明できることを示す。
また、各スピンあたりの熱力学的自由エネルギーの低温挙動は、中心電荷$c=m+n/2-1$の(1+1)$次元共形場理論と同じであることを示す。
しかし、スペクトルのモチーフベースの記述を用いて、$A_{N-1}$ の Su$(1|n)$ の3つの族と$BC_N$ の $BC_N$ の HS 鎖と$m=1,2,3$ の記号 $\varepsilon_B$ が真に重要なことを証明する。
We analyze the thermodynamics and criticality properties of four families of su$(m|n)$ supersymmetric spin chains of Haldane-Shastry (HS) type, related to both the $A_{N-1}$ and the $BC_N$ classical root systems. Using a known formula expressing the thermodynamic free energy per spin of these models in terms of the Perron (largest in modulus) eigenvalue of a suitable inhomogeneous transfer matrix, we prove a general result relating the su$(kp|kq)$ free energy with arbitrary $k=1,2,\dots$ to the su$(p|q)$ free energy. In this way we are able to evaluate the thermodynamic free energy per spin of several infinite families of supersymmetric HS-type chains, and study their thermodynamics. In particular, we show that in all cases the specific heat at constant volume features a single marked Schottky peak, which in some cases can be heuristically explained by approximating the model with a suitable multi-level system with equally spaced energies. We also study the critical behavior of the models under consideration, showing that the low-temperature behavior of their thermodynamic free energy per spin is the same as that of a $(1+1)$-dimensional conformal field theory with central charge $c=m+n/2-1$. However, using a motif-based description of the spectrum we prove that only the three families of su$(1|n)$ chains of type $A_{N-1}$ and the su$(m|n)$ HS chain of $BC_N$ type with $m=1,2,3$ (when the sign $\varepsilon_B$ in the Hamiltonian takes the value $-1$ in the latter case) are truly critical. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# 対称性と臨界点
Symmetry & Critical Points ( http://arxiv.org/abs/2408.14445v1 ) ライセンス: Link先を確認 | Yossi Arjevani, | (参考訳) 不変関数の臨界点は対称であるかもしれないし、そうでないかもしれない。
しかし、対称臨界点が存在するならば、それに隣接するものは一般対称性の破れである。
この数学的メカニズムは、不変な非凸関数、特にニューラルネットワークに関連する関数を効率的に最小化する能力に重要な意味を持つことが示されている。
Critical points of an invariant function may or may not be symmetric. We prove, however, that if a symmetric critical point exists, those adjacent to it are generically symmetry breaking. This mathematical mechanism is shown to carry important implications for our ability to efficiently minimize invariant nonconvex functions, in particular those associated with neural networks. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# 成人期におけるfMRIの生理的シグナルの再構成
Reconstructing physiological signals from fMRI across the adult lifespan ( http://arxiv.org/abs/2408.14453v1 ) ライセンス: Link先を確認 | Shiyu Wang, Ziyuan Xu, Yamin Li, Mara Mather, Roza G. Bayrak, Catie Chang, | (参考訳) 脳と身体の相互作用は、人間の行動と健康にとって基本的な重要性である。
機能的磁気共鳴イメージング(fMRI)は脳全体の活動を非侵襲的に捉え、fMRI信号が身体の生理的ダイナミクスとどのように相互作用するかをモデル化することで、脳機能に対する新たな洞察を与え、潜在的な疾患のバイオマーカーを提供する。
しかし、追加の機器や装置を必要とするため、生理的記録は必ずしも取得できないため、記録された生理的信号には実質的なアーティファクトが含まれている可能性がある。
この制限を克服するために、安静時fMRI信号から呼吸および心臓活動の特徴を直接抽出する機械学習モデルが提案されている。
現在までに、このような研究は健康な若年層と小児にのみ行われており、これらのアプローチが高齢者に有効であるかどうかというオープンな疑問が残されている。
そこで本研究では,トランスフォーマーをベースとしたアーキテクチャを用いて,fMRIデータから低周波呼吸量 (RV) と心拍変動 (HR) の2つの重要な生理的信号を再構成し,これらのモデルを36~89歳の被験者のデータセット上で検証する手法を提案する。
提案手法はこれまでに提案した手法(RVではr ~ .698,HRではr ~ .618)より優れており,fMRI-生理的信号関係のモデル化に注意機構を活用する可能性を示している。
また,いくつかのモデルトレーニングと微調整戦略を評価し,訓練中に若年者のデータを取り入れることで,老化コホートにおける生理的信号の予測性能が向上することを見出した。
本手法は, 成体寿命の幅広い個人からのfMRIデータから直接, 重要な生理的変数を推測することに成功した。
Interactions between the brain and body are of fundamental importance for human behavior and health. Functional magnetic resonance imaging (fMRI) captures whole-brain activity noninvasively, and modeling how fMRI signals interact with physiological dynamics of the body can provide new insight into brain function and offer potential biomarkers of disease. However, physiological recordings are not always possible to acquire since they require extra equipment and setup, and even when they are, the recorded physiological signals may contain substantial artifacts. To overcome this limitation, machine learning models have been proposed to directly extract features of respiratory and cardiac activity from resting-state fMRI signals. To date, such work has been carried out only in healthy young adults and in a pediatric population, leaving open questions about the efficacy of these approaches on older adults. Here, we propose a novel framework that leverages Transformer-based architectures for reconstructing two key physiological signals - low-frequency respiratory volume (RV) and heart rate (HR) fluctuations - from fMRI data, and test these models on a dataset of individuals aged 36-89 years old. Our framework outperforms previously proposed approaches (attaining median correlations between predicted and measured signals of r ~ .698 for RV and r ~ .618 for HR), indicating the potential of leveraging attention mechanisms to model fMRI-physiological signal relationships. We also evaluate several model training and fine-tuning strategies, and find that incorporating young-adult data during training improves the performance when predicting physiological signals in the aging cohort. Overall, our approach successfully infers key physiological variables directly from fMRI data from individuals across a wide range of the adult lifespan. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# 衣服のグラッピング点定位のための中心方向ネットワーク
Center Direction Network for Grasping Point Localization on Cloths ( http://arxiv.org/abs/2408.14456v1 ) ライセンス: Link先を確認 | Domen Tabernik, Jon Muhovič, Matej Urbas, Danijel Skočaj, | (参考訳) 物体の把握はロボット工学とコンピュータビジョンの基本的な課題であり、ロボット操作能力の進歩に不可欠である。
布や布のような変形可能な物体は、その非剛性のため、さらなる課題を生じさせる。
本稿では,特に布オブジェクトに着目した,点検出のためのディープラーニングモデルであるCeDiRNet-3DoFを紹介する。
CeDiRNet-3DoFはローカライゼーションネットワークとともに中心方向の回帰を採用し、ICRA 2023のクロスマニピュレーションチャレンジの認識タスクで1位を獲得した。
有効な手法比較を妨げている文献における標準ベンチマークの欠如を認識し,ViCoS Towel Datasetを提案する。
この大規模なベンチマークデータセットは、8000個の実画像と12,000個の合成画像で構成され、現代のデータ駆動ディープラーニングアプローチをトレーニングし評価するための堅牢なリソースとして機能する。
大規模な評価により、CeDiRNet-3DoFは、最新のトランスフォーマーベースモデルを含む最先端の手法よりも優れた実世界のパフォーマンスの堅牢性を示した。
私たちの仕事は重要なギャップを埋め、コンピュータービジョンとロボット工学における布をつかむための堅牢なソリューションとベンチマークを提供します。
コードとデータセットは、https://github.com/vicoslab/CeDiRNet-3DoFで入手可能だ。
Object grasping is a fundamental challenge in robotics and computer vision, critical for advancing robotic manipulation capabilities. Deformable objects, like fabrics and cloths, pose additional challenges due to their non-rigid nature. In this work, we introduce CeDiRNet-3DoF, a deep-learning model for grasp point detection, with a particular focus on cloth objects. CeDiRNet-3DoF employs center direction regression alongside a localization network, attaining first place in the perception task of ICRA 2023's Cloth Manipulation Challenge. Recognizing the lack of standardized benchmarks in the literature that hinder effective method comparison, we present the ViCoS Towel Dataset. This extensive benchmark dataset comprises 8,000 real and 12,000 synthetic images, serving as a robust resource for training and evaluating contemporary data-driven deep-learning approaches. Extensive evaluation revealed CeDiRNet-3DoF's robustness in real-world performance, outperforming state-of-the-art methods, including the latest transformer-based models. Our work bridges a crucial gap, offering a robust solution and benchmark for cloth grasping in computer vision and robotics. Code and dataset are available at: https://github.com/vicoslab/CeDiRNet-3DoF | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# 点スーパービジョンを用いた物体カウントと位置決めのためのDense Center-Direction Regression
Dense Center-Direction Regression for Object Counting and Localization with Point Supervision ( http://arxiv.org/abs/2408.14457v1 ) ライセンス: Link先を確認 | Domen Tabernik, Jon Muhovič, Danijel Skočaj, | (参考訳) オブジェクトのカウントとローカライゼーションの問題は、一般に、少ない労働集約的なポイントアノテーションの使用を可能にするポイント教師付き学習で対処される。
しかし、点アノテーションに基づく学習は、点アノテーションのガウス的滑らか化と焦点損失でしばしば扱われる、注釈付き画素と注釈なし画素のセット間の高不均衡により、課題を生じさせる。
しかし、これらのアプローチは依然としてポイントアノテーションのすぐ近くにあるピクセルに焦点を合わせており、データの残りを間接的にのみ利用している。
本研究では,最も近い物体中心,すなわち中心方向を向けた方向の高密度回帰を用いた点教師あり学習のためのCeDiRNetという新しい手法を提案する。
これにより、周囲の多くのピクセルから引き起こされる各中心点がオブジェクト中心に向かって大きく支持される。
本稿では, 対象領域から完全に独立した合成データで学習可能な, 小型で軽量かつドメインに依存しない局所化ネットワークに基づいて, 中心方向のドメイン固有密度回帰と最終位置化タスクに分割できる中心方向の定式化を提案する。
オブジェクトカウントとローカライゼーションのための6つの異なるデータセット上で提案手法の性能を実証し,既存の最先端手法よりも優れていることを示す。
コードはGitHubでhttps://github.com/vicoslab/CeDiRNet.gitで公開されている。
Object counting and localization problems are commonly addressed with point supervised learning, which allows the use of less labor-intensive point annotations. However, learning based on point annotations poses challenges due to the high imbalance between the sets of annotated and unannotated pixels, which is often treated with Gaussian smoothing of point annotations and focal loss. However, these approaches still focus on the pixels in the immediate vicinity of the point annotations and exploit the rest of the data only indirectly. In this work, we propose a novel approach termed CeDiRNet for point-supervised learning that uses a dense regression of directions pointing towards the nearest object centers, i.e. center-directions. This provides greater support for each center point arising from many surrounding pixels pointing towards the object center. We propose a formulation of center-directions that allows the problem to be split into the domain-specific dense regression of center-directions and the final localization task based on a small, lightweight, and domain-agnostic localization network that can be trained with synthetic data completely independent of the target domain. We demonstrate the performance of the proposed method on six different datasets for object counting and localization, and show that it outperforms the existing state-of-the-art methods. The code is accessible on GitHub at https://github.com/vicoslab/CeDiRNet.git. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# 領域分解に基づく非定常・非線形偏微分方程式の自己回帰学習モデル
A domain decomposition-based autoregressive deep learning model for unsteady and nonlinear partial differential equations ( http://arxiv.org/abs/2408.14461v1 ) ライセンス: Link先を確認 | Sheel Nidhan, Haoliang Jiang, Lalit Ghule, Clancy Umphrey, Rishikesh Ranade, Jay Pathak, | (参考訳) 本稿では,非定常・非線形偏微分方程式(PDE)を正確にモデル化するためのドメイン分割型ディープラーニング(DL)フレームワークであるTransient-CoMLSimを提案する。
フレームワークは2つの重要なコンポーネントで構成されています。
(a)畳み込みニューラルネットワーク(CNN)に基づくオートエンコーダアーキテクチャとその実装
(b)完全連結層からなる自己回帰モデル。
計算領域全体で動作する既存の最先端手法とは異なり、我々のCNNベースのオートエンコーダは、サブドメイン上で表現される解場と条件場の低次元基底を計算する。
タイムテッピングは完全に潜時空間で行われ、解変数と条件変数の埋め込みの時間履歴から解変数の埋め込みを生成する。
このアプローチは計算複雑性を低減させるだけでなく、スケーラビリティも向上し、大規模なシミュレーションに適している。
さらに, ロールアウトの安定性を向上させるために, 自己回帰モデルのトレーニングにおいて, カリキュラム学習(CL)アプローチを採用する。
ドメイン分割戦略は、予測の精度を維持しながら、配布外ドメインサイズへのスケーリングを可能にする。
FNO(Fourier Neural Operator)とU-Net(U-Net)という2つの広く使われているDLアーキテクチャに対して、我々のモデルをベンチマークし、我々のフレームワークは、正確性、目に見えないタイムステップへの外挿、幅広いユースケースに対する安定性において、それらよりも優れていることを実証した。
In this paper, we propose a domain-decomposition-based deep learning (DL) framework, named transient-CoMLSim, for accurately modeling unsteady and nonlinear partial differential equations (PDEs). The framework consists of two key components: (a) a convolutional neural network (CNN)-based autoencoder architecture and (b) an autoregressive model composed of fully connected layers. Unlike existing state-of-the-art methods that operate on the entire computational domain, our CNN-based autoencoder computes a lower-dimensional basis for solution and condition fields represented on subdomains. Timestepping is performed entirely in the latent space, generating embeddings of the solution variables from the time history of embeddings of solution and condition variables. This approach not only reduces computational complexity but also enhances scalability, making it well-suited for large-scale simulations. Furthermore, to improve the stability of our rollouts, we employ a curriculum learning (CL) approach during the training of the autoregressive model. The domain-decomposition strategy enables scaling to out-of-distribution domain sizes while maintaining the accuracy of predictions -- a feature not easily integrated into popular DL-based approaches for physics simulations. We benchmark our model against two widely-used DL architectures, Fourier Neural Operator (FNO) and U-Net, and demonstrate that our framework outperforms them in terms of accuracy, extrapolation to unseen timesteps, and stability for a wide range of use cases. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# ランダム対称性量子回路によるユニタリ設計
Unitary Designs from Random Symmetric Quantum Circuits ( http://arxiv.org/abs/2408.14463v1 ) ライセンス: Link先を確認 | Austin Hulse, Hanqing Liu, Iman Marvian, | (参考訳) 本研究では,対称なゲートのみを含むランダム量子回路によって生成されるユニタリの分布について検討する。
すべての対称性群に適用可能な統一的なアプローチを開発し、そのような分布の正確な設計特性を決定する方程式を得る。
ゲートの局所性は、一般に考慮中の対称性に大きく依存する、実現可能なユニタリの集合に様々な制約を課すことが最近示されている。
そのような制約には、対称性の非同値な既約表現を持つセクター間の相対位相に関する制限が含まれる。
対称ゲートの集合を半ユニバーサルと呼び、それらが対称性を尊重するすべてのユニタリをそのような制限まで実現している。
例えば、Z_2, U(1), SU(2)対称性の場合、2-立方体ゲートはキュービット系上の半ユニバーサルであるが、SU(d)対称性とd\ge 3 の場合、半ユニバーシティは3-立方体ゲートでのみ達成できる。
半ユニバーサリティの失敗は、回路によって生成される分布が、対称性を尊重するすべてのユニタリの群上のハール(ユニフォーム)分布の2-設計でさえないことを意味する。
一方、半ユニバーサリティが成り立つとき、U(1) と SU(2) の場合には、ゲート集合上の穏やかな条件下では、ランダム回路によって生成されるユニタリの分布は、ゲートの局所性によって決定される次数で多項式的に成長する t に対する t-Design となる。
より一般に、回路によって生成されるユニタリの均一分布が t-design である整数 t の最大値を決定する単純な線形方程式を示し、様々な例でこの方程式を解く。
In this work, we study distributions of unitaries generated by random quantum circuits that contain only gates respecting a symmetry. We develop a unified approach applicable to all symmetry groups and obtain an equation that determines the exact design properties of such distributions. It has been recently shown that the locality of gates imposes various constraints on the set of realizable unitaries, which in general, significantly depend on the symmetry under consideration. Generically, such constraints include restrictions on the relative phases between sectors with inequivalent irreducible representations of the symmetry. We call a set of symmetric gates semi-universal if they realize all unitaries that respect the symmetry, up to such restrictions. For instance, while in the case of Z_2, U(1), and SU(2) symmetries, 2-qubit gates are semi-universal on qubit systems, in the case of SU(d) symmetry with d\ge 3, semi-universality can be achieved only with 3-qudit gates. The failure of semi-universality implies that the distribution generated by the circuit is not even a 2-design for the Haar (uniform) distribution over the group of all unitaries respecting the symmetry. On the other hand, when semi-universality holds, under mild conditions on the gate set, which hold, e.g., in the case of U(1) and SU(2), the distribution of unitaries generated by the random circuit becomes a t-design for t growing polynomially with the number of qudits with a degree that is determined by the locality of gates. More generally, we present a simple linear equation that determines the maximum value of the integer t, for which the uniform distribution of unitaries generated by the circuits is a t-design, and solve this equation for various examples. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# 大規模言語モデルを用いた明示的帰納推論
Explicit Inductive Inference using Large Language Models ( http://arxiv.org/abs/2408.14467v1 ) ライセンス: Link先を確認 | Tianyang Liu, Tianyi Li, Liang Cheng, Mark Steedman, | (参考訳) 大規模言語モデル(LLM)は、推論タスクにおいて望ましくない証明バイアスを持つと報告されている:前提 P が仮説 H を包含するかどうかを予測しようとすると、P が関連する H の条件的真性を考える代わりに、LLM は H のアウト・オブ・コンテクスト的真性ラベルを脆弱なプロキシとして使う傾向にある。
本稿では,このバイアスを利用して明示的な帰納的推論を行うパイプラインを提案する。
我々のパイプラインは LLM を用いて前提を証明されていない代替品の集合に変換し、導出された新しい推論質問の回答を集約し、元の推論予測をサポートする。
この単純なパイプラインを適用することで,LLMの推論における全体的な性能を向上し,検証バイアスの影響を大幅に軽減できることを示す。
Large Language Models (LLMs) are reported to hold undesirable attestation bias on inference tasks: when asked to predict if a premise P entails a hypothesis H, instead of considering H's conditional truthfulness entailed by P, LLMs tend to use the out-of-context truth label of H as a fragile proxy. In this paper, we propose a pipeline that exploits this bias to do explicit inductive inference. Our pipeline uses an LLM to transform a premise into a set of attested alternatives, and then aggregate answers of the derived new entailment inquiries to support the original inference prediction. On a directional predicate entailment benchmark, we demonstrate that by applying this simple pipeline, we can improve the overall performance of LLMs on inference and substantially alleviate the impact of their attestation bias. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# K-Sort Arena: K-wise Human Preferencesによる生成モデルのための効率的で信頼性の高いベンチマーク
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences ( http://arxiv.org/abs/2408.14468v1 ) ライセンス: Link先を確認 | Zhikai Li, Xuewen Liu, Dongrong Fu, Jianquan Li, Qingyi Gu, Kurt Keutzer, Zhen Dong, | (参考訳) 視覚生成モデルの急速な進歩は、効率的で信頼性の高い評価方法を必要とする。
モデル比較でユーザー投票を集めるArenaプラットフォームは、モデルと人間の好みをランク付けすることができる。
しかし、伝統的なアリーナ法は確立されているにもかかわらず、ランキングを収束させるには過度な数の比較が必要であり、投票における選好ノイズに弱いため、現代の評価課題に合わせたより良いアプローチの必要性が示唆されている。
本稿では,K-Sort Arenaを紹介する。K-Sort Arenaは,テキストよりも知覚的直感性が高く,同時に複数のサンプルの迅速な評価を可能にする,重要な洞察に基づく,効率的で信頼性の高いプラットフォームである。
その結果、K-ソート・アリーナはK-ワイド比較を採用しており、Kモデルは対比較よりもはるかにリッチな情報が得られる自由対オールの競争に参加することができる。
システムの堅牢性を高めるために,確率的モデリングとベイズ更新技術を活用する。
より情報的な比較を容易にするために,探索探索に基づくマッチング戦略を提案する。
我々の実験では、K-Sort Arenaは広く使われているELOアルゴリズムと比較して16.3倍高速収束を示す。
優位性を更に検証し、包括的リーダーボードを得るため、多数の最先端テキスト・ツー・イメージモデルとテキスト・ツー・ビデオモデルのクラウドソースによる評価により、人間のフィードバックを収集する。
高効率のおかげで、K-Sort Arenaは新興モデルを継続的に取り入れ、最小限の投票でリーダーボードを更新できる。
私たちのプロジェクトは数ヶ月の社内テストを経て,https://huggingface.co/spaces/ksort/K-Sort-Arenaで公開されています。
The rapid advancement of visual generative models necessitates efficient and reliable evaluation methods. Arena platform, which gathers user votes on model comparisons, can rank models with human preferences. However, traditional Arena methods, while established, require an excessive number of comparisons for ranking to converge and are vulnerable to preference noise in voting, suggesting the need for better approaches tailored to contemporary evaluation challenges. In this paper, we introduce K-Sort Arena, an efficient and reliable platform based on a key insight: images and videos possess higher perceptual intuitiveness than texts, enabling rapid evaluation of multiple samples simultaneously. Consequently, K-Sort Arena employs K-wise comparisons, allowing K models to engage in free-for-all competitions, which yield much richer information than pairwise comparisons. To enhance the robustness of the system, we leverage probabilistic modeling and Bayesian updating techniques. We propose an exploration-exploitation-based matchmaking strategy to facilitate more informative comparisons. In our experiments, K-Sort Arena exhibits 16.3x faster convergence compared to the widely used ELO algorithm. To further validate the superiority and obtain a comprehensive leaderboard, we collect human feedback via crowdsourced evaluations of numerous cutting-edge text-to-image and text-to-video models. Thanks to its high efficiency, K-Sort Arena can continuously incorporate emerging models and update the leaderboard with minimal votes. Our project has undergone several months of internal testing and is now available at https://huggingface.co/spaces/ksort/K-Sort-Arena | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# 長めのエゴセントリックビデオにおけるグラウンドドマルチホップビデオQA
Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos ( http://arxiv.org/abs/2408.14469v1 ) ライセンス: Link先を確認 | Qirui Chen, Shangzhe Di, Weidi Xie, | (参考訳) 本稿では,長めの自己中心型ビデオにおけるMH-VidQA(Multi-Hop Video Question Answering)の問題について考察する。
このタスクは、視覚的な質問に答えるだけでなく、ビデオ内の複数の関連する時間間隔を視覚的証拠としてローカライズする必要がある。
時間的エビデンスを伴う複数ホップ問合せペアを生成する自動パイプラインを開発し,命令チューニングのための大規模データセットの構築を可能にする。
このタスクの進捗状況を監視するため,手作業による検証と改善を慎重に行い,高品質なベンチマークであるMultiHop-EgoQAを更にキュレートする。
実験結果から,既存のマルチモーダルシステムはマルチホップグラウンドや推論能力が不十分であり,不満足な性能が得られた。
次に, フレキシブルなグラウンドディングトークンを用いてビデオから時間的証拠を検索するために, グラウンドングモジュールを組み込むことにより, MLLM(Multi-modal large language model)を強化した, グラウンドング散乱証拠(Gunding Scattered Evidence with Large Language Model)と呼ばれる新しいアーキテクチャを提案する。
視覚的なインストラクションデータに基づいて、GeLMはマルチホップグラウンドと推論機能の改善を示し、この課題に対する新たなベースラインを設定します。
さらに、第三者のビュービデオでトレーニングされた場合、同じアーキテクチャはシングルホップのVidQAベンチマークであるActivityNet-RTLで最先端のパフォーマンスを達成し、その効果を実証する。
This paper considers the problem of Multi-Hop Video Question Answering (MH-VidQA) in long-form egocentric videos. This task not only requires to answer visual questions, but also to localize multiple relevant time intervals within the video as visual evidences. We develop an automated pipeline to create multi-hop question-answering pairs with associated temporal evidence, enabling to construct a large-scale dataset for instruction-tuning. To monitor the progress of this new task, we further curate a high-quality benchmark, MultiHop-EgoQA, with careful manual verification and refinement. Experimental results reveal that existing multi-modal systems exhibit inadequate multi-hop grounding and reasoning abilities, resulting in unsatisfactory performance. We then propose a novel architecture, termed as Grounding Scattered Evidence with Large Language Model (GeLM), that enhances multi-modal large language models (MLLMs) by incorporating a grounding module to retrieve temporal evidence from videos using flexible grounding tokens. Trained on our visual instruction data, GeLM demonstrates improved multi-hop grounding and reasoning capabilities, setting a new baseline for this challenging task. Furthermore, when trained on third-person view videos, the same architecture also achieves state-of-the-art performance on the single-hop VidQA benchmark, ActivityNet-RTL, demonstrating its effectiveness. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# 大規模言語モデルのパラメータ効率の良い微調整のためのステップバイステップアンマキング
Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models ( http://arxiv.org/abs/2408.14470v1 ) ライセンス: Link先を確認 | Aradhye Agarwal, Suhas K Ramesh, Ayan Sengupta, Tanmoy Chakraborty, | (参考訳) 下流タスク上での微調整大型言語モデル(LLM)は、かなりの計算資源を必要とする。
パラメータ効率細調整(PEFT)のクラスは、モデルパラメータのごく一部だけを選択的に微調整することで、これらの計算課題を軽減することを目的としている。
計算効率は良いが、これらの手法は、パラメータ選択時に導入された固有のバイアスのため、完全に調整されたモデルの性能にマッチしないことが多い。
従来の選択的PEFT技術は、事前に定義された予算(アンマスキングと呼ばれるプロセス)に基づいてパラメータの固定セットを使用し、パラメータの重要性を動的に捉えず、しばしば予算を超える結果になる。
パラメータ選択における探索と利用のバランスをとることでパラメータの重要度を連続的に動的に解き放つ新しいPEFT法である$\text{ID}^3$を導入する。
自然言語理解と生成タスクにまたがる15のタスクに関する実証的研究は,固定マスキングに基づくPEFT手法と比較して,本手法の有効性を実証する。
解析的に、$\text{ID}^3$は勾配更新数を2倍に減らし、計算効率が向上することを示した。
$\text{ID}^3$ はニューロンのランダム初期化に対して堅牢であるため、動的スパース化のためにアダプタやLoRAのような既存の加法および再パラメータ化に基づくPEFTモジュールにシームレスに統合することができる。
Fine-tuning large language models (LLMs) on downstream tasks requires substantial computational resources. A class of parameter-efficient fine-tuning (PEFT) aims to mitigate these computational challenges by selectively fine-tuning only a small fraction of the model parameters. Although computationally efficient, these techniques often fail to match the performance of fully fine-tuned models, primarily due to inherent biases introduced during parameter selection. Traditional selective PEFT techniques use a fixed set of parameters based on a predefined budget (a process also known as unmasking), failing to capture parameter importance dynamically and often ending up exceeding the budget. We introduce $\text{ID}^3$, a novel selective PEFT method that calculates parameter importance continually and dynamically unmasks parameters by balancing exploration and exploitation in parameter selection. Our empirical study on 15 tasks spanning natural language understanding and generative tasks demonstrates the effectiveness of our method compared to fixed-masking-based PEFT techniques. We analytically show that $\text{ID}^3$ reduces the number of gradient updates by a factor of two, enhancing computational efficiency. $\text{ID}^3$ is robust to random initialization of neurons and, therefore, can be seamlessly integrated into existing additive and reparametrization-based PEFT modules such as adapters and LoRA for dynamic sparsification. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# マルチモーダル・プレトレーニングの実践者ガイド
A Practitioner's Guide to Continual Multimodal Pretraining ( http://arxiv.org/abs/2408.14471v1 ) ライセンス: Link先を確認 | Karsten Roth, Vishaal Udandarao, Sebastian Dziadzio, Ameya Prabhu, Mehdi Cherti, Oriol Vinyals, Olivier Hénaff, Samuel Albanie, Matthias Bethge, Zeynep Akata, | (参考訳) マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
それでも、膨大なデータで事前訓練されているにもかかわらず、時間が経つにつれて時代遅れになる。
モデルを更新し続けるために、継続事前訓練の研究は、(1)頻度の低い、または大規模な新しいデータの無差別な更新、または(2)頻繁なサンプルレベルの更新のシナリオを主に探求する。
しかし、現実のアプリケーションは特定のサブドメイン、タスク、概念への適応を要求されることがしばしばあり、モデルのライフサイクル全体にわたって広がります。
本研究は,研究試験場における継続事前学習の現在の展望を補完するとともに,このようなシナリオにおける効果的な継続モデル更新のための包括的なガイダンスを提供する。
最初にFoMo-in-Fluxを紹介した。FoMo-in-Fluxは、現実的な計算制約と実際のデプロイ要件を備えた連続的マルチモーダル事前トレーニングベンチマークで、視覚的およびセマンティックカバレッジの異なる63データセット上に構築されている。
FoMo-in-Fluxを用いて、実世界の展開状況をエミュレートするデータ混合とストリーム順序に関するデータ中心の調査、(2)単純な微調整と伝統的な連続学習戦略からパラメータ効率の高い更新とモデルマージ、(3)メタ学習率スケジュールとメカニスティック設計の選択、(4)モデルと計算スケーリングの影響など、実践的な継続事前訓練の複雑な状況について検討する。
共に、我々の洞察は、実践者が実世界の展開のために連続的なマルチモーダル事前訓練を行うためのガイドを提供する。
ベンチマークとコードは以下の通りである。
Multimodal foundation models serve numerous applications at the intersection of vision and language. Still, despite being pretrained on extensive data, they become outdated over time. To keep models updated, research into continual pretraining mainly explores scenarios with either (1) infrequent, indiscriminate updates on large-scale new data, or (2) frequent, sample-level updates. However, practical model deployment often operates in the gap between these two limit cases, as real-world applications often demand adaptation to specific subdomains, tasks or concepts -- spread over the entire, varying life cycle of a model. In this work, we complement current perspectives on continual pretraining through a research test bed as well as provide comprehensive guidance for effective continual model updates in such scenarios. We first introduce FoMo-in-Flux, a continual multimodal pretraining benchmark with realistic compute constraints and practical deployment requirements, constructed over 63 datasets with diverse visual and semantic coverage. Using FoMo-in-Flux, we explore the complex landscape of practical continual pretraining through multiple perspectives: (1) A data-centric investigation of data mixtures and stream orderings that emulate real-world deployment situations, (2) a method-centric investigation ranging from simple fine-tuning and traditional continual learning strategies to parameter-efficient updates and model merging, (3) meta learning rate schedules and mechanistic design choices, and (4) the influence of model and compute scaling. Together, our insights provide a practitioner's guide to continual multimodal pretraining for real-world deployment. Our benchmark and code is here: https://github.com/ExplainableML/fomo_in_flux. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# ヒューマノイドロコモーションの促進:世界モデル学習を損なうテランの習得
Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning ( http://arxiv.org/abs/2408.14472v1 ) ライセンス: Link先を確認 | Xinyang Gu, Yen-Jen Wang, Xiang Zhu, Chengming Shi, Yanjiang Guo, Yichen Liu, Jianyu Chen, | (参考訳) 人間のような骨格構造を持つヒューマノイドロボットは、人間中心の環境でのタスクに特に適している。
しかし、この構造は、特に複雑な実環境において、移動制御器の設計においてさらなる課題を伴う。
その結果、既存のヒューマノイドロボットは、モデルベース制御かモデルフリー強化学習のいずれかで比較的単純な地形に限られている。
本研究では,人型移動制御のためのエンドツーエンド強化学習フレームワークであるDenoising World Model Learning (DWL)を紹介する。
すべてのシナリオはゼロショットのsim-to-real転送で同じ学習されたニューラルネットワークを実行し、提案手法の優れた堅牢性と一般化能力を示している。
Humanoid robots, with their human-like skeletal structure, are especially suited for tasks in human-centric environments. However, this structure is accompanied by additional challenges in locomotion controller design, especially in complex real-world environments. As a result, existing humanoid robots are limited to relatively simple terrains, either with model-based control or model-free reinforcement learning. In this work, we introduce Denoising World Model Learning (DWL), an end-to-end reinforcement learning framework for humanoid locomotion control, which demonstrates the world's first humanoid robot to master real-world challenging terrains such as snowy and inclined land in the wild, up and down stairs, and extremely uneven terrains. All scenarios run the same learned neural network with zero-shot sim-to-real transfer, indicating the superior robustness and generalization capability of the proposed method. | 翻訳日:2024-08-27 13:02:15 公開日:2024-08-26 |
# RollingCache: キャッシュサイドチャネルアタックに対して実行時動作を使用する
RollingCache: Using Runtime Behavior to Defend Against Cache Side Channel Attacks ( http://arxiv.org/abs/2408.08795v2 ) ライセンス: Link先を確認 | Divya Ojha, Sandhya Dwarkadas, | (参考訳) 共有キャッシュは、キャッシュセット内の競合を通じてサイドチャネル攻撃に対して脆弱である。
情報漏洩の単純な情報源であるだけでなく、これらのサイドチャネルは、共有システムのセキュリティを侵害するより高度な攻撃のための有用なガジェットを形成する。
競合攻撃が悪用する基本的な設計側面は、キャッシュセットに競合するアドレスの集合の決定論的性質である。
本稿では,キャッシュセットに競合するアドレスの集合を動的に変更することで競合攻撃を防ぐキャッシュ設計であるRollingCacheを提案する。
以前のディフェンスとは異なり、RollingCacheはアドレスの暗号化/復号化、データ再配置、キャッシュパーティショニングに依存していない。
キャッシュ全体の動作によって制御される動的マッピングを実装するために、あるレベルの間接性を使用します。
私たちのソリューションは、定義されたセキュリティドメインに依存せず、同じまたは他のコア上で実行されている攻撃者に対して防御することができます。
我々はSPEC-2017ベンチマークスイートを用いてChampSim上でのRollingCacheを評価する。
我々のセキュリティ評価は、動的マッピングが競合の原因を特定する決定論的能力を排除していることを示している。
パフォーマンス評価は、ワークロードの混合に対する1.67\%の影響と対応する結果を示している。
Shared caches are vulnerable to side channel attacks through contention in cache sets. Besides being a simple source of information leak, these side channels form useful gadgets for more sophisticated attacks that compromise the security of shared systems. The fundamental design aspect that contention attacks exploit is the deterministic nature of the set of addresses contending for a cache set. In this paper, we present RollingCache, a cache design that defends against contention attacks by dynamically changing the set of addresses contending for cache sets. Unlike prior defenses, RollingCache does not rely on address encryption/decryption, data relocation, or cache partitioning. We use one level of indirection to implement dynamic mapping controlled by the whole-cache runtime behavior. Our solution does not depend on having defined security domains, and can defend against an attacker running on the same or another core. We evaluate RollingCache on ChampSim using the SPEC-2017 benchmark suite. Our security evaluation shows that our dynamic mapping removes the deterministic ability to identify the source of contention. The performance evaluation shows an impact of 1.67\% over a mix of workloads, with a corresponding | 翻訳日:2024-08-27 12:52:18 公開日:2024-08-26 |
# コード言語モデルによる進化的プログラム修復の再考
Revisiting Evolutionary Program Repair via Code Language Model ( http://arxiv.org/abs/2408.10486v2 ) ライセンス: Link先を確認 | Yunan Wang, Tingyu Guo, Zilong Huang, Yuan Yuan, | (参考訳) ソフトウェア欠陥は、ソフトウェア開発とメンテナンスの本質的な部分です。
これらの欠陥に対処するため、自動プログラム修正(APR)が開発され、バグを自動的に修正する。
大規模言語モデルの出現に伴い、コードコーパスで訓練されたコード言語モデル(CLM)はコード生成に優れ、APRアプリケーションに適している。
多くのバグは修正に複数ポイントの編集を必要とするが、現在のCLMベースのAPRは単一ポイントのバグ修正に限定されており、修正可能なバグの範囲を著しく制限している。
さらに、これらのツールは一般的に、CLMのプロンプトを構築する際にのみバギーラインの直接的なコンテキストを考慮し、提供された限られた情報によって、最適でない修復結果をもたらす。
本稿では,Javaプロジェクトのマルチロケーションバグを修正するために,多目的進化アルゴリズムとCLMを統合した新しいアプローチARJA-CLMを提案する。
また,提案手法は,CLMが候補文を生成するための,アクセス可能なフィールドとメソッドに関する追加情報により,プロンプトを充実させる。
Defects4J と APR-2024 のコンペティションベンチマーク実験により,ARJA-CLM が多くの最先端の修復システムを超え,多点バグに対して良好に動作することを示した。
また、CLMは、コンテキスト認識プロンプト内のフィールド情報やメソッド情報を効果的に活用し、候補文を生成する。
Software defects are an inherent part of software development and maintenance. To address these defects, Automated Program Repair (APR) has been developed to fix bugs automatically. With the advent of Large Language Models, Code Language Models (CLMs) trained on code corpora excels in code generation, making them suitable for APR applications. Despite this progress, a significant limitation remains: many bugs necessitate multi-point edits for repair, yet current CLM-based APRs are restricted to single-point bug fixes, which severely narrows the scope of repairable bugs. Moreover, these tools typically only consider the direct context of the buggy line when building prompts for the CLM, leading to suboptimal repair outcomes due to the limited information provided. This paper introduces a novel approach, ARJA-CLM, which integrates the multiobjective evolutionary algorithm with CLM to fix multilocation bugs in Java projects. We also propose a context-aware prompt construction stratege, which enriches the prompt with additional information about accessible fields and methods for the CLM generating candidate statements. Our experiments on the Defects4J and APR-2024 competition benchmark demonstrate that ARJA-CLM surpasses many state-of-the-art repair systems, and performs well on multi-point bugs. The results also reveal that CLMs effectively utilize the provided field and method information within context-aware prompts to produce candidate statements. | 翻訳日:2024-08-27 12:52:18 公開日:2024-08-26 |
# SparseGrow: タスク非依存型継続的学習における成長誘導型学習への取り組み
SparseGrow: Addressing Growth-Induced Forgetting in Task-Agnostic Continual Learning ( http://arxiv.org/abs/2408.10566v2 ) ライセンス: Link先を確認 | Yuqing Zhao, Divya Saxena, Jiannong Cao, Xiaoyun Liu, Changlin Song, | (参考訳) 連続学習(CL)では、モデルの成長は新しいデータに対する適応性を高め、より多くのタスクに対する知識保持を改善する。
しかし、不適切なモデルの成長は、成長によって引き起こされる忘れ(GIFt)と呼ばれる、未学習の知識を著しく劣化させる可能性がある。
既存の研究は、モデル成長と適応性の向上のためにランダム初期化を採用するが、不適切なモデル成長によって引き起こされるGIFtの存在を認識できないことが多い。
この監視は、忘れることの包括的な制御を制限し、モデル成長の完全な利用を妨げる。
我々は、この問題を最初に特定し、GIFtの根本原因について詳細な研究を行い、モデル成長戦略の中で層拡大が際立っており、モデル機能に影響を与えない層を広げている。
しかし、レイヤー拡張の直接的な採用は課題を呈している。
データ駆動制御と、適応性と知識保持のバランスをとるために拡張されたパラメータの初期化が欠けている。
本稿では,新しいデータに対する適応性を向上しつつ,GIFtの問題を克服する新しいSparseGrow手法を提案する。
SparseGrowはデータ駆動のスパース層拡張を使用して、成長中の効率的なパラメータ使用量を制御し、過剰な成長と機能変更からGIFtを削減する。
また、トレーニング後期におけるスパース成長とオンデータ初期化を組み合わせて、学習された分散に適合し、保持性と適応性を高める、部分的に0値の拡張を生成します。
さらに忘れるのを最小にするため、スパースマスクを計算し、重要なパラメータのデータ駆動保存を可能にする。
さまざまな設定やケース,タスク番号を持つデータセットを対象とした実験を通じて,レイヤ拡張の必要性を実証し,GIFtを克服する上でのSparseGrowの有効性を示し,インクリメンタルタスクへの適応性と知識保持を強調した。
In continual learning (CL), model growth enhances adaptability over new data, improving knowledge retention for more tasks. However, improper model growth can lead to severe degradation of previously learned knowledge, an issue we name as growth-induced forgetting (GIFt), especially in task-agnostic CL using entire grown model for inference. Existing works, despite adopting model growth and random initialization for better adaptability, often fail to recognize the presence of GIFt caused by improper model growth. This oversight limits comprehensive control of forgetting and hinders full utilization of model growth. We are the first in CL to identify this issue and conduct an in-depth study on root cause of GIFt, where layer expansion stands out among model growth strategies, widening layers without affecting model functionality. Yet, direct adoption of layer expansion presents challenges. It lacks data-driven control and initialization of expanded parameters to balance adaptability and knowledge retention. This paper presents a novel SparseGrow approach to overcome the issue of GIFt while enhancing adaptability over new data. SparseGrow employs data-driven sparse layer expansion to control efficient parameter usage during growth, reducing GIFt from excessive growth and functionality changes. It also combines sparse growth with on-data initialization at training late-stage to create partially 0-valued expansions that fit learned distribution, enhancing retention and adaptability. To further minimize forgetting, freezing is applied by calculating the sparse mask, allowing data-driven preservation of important parameters. Through experiments across datasets with various settings, cases and task numbers, we demonstrate the necessity of layer expansion and showcase the effectiveness of SparseGrow in overcoming GIFt, highlighting its adaptability and knowledge retention for incremental tasks. | 翻訳日:2024-08-27 12:52:18 公開日:2024-08-26 |
# 非安全な復号経路生成による大言語モデルの安全応答境界の提案
Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation ( http://arxiv.org/abs/2408.10668v3 ) ライセンス: Link先を確認 | Haoyu Wang, Bingzhe Wu, Yatao Bian, Yongzhe Chang, Xueqian Wang, Peilin Zhao, | (参考訳) 大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
貴重な洞察を提供し、問題解決を支援する一方で、悪意のある活動のためのリソースとしても機能する可能性がある。
安全アライメントを実装することで、LLMが有害な応答を引き起こすリスクを軽減することができる。
LLMが有害なクエリをブロックできたとしても、時限爆弾として機能する隠れた脆弱性があるかもしれません。
これらの弱点を識別するために,検出器と攻撃者の両方に費用対価モデルを適用することを提案する。
外部または自己生成した有害なデータセットに基づいてトレーニングされ、コストバリューモデルは、復号プロセスにおいて有害なコンテンツを出力するために、オリジナルの安全なLCMに影響を与えることができた。
例えば、LLaMA-2-chat 7Bは39.18%のコンクリートの有害成分を出力し、22.16%しか有害な接尾辞を含まない。
これらの潜在的な弱点は、画像上のソフトプロンプトのようなプロンプト最適化を通じて利用することができる。
Jailbreak Value Decoding (JVD) 氏は,一見セキュアな LLM は,当初私たちが信じていたほど安全ではない,と強調する。
有害なデータを収集したり、隠蔽攻撃を行うのに使用できる。
Large Language Models (LLMs) are implicit troublemakers. While they provide valuable insights and assist in problem-solving, they can also potentially serve as a resource for malicious activities. Implementing safety alignment could mitigate the risk of LLMs generating harmful responses. We argue that: even when an LLM appears to successfully block harmful queries, there may still be hidden vulnerabilities that could act as ticking time bombs. To identify these underlying weaknesses, we propose to use a cost value model as both a detector and an attacker. Trained on external or self-generated harmful datasets, the cost value model could successfully influence the original safe LLM to output toxic content in decoding process. For instance, LLaMA-2-chat 7B outputs 39.18% concrete toxic content, along with only 22.16% refusals without any harmful suffixes. These potential weaknesses can then be exploited via prompt optimization such as soft prompts on images. We name this decoding strategy: Jailbreak Value Decoding (JVD), emphasizing that seemingly secure LLMs may not be as safe as we initially believe. They could be used to gather harmful data or launch covert attacks. | 翻訳日:2024-08-27 12:52:18 公開日:2024-08-26 |
# 小児TSC関連てんかん画像の量子ニューラルネットワークによる分類
Pediatric TSC-Related Epilepsy Classification from Clinical MR Images Using Quantum Neural Network ( http://arxiv.org/abs/2408.12615v2 ) ライセンス: Link先を確認 | Ling Lin, Yihang Zhou, Zhanqi Hu, Dian Jiang, Congcong Liu, Shuo Zhou, Yanjie Zhu, Jianxiang Liao, Dong Liang, Hairong Zheng, Haifeng Wang, | (参考訳) 結核性硬化症複合体(TSC)は神経学的に有意な意味を持つ多系統性疾患である。
本研究は、従来の畳み込みニューラルネットワークと量子ニューラルネットワークをシームレスに統合する新しいディープラーニングモデルであるQResNetを導入し、小児科におけるTSCに適したロバストな分類モデルの必要性に対処する。
このモデルには、ZZFeatureMapとAnsatzレイヤからなる2層量子層(QL)が含まれており、量子フレームワーク内で古典的なデータを処理するために戦略的に設計されている。
TSCMRI画像分類において,従来の3D-ResNetモデルと比較してQResNetの優れた性能を示す。
これらの魅力的な発見は、医用画像と診断に革命をもたらす量子コンピューティングの可能性を強調しており、この手法は従来のCNNを精度で上回り、AUC(Area Under the Curve)メトリクスを現在のデータセットで上回っている。
将来の研究は、現実の医療画像のシナリオにおける量子アルゴリズムのスケーラビリティと実践的な実装を探求することに集中するかもしれない。
Tuberous sclerosis complex (TSC) manifests as a multisystem disorder with significant neurological implications. This study addresses the critical need for robust classification models tailored to TSC in pediatric patients, introducing QResNet,a novel deep learning model seamlessly integrating conventional convolutional neural networks with quantum neural networks. The model incorporates a two-layer quantum layer (QL), comprising ZZFeatureMap and Ansatz layers, strategically designed for processing classical data within a quantum framework. A comprehensive evaluation, demonstrates the superior performance of QResNet in TSC MRI image classification compared to conventional 3D-ResNet models. These compelling findings underscore the potential of quantum computing to revolutionize medical imaging and diagnostics.Remarkably, this method surpasses conventional CNNs in accuracy and Area Under the Curve (AUC) metrics with the current dataset. Future research endeavors may focus on exploring the scalability and practical implementation of quantum algorithms in real-world medical imaging scenarios. | 翻訳日:2024-08-27 12:52:18 公開日:2024-08-26 |
# テキスト・画像モデルに対する知覚誘導型ジェイルブレイク
Perception-guided Jailbreak against Text-to-Image Models ( http://arxiv.org/abs/2408.10848v2 ) ライセンス: Link先を確認 | Yihao Huang, Le Liang, Tianlin Li, Xiaojun Jia, Run Wang, Weikai Miao, Geguang Pu, Yang Liu, | (参考訳) 近年,テキスト・ツー・イメージ(T2I)モデルが注目されている。
しかし、セキュリティ上の懸念は、不適切な、あるいは安全でない(Not-Safe-For-Work)イメージを生成する可能性があるため現れている。
本稿では、異なる意味を持つテキストが人間の知覚に類似する可能性があるという観察に着想を得て、LPM駆動型知覚誘導ジェイルブレイク法(PGJ)を提案する。
これは、特定のT2Iモデル(モデルフリー)を必要としないブラックボックスジェイルブレイク方式であり、非常に自然な攻撃プロンプトを生成する。
具体的には、人間の知覚に類似しているが、テキストのセマンティクスとターゲットの安全でない単語のセマンティクスでは矛盾する安全なフレーズを識別し、置換語として用いることを提案する。
6つのオープンソースモデルと何千ものプロンプトによる商用オンラインサービスによる実験により,PGJの有効性が検証された。
In recent years, Text-to-Image (T2I) models have garnered significant attention due to their remarkable advancements. However, security concerns have emerged due to their potential to generate inappropriate or Not-Safe-For-Work (NSFW) images. In this paper, inspired by the observation that texts with different semantics can lead to similar human perceptions, we propose an LLM-driven perception-guided jailbreak method, termed PGJ. It is a black-box jailbreak method that requires no specific T2I model (model-free) and generates highly natural attack prompts. Specifically, we propose identifying a safe phrase that is similar in human perception yet inconsistent in text semantics with the target unsafe word and using it as a substitution. The experiments conducted on six open-source models and commercial online services with thousands of prompts have verified the effectiveness of PGJ. | 翻訳日:2024-08-27 12:42:21 公開日:2024-08-26 |
# BEYOND DIALOGUE:汎用ロールプレイング言語モデルに向けたプロファイルダイアライメントフレームワーク
BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model ( http://arxiv.org/abs/2408.10903v3 ) ライセンス: Link先を確認 | Yeyong Yu, Rusheng Yu, Haojie Wei, Zhanqiu Zhang, Quan Qian, | (参考訳) 大規模言語モデル(LLM)の急速な進歩はロールプレイングに革命をもたらし、一般的なロールプレイングモデルの開発を可能にした。
しかし、現在のロールプレイングトレーニングには2つの大きな問題がある: (I) 特定のシナリオに対する対話トレーニングを促すために事前に定義されたロールプロファイルを使用すると、通常、対話とプロファイルの間に矛盾や矛盾が生じ、トレーニングバイアスが生じる。
(II)
モデルは、プロファイルのみに基づくロールの模倣を学び、文レベルでのプロファイル-対話アライメントを無視する。
本研究では,これらのハードルを克服するために,BEYOND DIALOGUEと呼ばれるシンプルで効果的なフレームワークを提案する。
このフレームワークは革新的に"Beyond dialogue"タスクを導入し、それぞれのシナリオに基づいて対話をプロファイル特性と整合させ、トレーニング中のバイアスを取り除く。
さらに、学習のための推論結果を生成する革新的なプロンプト機構を採用することにより、このフレームワークは、文レベルでのプロファイルと対話の微妙なアライメントを実現することができる。
上記の方法は、完全に自動化され、低コストである。
さらに、自動対話と客観的評価手法の統合は総合的な枠組みを形成し、一般的なロールプレイングの道を開く。
実験結果から,我々のモデルは役割プロファイルの様々な次元を忠実に表現し,表現する上で優れており,最もプロプライエタリな役割プレーングベースラインよりも優れていた。
すべてのコードとデータセットはhttps://github.com/yuyouyu32/BeyondDialogue.comで入手できる。
The rapid advancement of large language models (LLMs) has revolutionized role-playing, enabling the development of general role-playing models. However, current role-playing training has two significant issues: (I) Using a predefined role profile to prompt dialogue training for specific scenarios usually leads to inconsistencies and even conflicts between the dialogue and the profile, resulting in training biases. (II) The model learns to imitate the role based solely on the profile, neglecting profile-dialogue alignment at the sentence level. In this work, we propose a simple yet effective framework called BEYOND DIALOGUE, designed to overcome these hurdles. This framework innovatively introduces "beyond dialogue" tasks to align dialogue with profile traits based on each specific scenario, thereby eliminating biases during training. Furthermore, by adopting an innovative prompting mechanism that generates reasoning outcomes for training, the framework allows the model to achieve fine-grained alignment between profile and dialogue at the sentence level. The aforementioned methods are fully automated and low-cost. Additionally, the integration of automated dialogue and objective evaluation methods forms a comprehensive framework, paving the way for general role-playing. Experimental results demonstrate that our model excels in adhering to and reflecting various dimensions of role profiles, outperforming most proprietary general and specialized role-playing baselines. All code and datasets are available at https://github.com/yuyouyu32/BeyondDialogue. | 翻訳日:2024-08-27 12:42:21 公開日:2024-08-26 |
# RConE: マルチモーダル知識グラフを用いたマルチホップ論理的クエリアンサーのための粗いコーン埋め込み
RConE: Rough Cone Embedding for Multi-Hop Logical Query Answering on Multi-Modal Knowledge Graphs ( http://arxiv.org/abs/2408.11526v2 ) ライセンス: Link先を確認 | Mayank Kharbanda, Rajiv Ratn Shah, Raghava Mutharaju, | (参考訳) 知識グラフ(KG)上のマルチホップクエリ応答では、クエリに応答するために、開始ノードから1つ以上のホップをトラバースする。
パスベースおよび論理ベースの手法は、マルチホップ質問応答の最先端技術である。
前者はリンク予測タスクで使用される。
後者は複雑な論理的クエリに答えるためのものです。
論理的マルチホップクエリ技術は、KGとクエリを同じ埋め込み空間に埋め込む。
既存の作業には、クエリにおける接続($\wedge$)、disjunction($\vee$)、negation($\neg$)などのファーストオーダーロジック(FOL)演算子が含まれている。
現在のモデルでは、FOLクエリを実行するためのビルディングブロックがほとんどであるが、Multi-Modal Knowledge Graphs (MMKG) の場合、マルチモーダルエンティティの密集した情報を使用することはできない。
本稿では,クエリに応答するために必要なマルチモーダル情報をキャプチャする埋め込み手法RConEを提案する。
モデルの最初のショートリストは、回答を含む候補(マルチモーダル)エンティティである。
そして、それらのエンティティ内の解(サブエンティティ)を見つける。
いくつかの既存の研究は、MMKGにおける経路に基づく質問応答に対処している。
しかし,本研究では,MMKGを問合せする論理構造を初めて導入し,その答えとしてマルチモーダルなエンティティのサブエンティティを含む問合せに回答する。
一般公開されている4つのMMKGの大規模な評価は、RConEが現在の最先端よりも優れていることを示している。
Multi-hop query answering over a Knowledge Graph (KG) involves traversing one or more hops from the start node to answer a query. Path-based and logic-based methods are state-of-the-art for multi-hop question answering. The former is used in link prediction tasks. The latter is for answering complex logical queries. The logical multi-hop querying technique embeds the KG and queries in the same embedding space. The existing work incorporates First Order Logic (FOL) operators, such as conjunction ($\wedge$), disjunction ($\vee$), and negation ($\neg$), in queries. Though current models have most of the building blocks to execute the FOL queries, they cannot use the dense information of multi-modal entities in the case of Multi-Modal Knowledge Graphs (MMKGs). We propose RConE, an embedding method to capture the multi-modal information needed to answer a query. The model first shortlists candidate (multi-modal) entities containing the answer. It then finds the solution (sub-entities) within those entities. Several existing works tackle path-based question-answering in MMKGs. However, to our knowledge, we are the first to introduce logical constructs in querying MMKGs and to answer queries that involve sub-entities of multi-modal entities as the answer. Extensive evaluation of four publicly available MMKGs indicates that RConE outperforms the current state-of-the-art. | 翻訳日:2024-08-27 12:42:21 公開日:2024-08-26 |
# UNetMamba:高解像度リモートセンシング画像のセマンティックセグメンテーションのための効率的なUNetライクなマンバ
UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2408.11545v2 ) ライセンス: Link先を確認 | Enze Zhu, Zhan Chen, Dingkai Wang, Hanru Shi, Xiaoxuan Liu, Lei Wang, | (参考訳) 高解像度リモートセンシング画像のセマンティックセグメンテーションは、土地被覆マッピング、都市計画、災害評価といった下流の応用において不可欠であり、既存のトランスフォーマー方式は精度と効率の制約に悩まされ、最近提案されたマンバは効率的であることが知られている。
そこで我々は,このジレンマを克服するために,UNetに似たセマンティックセマンティックセマンティクスモデルであるUNetMambaを提案する。
これは、高解像度画像内の複雑な情報を効率的に復号できるmba segmentation decoder (MSD) と、列車専用だがローカルコンテンツの知覚を著しく向上させるローカル監視モジュール (LSM) を組み込んでいる。
UNetMambaはLoveDAで0.87%、ISPRS Vaihingenで0.36%増加し、軽量な設計で高効率を実現し、メモリフットプリントを小さくし、計算コストを削減した。
ソースコードはhttps://github.com/EnzeZhu 2001/UNetMamba.comで入手できる。
Semantic segmentation of high-resolution remote sensing images is vital in downstream applications such as land-cover mapping, urban planning and disaster assessment.Existing Transformer-based methods suffer from the constraint between accuracy and efficiency, while the recently proposed Mamba is renowned for being efficient. Therefore, to overcome the dilemma, we propose UNetMamba, a UNet-like semantic segmentation model based on Mamba. It incorporates a mamba segmentation decoder (MSD) that can efficiently decode the complex information within high-resolution images, and a local supervision module (LSM), which is train-only but can significantly enhance the perception of local contents. Extensive experiments demonstrate that UNetMamba outperforms the state-of-the-art methods with mIoU increased by 0.87% on LoveDA and 0.36% on ISPRS Vaihingen, while achieving high efficiency through the lightweight design, less memory footprint and reduced computational cost. The source code is available at https://github.com/EnzeZhu2001/UNetMamba. | 翻訳日:2024-08-27 12:42:21 公開日:2024-08-26 |
# 自由フェルミオン系における量子絡み合いと非ハーモニティ性
Quantum entanglement and non-Hermiticity in free-fermion systems ( http://arxiv.org/abs/2408.11652v2 ) ライセンス: Link先を確認 | Li-Mei Chen, Yao Zhou, Shuai A. Chen, Peng Ye, | (参考訳) 本稿では,非エルミート自由フェルミオン量子系における絡み合いの一般化と応用の急速な進展を報告する。
我々は、リンドブラッドマスター方程式による非エルミート量子系の実現と、特異な特徴を示す典型的な非エルミート自由フェルミオン系のレビューから始める。
エルミート系における絡み合い量と相関行列の関係について, 教育学的考察を行った。
この基礎の上に構築され、エンタングルメントの概念がエルミート自由フェルミオン系から非エルミート系へどのように拡張されるかに焦点を当て、出現する一般的な性質のレビューを行う。
最後に, 絡み合いエントロピーが非エルミート物理学を特徴づける強力な診断ツールであることを示し, 様々な具体的な研究を強調した。
絡み合いスペクトルは非エルミート位相系の位相特性も反映するが、独自の非エルミート絡み合い挙動も議論されている。
レビューは、いくつかの今後の方向性で締めくくられている。
このレビューを通じて、非エルミート量子系における絡み合いに関心を持つ研究者に有用なガイドを提供したいと思っています。
This topical review article reports rapid progress on the generalization and application of entanglement in non-Hermitian free-fermion quantum systems. We begin by examining the realization of non-Hermitian quantum systems through the Lindblad master equation, alongside a review of typical non-Hermitian free-fermion systems that exhibit unique features. A pedagogical discussion is provided on the relationship between entanglement quantities and the correlation matrix in Hermitian systems. Building on this foundation, we focus on how entanglement concepts are extended to non-Hermitian systems from their Hermitian free-fermion counterparts, with a review of the general properties that emerge. Finally, we highlight various concrete studies, demonstrating that entanglement entropy remains a powerful diagnostic tool for characterizing non-Hermitian physics. The entanglement spectrum also reflects the topological characteristics of non-Hermitian topological systems, while unique non-Hermitian entanglement behaviors are also discussed. The review is concluded with several future directions. Through this review, we hope to provide a useful guide for researchers who are interested in entanglement in non-Hermitian quantum systems. | 翻訳日:2024-08-27 12:42:21 公開日:2024-08-26 |
# uMedSum: 医学的抽象的な要約を促進する統一フレームワーク
uMedSum: A Unified Framework for Advancing Medical Abstractive Summarization ( http://arxiv.org/abs/2408.12095v2 ) ライセンス: Link先を確認 | Aishik Nagar, Yutong Liu, Andy T. Liu, Viktor Schlegel, Vijay Prakash Dwivedi, Arun-Kumar Kaliya-Perumal, Guna Pratheep Kalanchiam, Yili Tang, Robby T. Tan, | (参考訳) 医学的抽象的な要約は、忠実さと情報性のバランスをとるという課題に直面している。
現在の方法では、重要な情報を忠実に犠牲にしたり、情報提供の優先順位付けを行うときに信条を導入する場合が多い。
近年のICL(In-context Learning)や微調整( fine-tuning)といった手法の進歩は、医学的な要約を改善する一方で、モデル推論や自己改善といった高度な手法を考慮せずに、忠実さや情報提供といった重要な側面を見落としていることが多い。
さらに、フィールドには統一されたベンチマークがなく、さまざまなメトリクスやデータセットによる体系的な評価を妨げる。
本稿では,5つの標準化されたメトリクスを用いて,3つのデータセットにまたがる6つの高度な抽象的要約手法の総合的なベンチマークを提示することによって,これらのギャップに対処する。
これらの知見に基づいて, 逐次的な折り畳み除去に新たなアプローチを導入し, 鍵を欠いた情報追加を行い, 忠実さと情報提供性を両立させる, モジュール型ハイブリッド要約フレームワーク uMedSum を提案する。
本研究は,従来のGPT-4をベースとしたSOTA(State-of-the-art Medical summarization)法を改良し,定量的評価と定性的ドメインエキスパート評価の両面で有意な成績を示した。
特に,従来のSOTAよりも11.8%の参照なしメトリクスの相対的な性能向上を実現している。
uMedSumのサマリーが従来のSOTAより6倍多いと医師は考えている。
これらの結果は、uMedSumの有効性と様々なデータセットやメトリクスの一般化性を強調しており、医学的な要約の著しい進歩を示している。
Medical abstractive summarization faces the challenge of balancing faithfulness and informativeness. Current methods often sacrifice key information for faithfulness or introduce confabulations when prioritizing informativeness. While recent advancements in techniques like in-context learning (ICL) and fine-tuning have improved medical summarization, they often overlook crucial aspects such as faithfulness and informativeness without considering advanced methods like model reasoning and self-improvement. Moreover, the field lacks a unified benchmark, hindering systematic evaluation due to varied metrics and datasets. This paper addresses these gaps by presenting a comprehensive benchmark of six advanced abstractive summarization methods across three diverse datasets using five standardized metrics. Building on these findings, we propose uMedSum, a modular hybrid summarization framework that introduces novel approaches for sequential confabulation removal followed by key missing information addition, ensuring both faithfulness and informativeness. Our work improves upon previous GPT-4-based state-of-the-art (SOTA) medical summarization methods, significantly outperforming them in both quantitative metrics and qualitative domain expert evaluations. Notably, we achieve an average relative performance improvement of 11.8% in reference-free metrics over the previous SOTA. Doctors prefer uMedSum's summaries 6 times more than previous SOTA in difficult cases where there are chances of confabulations or missing information. These results highlight uMedSum's effectiveness and generalizability across various datasets and metrics, marking a significant advancement in medical summarization. | 翻訳日:2024-08-27 12:42:21 公開日:2024-08-26 |
# MaVEn: マルチモーダル大規模言語モデルのための効果的な多言語ハイブリッドビジュアルエンコーディングフレームワーク
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model ( http://arxiv.org/abs/2408.12321v2 ) ライセンス: Link先を確認 | Chaoya Jiang, Jia Hongrui, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang, | (参考訳) 本稿では,Multimodal Large Language Models (MLLM) のマルチモーダル推論における機能向上を目的とした,革新的なマルチグラニュラリティビジュアルエンコーディングフレームワークであるMaVEnを提案する。
現在のMLLMは、主にシングルイメージの視覚的理解に焦点を当てており、複数の画像にまたがる情報の解釈と統合を制限している。
MaVEnは、粗い意味概念を抽象化する離散的な視覚記号列と、細かな特徴をモデル化する伝統的な連続表現列を組み合わせることで、この制限に対処する。
この二重アプローチは、視覚的データとテキストデータのセマンティックギャップを橋渡しし、複数の画像からの情報を効果的に処理し解釈するモデルの能力を向上させる。
さらに,マルチイメージ処理効率を向上させるために,時系列連続特徴を用いた動的リダクション機構を設計する。
実験により,MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することが示された。
This paper presents MaVEn, an innovative Multi-granularity Visual Encoding framework designed to enhance the capabilities of Multimodal Large Language Models (MLLMs) in multi-image reasoning. Current MLLMs primarily focus on single-image visual understanding, limiting their ability to interpret and integrate information across multiple images. MaVEn addresses this limitation by combining discrete visual symbol sequences, which abstract coarse-grained semantic concepts, with traditional continuous representation sequences that model fine-grained features. This dual approach bridges the semantic gap between visual and textual data, thereby improving the model's ability to process and interpret information from multiple images effectively. Additionally, we design a dynamic reduction mechanism by for long-sequence continuous features to enhance multi-image processing efficiency. Experimental results demonstrate that MaVEn significantly enhances MLLMs' understanding in complex multi-image scenarios, while also improving performance in single-image contexts. | 翻訳日:2024-08-27 12:42:21 公開日:2024-08-26 |
# ヒンズーシャニー古典音楽における旋律音節の階層的生成モデル
Hierarchical Generative Modeling of Melodic Vocal Contours in Hindustani Classical Music ( http://arxiv.org/abs/2408.12658v2 ) ライセンス: Link先を確認 | Nithya Shikarpur, Krishna Maneesha Dendukuri, Yusong Wu, Antoine Caillon, Cheng-Zhi Anna Huang, | (参考訳) ヒンドゥーシャニー音楽は、豊かなメロディック・パターンの再現を示す演奏駆動の口承の伝統である。
本稿では,歌手の音声録音から抽出したメロディーの生成モデルに焦点をあてる。
ヒンズーシャニーの音楽モデルにおける以前の生成的作業は、歌唱の豊かな表現的な旋律の複雑さを捉えるのに失敗する粗い離散的なシンボルとして旋律を表現している。
そこで我々は,階層型音声モデリングの中間表現として,微細な量子化されたピッチ輪郭を提案する。
本稿では,ピッチ輪郭生成モデルとピッチ輪郭合成モデルからなるモジュール型2層階層GaMaDHaNiを提案する。
非階層型音声モデルと自己教師付き中間表現を用いた階層型モデルとのアプローチをリスニングテストと定性解析により比較する。
また、ピアソン相関係数を用いてピッチ輪郭入力を忠実に表現する音響モデルの能力を評価する。
ピッチの輪郭を中間表現として使用することにより,2つの潜在的な相互作用ユースケース(1)素数生成,(2)粗いピッチ条件付けを強調することにより,人間とAIの協調的な環境下でのミュージシャンの聴取と応答に,我々のモデルの方が適していることを示す。
Hindustani music is a performance-driven oral tradition that exhibits the rendition of rich melodic patterns. In this paper, we focus on generative modeling of singers' vocal melodies extracted from audio recordings, as the voice is musically prominent within the tradition. Prior generative work in Hindustani music models melodies as coarse discrete symbols which fails to capture the rich expressive melodic intricacies of singing. Thus, we propose to use a finely quantized pitch contour, as an intermediate representation for hierarchical audio modeling. We propose GaMaDHaNi, a modular two-level hierarchy, consisting of a generative model on pitch contours, and a pitch contour to audio synthesis model. We compare our approach to non-hierarchical audio models and hierarchical models that use a self-supervised intermediate representation, through a listening test and qualitative analysis. We also evaluate audio model's ability to faithfully represent the pitch contour input using Pearson correlation coefficient. By using pitch contours as an intermediate representation, we show that our model may be better equipped to listen and respond to musicians in a human-AI collaborative setting by highlighting two potential interaction use cases (1) primed generation, and (2) coarse pitch conditioning. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-26 |
# ニューラルネットワークの多レベル解釈可能性:神経科学の枠組みと手法の活用
Multilevel Interpretability Of Artificial Neural Networks: Leveraging Framework And Methods From Neuroscience ( http://arxiv.org/abs/2408.12664v2 ) ライセンス: Link先を確認 | Zhonghao He, Jascha Achterberg, Katie Collins, Kevin Nejad, Danyal Akarca, Yinzhu Yang, Wes Gurnee, Ilia Sucholutsky, Yuhan Tang, Rebeca Ianov, George Ogden, Chole Li, Kai Sandbrink, Stephen Casper, Anna Ivanova, Grace W. Lindsay, | (参考訳) ディープラーニングシステムは数十億のパラメータにスケールするので、内部構造と外部の振る舞いを関連付けることは非常に難しい。
神経科学者と認知科学者は何十年もの間、特に複雑なシステム(脳)を分析してきた。
本研究では, 生体と人工のニューラルシステムの両方を解釈するには, 各レベルの異なる分析ツールを用いて, 複数のレベルの分析を行う必要がある,と論じる。
私たちはまず、脳を研究し、人工ニューラルネットワークを研究する科学者の間で、分散ニューラルネットワークが複雑な認知と行動を引き起こす方法を理解するという、共同で大きな課題を提起しました。
次に、生物学的および人工的なニューラルネットワークの分析に使用でき、Marrの3つの分析レベル(計算/振る舞い、アルゴリズム/表現、実装)に従ってそれらのツールを整理する。
全体として、多レベル解釈可能性フレームワークは、ニューラルネットワークの複雑さに取り組むための原則的な方法を提供し、構造、計算、振る舞いをリンクし、各レベルでの仮定と研究の優先順位を明確にし、知的システムを理解するための統一された取り組みへの道を開く。
As deep learning systems are scaled up to many billions of parameters, relating their internal structure to external behaviors becomes very challenging. Although daunting, this problem is not new: Neuroscientists and cognitive scientists have accumulated decades of experience analyzing a particularly complex system - the brain. In this work, we argue that interpreting both biological and artificial neural systems requires analyzing those systems at multiple levels of analysis, with different analytic tools for each level. We first lay out a joint grand challenge among scientists who study the brain and who study artificial neural networks: understanding how distributed neural mechanisms give rise to complex cognition and behavior. We then present a series of analytical tools that can be used to analyze biological and artificial neural systems, organizing those tools according to Marr's three levels of analysis: computation/behavior, algorithm/representation, and implementation. Overall, the multilevel interpretability framework provides a principled way to tackle neural system complexity; links structure, computation, and behavior; clarifies assumptions and research priorities at each level; and paves the way toward a unified effort for understanding intelligent systems, may they be biological or artificial. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-26 |
# GSFusion:Gaussian SplattingがTSDF Fusionと競合するオンラインRGB-Dマッピング
GSFusion: Online RGB-D Mapping Where Gaussian Splatting Meets TSDF Fusion ( http://arxiv.org/abs/2408.12677v2 ) ライセンス: Link先を確認 | Jiaxin Wei, Stefan Leutenegger, | (参考訳) 従来の体積融合アルゴリズムは3Dシーンの空間構造を保存しており、コンピュータビジョンやロボット工学における多くのタスクに有用である。
しかし、ヴィジュアライゼーションの面では現実主義を欠いていることが多い。
新たな3Dガウシアンスプラッティングはこのギャップを橋渡しするが、既存のガウシアンベースの再構築手法は、下層の3D構造と矛盾するアーティファクトや不整合に悩まされ、リアルタイムの最適化に苦慮し、高品質なフィードバックをユーザに提供できなかった。
ボトルネックの1つは、最適化中に更新する必要がある大量のガウスパラメータから生じる。
3D Gaussianをスタンドアローンの地図表現として使用する代わりに、幾何学的情報を活用するためにボリュームマッピングシステムに組み込んで、画像上にクワッドツリーデータ構造を用いて、初期化されたスプレートの数を劇的に削減することを提案する。
このようにして、アーティファクトが少ないコンパクトな3次元ガウス写像と、フライ時の体積写像を同時に生成する。
我々の手法であるGSFusionは、合成データセットと実データセットの両方で示されるように、レンダリング品質を犠牲にすることなく、計算効率を著しく向上させる。
コードはhttps://github.com/goldoak/GSFusion.comから入手できる。
Traditional volumetric fusion algorithms preserve the spatial structure of 3D scenes, which is beneficial for many tasks in computer vision and robotics. However, they often lack realism in terms of visualization. Emerging 3D Gaussian splatting bridges this gap, but existing Gaussian-based reconstruction methods often suffer from artifacts and inconsistencies with the underlying 3D structure, and struggle with real-time optimization, unable to provide users with immediate feedback in high quality. One of the bottlenecks arises from the massive amount of Gaussian parameters that need to be updated during optimization. Instead of using 3D Gaussian as a standalone map representation, we incorporate it into a volumetric mapping system to take advantage of geometric information and propose to use a quadtree data structure on images to drastically reduce the number of splats initialized. In this way, we simultaneously generate a compact 3D Gaussian map with fewer artifacts and a volumetric map on the fly. Our method, GSFusion, significantly enhances computational efficiency without sacrificing rendering quality, as demonstrated on both synthetic and real datasets. Code will be available at https://github.com/goldoak/GSFusion. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-26 |
# SecDOAR: セキュリティデータオーケストレーション、分析、レポートのためのソフトウェアリファレンスアーキテクチャ
SecDOAR: A Software Reference Architecture for Security Data Orchestration, Analysis and Reporting ( http://arxiv.org/abs/2408.12904v2 ) ライセンス: Link先を確認 | Muhammad Aufeef Chauhan, Muhammad Ali Babar, Fethi Rabhi, | (参考訳) ソフトウェア参照アーキテクチャ(Software Reference Architecture, SRA)は、特定のドメインにおける既存のアーキテクチャを標準化し、SRAをインスタンス化し、SRAを新しいシステム開発のためのベンチマークとして使用することで、具体的なアーキテクチャ設計、開発、評価を容易にする有用なツールである。
本稿では、セキュリティデータのためのセキュリティデータオーケストレーション、分析、レポートツールの統合を容易にするセキュリティデータプラットフォームの標準化を実現するためのセキュリティデータオーケストレーション、分析およびレポートのためのSRA(SecDOAR)を紹介した。
SecDOAR SRAは、既存の科学文献とセキュリティデータ標準を活用して設計されている。
我々はSecDOAR SRAを設計方法論、セキュリティデータアーキテクチャの異なる概念に関連するメタモデル、およびSRAの異なる要素やコンポーネントの詳細で文書化してきた。
我々は、SecDOAR SRAの有効性と完全性を評価し、既存の商用ソリューションと比較した。
我々は,SecDOAR SRAをプロトタイププラットフォームとしてインスタンス化し,特定のツールセットのセキュリティオーケストレーション,分析,レポートをサポートすることにより,提案するSecDOAR SRAの実現可能性を示した。
提案したSecDOAR SRAは、セキュリティデータ、セキュリティイベント、およびセキュリティデータ管理プロセスのメタモデル、およびセキュリティメトリクスおよび対応する測定スキーム、セキュリティデータ統合モデル、SecDOAR SRAコンポーネントの説明から構成される。
提案されたSecDOAR SRAは、様々なドメインにおけるサイバーセキュリティ監視、分析、レポートシステムの設計と実装のための構造化アプローチとして、研究者や実践者が使用することができる。
A Software Reference Architecture (SRA) is a useful tool for standardising existing architectures in a specific domain and facilitating concrete architecture design, development and evaluation by instantiating SRA and using SRA as a benchmark for the development of new systems. In this paper, we have presented an SRA for Security Data Orchestration, Analysis and Reporting (SecDOAR) to provide standardisation of security data platforms that can facilitate the integration of security orchestration, analysis and reporting tools for security data. The SecDOAR SRA has been designed by leveraging existing scientific literature and security data standards. We have documented SecDOAR SRA in terms of design methodology, meta-models to relate to different concepts in the security data architecture, and details on different elements and components of the SRA. We have evaluated SecDOAR SRA for its effectiveness and completeness by comparing it with existing commercial solutions. We have demonstrated the feasibility of the proposed SecDOAR SRA by instantiating it as a prototype platform to support security orchestration, analysis and reporting for a selected set of tools. The proposed SecDOAR SRA consists of meta-models for security data, security events and security data management processes as well as security metrics and corresponding measurement schemes, a security data integration model, and a description of SecDOAR SRA components. The proposed SecDOAR SRA can be used by researchers and practitioners as a structured approach for designing and implementing cybersecurity monitoring, analysis and reporting systems in various domains. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-26 |
# 投票におけるスコーリング規則の帰納的・反トラスト的説明
Abductive and Contrastive Explanations for Scoring Rules in Voting ( http://arxiv.org/abs/2408.12927v2 ) ライセンス: Link先を確認 | Clément Contet, Umberto Grandi, Jérôme Mengin, | (参考訳) 我々は、投票ルールを、勝者(クラス)を有権者の好み(例)のプロファイルに割り当てる分類子として見ている。
そこで本稿では,選好プロファイルの最小部分集合を同定するために,形式的説明可能性,特に誘惑的かつコントラスト的な説明から手法を適用することを提案する。
形式的な説明は、収賄、可能で必要な勝者の識別、選好学習などの計算社会選択において研究された古典的な問題と強い関係があることが判明した。
我々は、ルールの採点のための帰納的および対照的な説明を計算するためのアルゴリズムを設計する。
ボルダ法則では、最小の導出的説明量の大きさの低い境界を見つけ、選好プロファイルの特性と最小の導出的説明量の間の相関を同定するシミュレーションを行う。
We view voting rules as classifiers that assign a winner (a class) to a profile of voters' preferences (an instance). We propose to apply techniques from formal explainability, most notably abductive and contrastive explanations, to identify minimal subsets of a preference profile that either imply the current winner or explain why a different candidate was not elected. Formal explanations turn out to have strong connections with classical problems studied in computational social choice such as bribery, possible and necessary winner identification, and preference learning. We design algorithms for computing abductive and contrastive explanations for scoring rules. For the Borda rule, we find a lower bound on the size of the smallest abductive explanations, and we conduct simulations to identify correlations between properties of preference profiles and the size of their smallest abductive explanations. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-26 |
# シンプレクティックブレグマンの発散
Symplectic Bregman divergences ( http://arxiv.org/abs/2408.12961v2 ) ライセンス: Link先を確認 | Frank Nielsen, | (参考訳) シンプレクティックベクトル空間におけるブレグマン発散の一般化を、シンプレクティック・ブレグマン発散(symplectic Bregman divergences)と呼ぶ。
シンプレクティック・ブレグマンの発散は、シンプレクティック部分微分の概念に依存するフェンシェル・ヤング不等式のシンプレクティック一般化に由来する。
シンプレクティック・フェンシェル・ヤング不等式は、線形シンプレクティック形式に関して定義されるシンプレクティック・フェンシェル変換を用いて得られる。
シンプレクティック形式が内積から作られるとき、対応するシンプレクティックブレグマン発散は合成内積に対して通常のブレグマン発散に等しいことを示す。
幾何力学、情報幾何学、機械学習における学習力学におけるシンプレクティック・ダイバージェンスの潜在的な応用が注目されている。
We present a generalization of Bregman divergences in symplectic vector spaces that we term symplectic Bregman divergences. Symplectic Bregman divergences are derived from a symplectic generalization of the Fenchel-Young inequality which relies on the notion of symplectic subdifferentials. The symplectic Fenchel-Young inequality is obtained using the symplectic Fenchel transform which is defined with respect to a linear symplectic form. When the symplectic form is built from an inner product, we show that the corresponding symplectic Bregman divergences amount to ordinary Bregman divergences with respect to composite inner products. Some potential applications of symplectic divergences in geometric mechanics, information geometry, and learning dynamics in machine learning are touched upon. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-26 |
# Zeoformer: OSDA-Zeolite親和性予測のための粗粒周期グラフ変換器
Zeoformer: Coarse-Grained Periodic Graph Transformer for OSDA-Zeolite Affinity Prediction ( http://arxiv.org/abs/2408.12984v2 ) ライセンス: Link先を確認 | Xiangxiang Shen, Zheng Wan, Lingfeng Wen, Licheng Sun, Ou Yang Ming Jie, Xuan Tang, Xian Zeng, Mingsong Chen, Xiao He, Xian Wei, | (参考訳) 国際ゼオライト協会構造委員会(IZA-SC)はこれまでに255の異なるゼオライト構造をカタログ化しており、数百万もの理論上可能な構造がまだ発見されていない。
特定のゼオライトの合成は、主にOSDAとゼオライトの親和性によって決定されるため、有機構造誘導剤(OSDA)の使用を必要とする。
したがって、最も親和性が高いOSDA-ゼオライトペアが標的ゼオライトの合成の鍵となる。
しかし、OSDA-ゼオライト対はしばしば複雑な幾何学構造、すなわち多数の原子によって形成される複雑な結晶構造を示す。
既存の機械学習手法では結晶の周期性を表現できるが、局所的な可変性を持つ結晶構造を正確に表現することはできない。
この問題に対処するため,Zeoformerという,粗粒度結晶周期性と粒度局所変動性を効果的に表現する手法を提案する。
ゼオフォーマーは各原子を中心に単位細胞を再構成し、この中心原子と他の原子との対距離を再構成された単位細胞内に符号化する。
再構成ユニットセル内の対距離の導入は、ユニットセルの全体構造と異なるユニットセルの違いをより効果的に表現し、OSDA-ゼオライト対と一般的な結晶構造の性質をより正確に効率的に予測することができる。
総合評価により,OSDA-ゼオライトペアデータセットと2種類の結晶材料データセットで最高の性能を示す。
To date, the International Zeolite Association Structure Commission (IZA-SC) has cataloged merely 255 distinct zeolite structures, with millions of theoretically possible structures yet to be discovered. The synthesis of a specific zeolite typically necessitates the use of an organic structure-directing agent (OSDA), since the selectivity for a particular zeolite is largely determined by the affinity between the OSDA and the zeolite. Therefore, finding the best affinity OSDA-zeolite pair is the key to the synthesis of targeted zeolite. However, OSDA-zeolite pairs frequently exhibit complex geometric structures, i.e., a complex crystal structure formed by a large number of atoms. Although some existing machine learning methods can represent the periodicity of crystals, they cannot accurately represent crystal structures with local variability. To address this issue, we propose a novel approach called Zeoformer, which can effectively represent coarse-grained crystal periodicity and fine-grained local variability. Zeoformer reconstructs the unit cell centered around each atom and encodes the pairwise distances between this central atom and other atoms within the reconstructed unit cell. The introduction of pairwise distances within the reconstructed unit cell more effectively represents the overall structure of the unit cell and the differences between different unit cells, enabling the model to more accurately and efficiently predict the properties of OSDA-zeolite pairs and general crystal structures. Through comprehensive evaluation, our Zeoformer model demonstrates the best performance on OSDA-zeolite pair datasets and two types of crystal material datasets. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-26 |
# 機械学習回帰タスクの予測不確実性を検証するための区間基準の信頼性について
On the good reliability of an interval-based metric to validate prediction uncertainty for machine learning regression tasks ( http://arxiv.org/abs/2408.13089v2 ) ライセンス: Link先を確認 | Pascal Pernot, | (参考訳) 本研究は,不確実性の平均校正を予測するための(より)信頼性の高い検証手法に対する機会論的アプローチを示す。
分散に基づくキャリブレーション指標(ZMS, NLL, RCE...)は不確かさと誤差分布の重みの存在に非常に敏感であることを考えると、間隔ベースの測度であるPICP(Prediction Interval Coverage Probability)へのシフトが提案される。
1)zスコアの集合は、学生の-$t(\nu)$分布、$\nu$は自由度数、(2)95$\%$予測間隔の正確な推定は、$\nu>3$の単純な2$\sigma$ルールで得られる。
全体として、ZMSテストよりも20$\%$のデータセットをテストできる。
条件キャリブレーションもPICP法を用いて評価する。
This short study presents an opportunistic approach to a (more) reliable validation method for prediction uncertainty average calibration. Considering that variance-based calibration metrics (ZMS, NLL, RCE...) are quite sensitive to the presence of heavy tails in the uncertainty and error distributions, a shift is proposed to an interval-based metric, the Prediction Interval Coverage Probability (PICP). It is shown on a large ensemble of molecular properties datasets that (1) sets of z-scores are well represented by Student's-$t(\nu)$ distributions, $\nu$ being the number of degrees of freedom; (2) accurate estimation of 95 $\%$ prediction intervals can be obtained by the simple $2\sigma$ rule for $\nu>3$; and (3) the resulting PICPs are more quickly and reliably tested than variance-based calibration metrics. Overall, this method enables to test 20 $\%$ more datasets than ZMS testing. Conditional calibration is also assessed using the PICP approach. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-26 |
# 隣人に着目して全体を知る:3次元創造のための一貫性のあるマルチビューテキスト・ツー・イメージ・ジェネレータを目指して
Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation ( http://arxiv.org/abs/2408.13149v2 ) ライセンス: Link先を確認 | Bonan Li, Zicheng Zhang, Xingyi Yang, Xinchao Wang, | (参考訳) 高忠実度3Dアセットを作成するためには,テキストプロンプトから高密度なマルチビュー画像を生成することが不可欠である。
それでも、既存の手法はスペースビュー対応に苦慮し、スパースと低品質の出力をもたらす。
本稿では,テキストから3Dへの一貫したテキスト・ツー・イメージ・ジェネレータであるCoSERを紹介する。
隣接する視点の一貫性を達成するために、各視点は隣接する視点と密接な相互作用を行い、グローバル空間構造を知覚し、物理的原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
さらに、クロスビューの一貫性を高め、コンテンツドリフトを軽減するため、CoSERは、すべてのビューをスパイラルな双方向で素早くスキャンし、全体的情報を認識し、セマンティック素材に基づいて各ポイントをスコアする。
その後、スコアに基づいて空間次元に沿って重み付けされたダウンサンプリングを行い、軽量な計算で全てのビューをまたがる顕著な情報融合を容易にする。
技術的には、コアモジュールはアテンション機構と選択状態空間モデルを統合することで構築され、前者の堅牢な学習能力と後者の低オーバーヘッドを活用する。
広範評価の結果,CoSERは高精細・高精細・高精細・高精細・高精細なマルチビュー画像を生成することができ,様々な3次元モデルに柔軟に統合できることがわかった。
Generating dense multiview images from text prompts is crucial for creating high-fidelity 3D assets. Nevertheless, existing methods struggle with space-view correspondences, resulting in sparse and low-quality outputs. In this paper, we introduce CoSER, a novel consistent dense Multiview Text-to-Image Generator for Text-to-3D, achieving both efficiency and quality by meticulously learning neighbor-view coherence and further alleviating ambiguity through the swift traversal of all views. For achieving neighbor-view consistency, each viewpoint densely interacts with adjacent viewpoints to perceive the global spatial structure, and aggregates information along motion paths explicitly defined by physical principles to refine details. To further enhance cross-view consistency and alleviate content drift, CoSER rapidly scan all views in spiral bidirectional manner to aware holistic information and then scores each point based on semantic material. Subsequently, we conduct weighted down-sampling along the spatial dimension based on scores, thereby facilitating prominent information fusion across all views with lightweight computation. Technically, the core module is built by integrating the attention mechanism with a selective state space model, exploiting the robust learning capabilities of the former and the low overhead of the latter. Extensive evaluation shows that CoSER is capable of producing dense, high-fidelity, content-consistent multiview images that can be flexibly integrated into various 3D generation models. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-26 |