このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240603となっている論文です。

PDF登録状況(公開日: 20240603)

TitleAuthorsAbstract論文公表日・翻訳日
# 有害自殺検出

Harmful Suicide Content Detection ( http://arxiv.org/abs/2407.13942v1 )

ライセンス: Link先を確認
Kyumin Park, Myung Jae Baik, YeongJun Hwang, Yen Shin, HoJae Lee, Ruda Lee, Sang Min Lee, Je Young Hannah Sun, Ah Rah Lee, Si Yeun Yoon, Dong-ho Lee, Jihyung Moon, JinYeong Bak, Kyunghyun Cho, Jong-Woo Paik, Sungjoon Park, (参考訳) インターネット上の有害な自殺コンテンツは、脆弱な人口の自殺的思考や行動を引き起こす重要な危険因子である。 世界的努力にもかかわらず、既存の資源、特に大韓民国のような高リスク地域では不足している。 現在の研究は、内容の有害性を自動的に検出するのではなく、個人におけるそのような内容や自殺リスクのネガティブな影響を理解することに焦点を当てている。 このギャップを埋めるために、オンライン自殺コンテンツを5つの有害レベルに分類する有害自殺コンテンツ検出タスクを導入する。 我々は,医療専門家と共同でマルチモーダル・ベンチマークとタスク記述文書を開発し,大規模言語モデル(LLM)を活用して,そのようなコンテンツをモデレートするための効率的な手法を探索する。 コントリビューションには,新たな検出タスクの提案,専門家アノテーションを用いたマルチモーダル韓国ベンチマーク,違法かつ有害なコンテンツの検出にLLMを用いた戦略の提案などが含まれている。 潜在的な害が伴うため、倫理的検証プロセスを導入し、実装とベンチマークを公表します。

Harmful suicide content on the Internet is a significant risk factor inducing suicidal thoughts and behaviors among vulnerable populations. Despite global efforts, existing resources are insufficient, specifically in high-risk regions like the Republic of Korea. Current research mainly focuses on understanding negative effects of such content or suicide risk in individuals, rather than on automatically detecting the harmfulness of content. To fill this gap, we introduce a harmful suicide content detection task for classifying online suicide content into five harmfulness levels. We develop a multi-modal benchmark and a task description document in collaboration with medical professionals, and leverage large language models (LLMs) to explore efficient methods for moderating such content. Our contributions include proposing a novel detection task, a multi-modal Korean benchmark with expert annotations, and suggesting strategies using LLMs to detect illegal and harmful content. Owing to the potential harm involved, we publicize our implementations and benchmark, incorporating an ethical verification process.
翻訳日:2024-08-05 01:55:24 公開日:2024-06-03
# 人工知能を使って集団知能を加速する - ポリシーシンスとよりスマートなクラウドソーシング

Using Artificial Intelligence to Accelerate Collective Intelligence: Policy Synth and Smarter Crowdsourcing ( http://arxiv.org/abs/2407.13960v1 )

ライセンス: Link先を確認
Róbert Bjarnason, Dane Gambrell, Joshua Lanthier-Welch, (参考訳) 社会の急激な変化と複雑な課題を特徴とする時代には、公共セクターにおける従来の問題解決方法が不十分になってきている。 本研究では, 人工知能を用いて, 緊急時問題に対する効果的な解を, より効率的に生成することのできる, 革新的で効果的なモデルを提案する。 クラウドソーシングを通じて、問題に関する専門知識を持つ人々の集合的インテリジェンスを行動可能なソリューションに変換するために設計された、Smarter Crowdsourcingと呼ばれる、実証済みの集合的インテリジェンス手法について説明する。 次に、AIを活用する革新的なツールキットであるPolicy Synthを紹介します。 Policy Synthは人間中心のアプローチを使って開発されており、AIは人間の知性と創造性を高めるツールであり、それを置き換えるものではない、と認識している。 専門家のクラウドソーシングの結果と、ポリシーシンスAIエージェントが支援する専門家のクラウドソーシング結果を比較した実世界のケーススタディに基づいて、我々は、ポリシーシンスによるスマートクラウドソーシングが、人間の専門家の集合的な知恵とAIの計算力を統合して、公共の問題解決プロセスの強化とスケールアップに有効なモデルを提供すると結論付けた。 既存の多くのアプローチでは、AIをクラウドソーシングと熟考プロセスをより効率的にするためのツールとして見ているが、Policy Synthはさらに一歩進んで、AIが研究と共にエンゲージメントからの発見を合成し、エビデンスベースのソリューションとポリシーを開発するために使用できることを認識している。 この研究は、緊急の社会的課題に対処するために、コミュニティを効果的に取り組もうとする機関に対して、実践的なツールと洞察を提供する。

In an era characterized by rapid societal changes and complex challenges, institutions' traditional methods of problem-solving in the public sector are increasingly proving inadequate. In this study, we present an innovative and effective model for how institutions can use artificial intelligence to enable groups of people to generate effective solutions to urgent problems more efficiently. We describe a proven collective intelligence method, called Smarter Crowdsourcing, which is designed to channel the collective intelligence of those with expertise about a problem into actionable solutions through crowdsourcing. Then we introduce Policy Synth, an innovative toolkit which leverages AI to make the Smarter Crowdsourcing problem-solving approach both more scalable, more effective and more efficient. Policy Synth is crafted using a human-centric approach, recognizing that AI is a tool to enhance human intelligence and creativity, not replace it. Based on a real-world case study comparing the results of expert crowdsourcing alone with expert sourcing supported by Policy Synth AI agents, we conclude that Smarter Crowdsourcing with Policy Synth presents an effective model for integrating the collective wisdom of human experts and the computational power of AI to enhance and scale up public problem-solving processes. While many existing approaches view AI as a tool to make crowdsourcing and deliberative processes better and more efficient, Policy Synth goes a step further, recognizing that AI can also be used to synthesize the findings from engagements together with research to develop evidence-based solutions and policies. The study offers practical tools and insights for institutions looking to engage communities effectively in addressing urgent societal challenges.
翻訳日:2024-08-05 01:55:24 公開日:2024-06-03
# コンピューターの創造性は死んだインターネットで繁栄しているか?

Is computational creativity flourishing on the dead internet? ( http://arxiv.org/abs/2407.17590v1 )

ライセンス: Link先を確認
Terence Broad, (参考訳) 死んだインターネット理論は、ソーシャルメディア上のすべてのインタラクションとポストは、もはや現実の人間ではなく、自律的なボットによって作られている、という陰謀論である。 この理論は明らかに真実ではないが、ソーシャルメディアへの投稿が増えているのは、フォロワーを獲得してソーシャルメディアプラットフォームへのエンゲージメントを促進するために最適化されたボットによるものだ。 本稿では、これらのボットの最近の現象を考察し、それらの振る舞いを計算的創造性のレンズを通して分析し、その疑問を考察する: 計算的創造性は死んだインターネット上で繁栄しているか?

The dead internet theory is a conspiracy theory that states that all interactions and posts on social media are no longer being made by real people, but rather by autonomous bots. While the theory is obviously not true, an increasing amount of posts on social media have been made by bots optimised to gain followers and drive engagement on social media platforms. This paper looks at the recent phenomenon of these bots, analysing their behaviour through the lens of computational creativity to investigate the question: is computational creativity flourishing on the dead internet?
翻訳日:2024-08-05 01:35:56 公開日:2024-06-03
# テキスト・画像拡散モデルのための分割自由誘導法

Segmentation-Free Guidance for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2407.04800v1 )

ライセンス: Link先を確認
Kambiz Azarian, Debasmit Das, Qiqi Hou, Fatih Porikli, (参考訳) 安定拡散のようなテキストと画像の拡散モデルのための新しい手法であるセグメンテーションフリーガイダンスを導入する。 拡散モデルの再学習は不要である。 追加の計算コストなしでは、拡散モデル自体をインプリッドセグメンテーションネットワークとして使用し、したがってセグメンテーションフリーガイダンスと呼ばれ、プロンプトの概念に対するパッチの関連性に基づいて、生成された画像の各パッチに対する負のプロンプトを動的に調整する。 FID,CLIP,IS,PickScoreを主観的,主観的に評価する。 主観評価には,MS COCO-30Kのようなデータセットのプロンプトをサブサンプリングする手法も提案する。 その結果,広く使用されている分類器フリー手法に対するセグメント化フリーガイダンスの優位性を示した。 人間の評価者は、分類子なしの60%から19%よりもセグメンテーションなしの指導を好んだが、その18%は強い嗜好を示した。 さらに、最近提案された人間の嗜好を模倣する指標であるPickScore win-rateも、分類器フリーよりもメソッドの好みを示している。

We introduce segmentation-free guidance, a novel method designed for text-to-image diffusion models like Stable Diffusion. Our method does not require retraining of the diffusion model. At no additional compute cost, it uses the diffusion model itself as an implied segmentation network, hence named segmentation-free guidance, to dynamically adjust the negative prompt for each patch of the generated image, based on the patch's relevance to concepts in the prompt. We evaluate segmentation-free guidance both objectively, using FID, CLIP, IS, and PickScore, and subjectively, through human evaluators. For the subjective evaluation, we also propose a methodology for subsampling the prompts in a dataset like MS COCO-30K to keep the number of human evaluations manageable while ensuring that the selected subset is both representative in terms of content and fair in terms of model performance. The results demonstrate the superiority of our segmentation-free guidance to the widely used classifier-free method. Human evaluators preferred segmentation-free guidance over classifier-free 60% to 19%, with 18% of occasions showing a strong preference. Additionally, PickScore win-rate, a recently proposed metric mimicking human preference, also indicates a preference for our method over classifier-free.
翻訳日:2024-07-22 14:29:03 公開日:2024-06-03
# グラディエントDescent法によるMU-MIMO放送チャンネルの連成星形成

Joint Constellation Shaping Using Gradient Descent Approach for MU-MIMO Broadcast Channel ( http://arxiv.org/abs/2407.07708v1 )

ライセンス: Link先を確認
Maxime Vaillant, Alix Jeannerot, Jean-Marie Gorce, (参考訳) 我々は,マルチユーザMIMO放送チャンネル(T$Txアンテナ,K$ユーザ,それぞれ$R$Rxアンテナ)のコンステレーションを,完全チャネル知識で最適化するための学習ベースのアプローチを導入する。 最適化器(MAX-MIN)の目的は、送信機と受信機間の最小の相互情報を和力制約の下で最大化することである。 提案手法は、送信機に重ね合わせ符号(SC)やその他の線形プリコーディングの使用や、受信機での逐次干渉キャンセル(SIC)の使用を強制しない。 その代わりに、各受信機$k$のサブスペースへの投影を最適化し、送信された各バイナリ入力$W_k$と意図された受信機$Y_k$の出力信号との間の最小相互情報$I(W_k;Y_k)$を最大化する。 本手法により得られたレートは,線形プリコーダで得られたレートと比較される。

We introduce a learning-based approach to optimize a joint constellation for a multi-user MIMO broadcast channel ($T$ Tx antennas, $K$ users, each with $R$ Rx antennas), with perfect channel knowledge. The aim of the optimizer (MAX-MIN) is to maximize the minimum mutual information between the transmitter and each receiver, under a sum-power constraint. The proposed optimization method do neither impose the transmitter to use superposition coding (SC) or any other linear precoding, nor to use successive interference cancellation (SIC) at the receiver. Instead, the approach designs a joint constellation, optimized such that its projection into the subspace of each receiver $k$, maximizes the minimum mutual information $I(W_k;Y_k)$ between each transmitted binary input $W_k$ and the output signal at the intended receiver $Y_k$. The rates obtained by our method are compared to those achieved with linear precoders.
翻訳日:2024-07-22 13:58:01 公開日:2024-06-03
# ディープスパイクニューロンネットワークの効率化に向けて:圧縮に関する調査研究

Toward Efficient Deep Spiking Neuron Networks:A Survey On Compression ( http://arxiv.org/abs/2407.08744v1 )

ライセンス: Link先を確認
Hui Xie, Ge Yang, Wenjuan Gao, (参考訳) ディープラーニングの急速な発展に伴い、Deep Spiking Neural Networks(DSNN)は、独自のスパイクイベント処理と非同期計算のために、有望な存在として現れている。 ニューロモルフィックチップにデプロイすると、DSNNはディープ・ニューラル・ニューラルネットワーク(DANN)よりも大きなパワーアドバンテージを提供し、スパイク(0または1)のバイナリの性質による時間とエネルギー消費の乗算をなくす。 さらに、DSNNは時間情報の処理に優れており、DANNよりも時間データの処理に優れている可能性がある。 しかし、その深いネットワーク構造と多くのパラメータは計算コストとエネルギー消費を増大させ、実際の展開を制限する。 DSNNの効率を高めるために、研究者は、プルーニング、量子化、知識蒸留といったDANNの手法を応用し、スパイクシューティングやプルーニングタイムステップの削減のような特定の技術を開発した。 以前の調査では、DSNNのアルゴリズム、ハードウェアデプロイメント、一般的な概要をカバーしていたが、DSNNの圧縮と効率性についての研究は欠如している。 本研究では,効率的なDSNNとその圧縮手法に集中することで,このギャップを解消する。 DSNNの生物学的背景と計算単位の探索から始まり、DANNとの違いを強調している。 その後、プルーニング、量子化、知識の蒸留、スパイク発火の低減など様々な圧縮手法を練り込み、今後の研究の方向性を示唆した。

With the rapid development of deep learning, Deep Spiking Neural Networks (DSNNs) have emerged as promising due to their unique spike event processing and asynchronous computation. When deployed on neuromorphic chips, DSNNs offer significant power advantages over Deep Artificial Neural Networks (DANNs) and eliminate time and energy consuming multiplications due to the binary nature of spikes (0 or 1). Additionally, DSNNs excel in processing temporal information, making them potentially superior for handling temporal data compared to DANNs. However, their deep network structure and numerous parameters result in high computational costs and energy consumption, limiting real-life deployment. To enhance DSNNs efficiency, researchers have adapted methods from DANNs, such as pruning, quantization, and knowledge distillation, and developed specific techniques like reducing spike firing and pruning time steps. While previous surveys have covered DSNNs algorithms, hardware deployment, and general overviews, focused research on DSNNs compression and efficiency has been lacking. This survey addresses this gap by concentrating on efficient DSNNs and their compression methods. It begins with an exploration of DSNNs' biological background and computational units, highlighting differences from DANNs. It then delves into various compression methods, including pruning, quantization, knowledge distillation, and reducing spike firing, and concludes with suggestions for future research directions.
翻訳日:2024-07-22 13:48:17 公開日:2024-06-03
# 汎用人工知能システムの設計と強化のための進化計算:調査と展望

Evolutionary Computation for the Design and Enrichment of General-Purpose Artificial Intelligence Systems: Survey and Prospects ( http://arxiv.org/abs/2407.08745v1 )

ライセンス: Link先を確認
Javier Poyatos, Javier Del Ser, Salvador Garcia, Hisao Ishibuchi, Daniel Molina, Isaac Triguero, Bing Xue, Xin Yao, Francisco Herrera, (参考訳) 人工知能では、多様な学習タスクを扱うことができる適応モデルへの需要が増加しており、単一のタスクに対処するために考案されたシステムの制限を超越している。 最近の汎用人工知能システム(GPAIS)の出現は、従来の機械学習モデルの最適設計よりもはるかに複雑なスケールでモデル構成と適応性の問題を引き起こす。 進化計算(Evolutionary Computation:EC)は、機械学習モデルの設計と最適化の両方に有用なツールであり、考慮中のタスクに自分自身を設定および/または適応する能力を提供する。 したがって、GPAISへの応用は自然な選択である。 本稿では,GPAISの分野におけるECの役割を解析し,その設計や富化におけるECの利用について検討する。 私たちはまた、GPAISのプロパティを、ECが目立った貢献をした機械学習領域にマッチさせ、GPAISのECの最近のマイルストーンを強調します。 さらに、GPAISにおけるECのメリットを活用し、GPAISをECで設計・改善するための異なる戦略を提示し、接する領域をカバーし、研究ニッチを識別し、ECとGPAISの潜在的研究方向性を概説する課題についても論じる。

In Artificial Intelligence, there is an increasing demand for adaptive models capable of dealing with a diverse spectrum of learning tasks, surpassing the limitations of systems devised to cope with a single task. The recent emergence of General-Purpose Artificial Intelligence Systems (GPAIS) poses model configuration and adaptability challenges at far greater complexity scales than the optimal design of traditional Machine Learning models. Evolutionary Computation (EC) has been a useful tool for both the design and optimization of Machine Learning models, endowing them with the capability to configure and/or adapt themselves to the task under consideration. Therefore, their application to GPAIS is a natural choice. This paper aims to analyze the role of EC in the field of GPAIS, exploring the use of EC for their design or enrichment. We also match GPAIS properties to Machine Learning areas in which EC has had a notable contribution, highlighting recent milestones of EC for GPAIS. Furthermore, we discuss the challenges of harnessing the benefits of EC for GPAIS, presenting different strategies to both design and improve GPAIS with EC, covering tangential areas, identifying research niches, and outlining potential research directions for EC and GPAIS.
翻訳日:2024-07-22 13:48:17 公開日:2024-06-03
# Twitterボット分類のための時系列スパイクニューラルネットワークにおけるイベント空間の反復

Iteration over event space in time-to-first-spike spiking neural networks for Twitter bot classification ( http://arxiv.org/abs/2407.08746v1 )

ライセンス: Link先を確認
Mateusz Pabian, Dominik Rzepka, Mirosław Pawlak, (参考訳) 本研究では,従来の時分割スパイクスパイクニューラルネットワーク(SNN)モデルを拡張して,時間とともに情報を処理するフレームワークを提案する。 本稿では、各ニューロンにおける複数の入力と出力のスパイクを持つモデルによるスパイク伝播と、エンドツーエンドのバックプロパゲーションのためのトレーニングルールの設計について説明する。 この戦略により、時間とともに変化する情報を処理できます。 モデルは、イベントの時間(ツイートとリツイート)が情報の主要キャリアであるTwitterボット検出タスクでトレーニングされ、評価される。 このタスクは、提案されたSNNが、時間スケールで発生した数百のイベントからなるスパイクトレインデータをどのように扱うかを評価するために選択された。 各種パラメータがモデル特性,性能,訓練時間安定性に与える影響を解析した。

This study proposes a framework that extends existing time-coding time-to-first-spike spiking neural network (SNN) models to allow processing information changing over time. We explain spike propagation through a model with multiple input and output spikes at each neuron, as well as design training rules for end-to-end backpropagation. This strategy enables us to process information changing over time. The model is trained and evaluated on a Twitter bot detection task where the time of events (tweets and retweets) is the primary carrier of information. This task was chosen to evaluate how the proposed SNN deals with spike train data composed of hundreds of events occurring at timescales differing by almost five orders of magnitude. The impact of various parameters on model properties, performance and training-time stability is analyzed.
翻訳日:2024-07-22 13:48:17 公開日:2024-06-03
# 大規模言語モデルのライフサイクル:教育におけるバイアスの概観

The Life Cycle of Large Language Models: A Review of Biases in Education ( http://arxiv.org/abs/2407.11203v1 )

ライセンス: Link先を確認
Jinsook Lee, Yann Hicke, Renzhe Yu, Christopher Brooks, René F. Kizilcec, (参考訳) 大規模言語モデル(LLM)は、学生や教師にパーソナライズされたサポートを提供するために、教育の文脈でますます採用されている。 自然言語を理解・生成するLLMベースのアプリケーションの前例のない能力は、指導効果と学習結果を改善する可能性があるが、教育技術におけるLLMの統合は、教育的不平等を悪化させる可能性のあるアルゴリズムバイアスに対して、新たな懸念を抱いている。 本稿では,従来の機械学習のライフサイクルをマッピングするための先行研究に基づいて,LLMの初期開発から教育環境における各種応用のための事前学習モデルのカスタマイズまで,LCMのライフサイクルの全体地図を提供する。 LLMのライフサイクルにおける各ステップを説明し、教育の文脈で生じる可能性のあるバイアスの原因を特定する。 従来の機械学習による偏見は、テキストが高次元であること、複数の正しい応答が存在すること、不公平であることより、教育におけるLLM生成コンテンツへの変換に失敗する可能性があること、などについて論じる。 本論は,LLMアプリケーションにおける偏見の複雑な性質を明らかにすることを目的として,その評価のための実践的ガイダンスを提供する。

Large Language Models (LLMs) are increasingly adopted in educational contexts to provide personalized support to students and teachers. The unprecedented capacity of LLM-based applications to understand and generate natural language can potentially improve instructional effectiveness and learning outcomes, but the integration of LLMs in education technology has renewed concerns over algorithmic bias which may exacerbate educational inequities. In this review, building on prior work on mapping the traditional machine learning life cycle, we provide a holistic map of the LLM life cycle from the initial development of LLMs to customizing pre-trained models for various applications in educational settings. We explain each step in the LLM life cycle and identify potential sources of bias that may arise in the context of education. We discuss why current measures of bias from traditional machine learning fail to transfer to LLM-generated content in education, such as tutoring conversations because the text is high-dimensional, there can be multiple correct responses, and tailoring responses may be pedagogically desirable rather than unfair. This review aims to clarify the complex nature of bias in LLM applications and provide practical guidance for their evaluation to promote educational equity.
翻訳日:2024-07-22 12:00:08 公開日:2024-06-03
# 学習バディとしてのジェネレーティブAI : 教員の使い方と態度

Generative AI as a Learning Buddy and Teaching Assistant: Pre-service Teachers' Uses and Attitudes ( http://arxiv.org/abs/2407.11983v1 )

ライセンス: Link先を確認
Matthew Nyaaba, Lehong Shi, Macharious Nabang, Xiaoming Zhai, Patrick Kyeremeh, Samuel Arthur Ayoberd, Bismark Nyaaba Akanzire, (参考訳) 先進的な教員(PST)のユーザ体験と生成的人工知能(GenAI)アプリケーションに対する認識を明らかにするために,Ghana PSTsの学習仲間および指導助手としてのGenAIの具体的な使用状況と,それらの応用に対する態度を調査した。 探索的因子分析(EFA)を用いて,PSTのGenAIに対する態度を形作る3つの重要な要因を同定した。 これらの要因の平均スコアは、GenAIに対する概して肯定的な態度を示し、PSTのコンテンツ知識を高め、学習や教材へのアクセスを可能とすることで、同僚の援助の必要性を減らした。 特に、PSTは、GenAIを学習仲間として、読み物、深い内容の説明、実践例へのアクセス、教材の強化、アセスメント戦略の展開、プランニングの指導支援として利用している。 回帰分析の結果,年齢,性別,研究年数などの背景因子はPSTsのGenAIに対する態度を予測しないが,年齢と研究年数はGenAIの使用頻度を有意に予測する一方で,性別は予測しないことがわかった。 これらの結果から,教員教育プログラムにおける高齢者のPSTとそれに伴うPSTは,より頻繁にGenAIを使用する可能性があるが,その適用に対する認識は変化していないことが示唆された。 しかし、PSTはGenAIアプリケーションが提供する情報の正確性と信頼性に関する懸念を表明している。 そこで我々は,これらの懸念に対処し,教員準備プログラムにおいてPSTが確実にこれらの応用に頼れるようにすることを提案する。 さらに,PSTの学習・教育プロセスにGenAIをより効果的に統合するための戦略を推奨する。

To uncover pre-service teachers' (PSTs') user experience and perceptions of generative artificial intelligence (GenAI) applications, we surveyed 167 Ghana PSTs' specific uses of GenAI as a learning buddy and teaching assistant, and their attitudes towards these applications. Employing exploratory factor analysis (EFA), we identified three key factors shaping PSTs' attitudes towards GenAI: teaching, learning, and ethical and advocacy factors. The mean scores of these factors revealed a generally positive attitude towards GenAI, indicating high levels of agreement on its potential to enhance PSTs' content knowledge and access to learning and teaching resources, thereby reducing their need for assistance from colleagues. Specifically, PSTs use GenAI as a learning buddy to access reading materials, in-depth content explanations, and practical examples, and as a teaching assistant to enhance teaching resources, develop assessment strategies, and plan lessons. A regression analysis showed that background factors such as age, gender, and year of study do not predict PSTs' attitudes towards GenAI, but age and year of study significantly predict the frequency of their use of GenAI, while gender does not. These findings suggest that older PSTs and those further along in their teacher education programs may use GenAI more frequently, but their perceptions of the application remain unchanged. However, PSTs expressed concerns about the accuracy and trustworthiness of the information provided by GenAI applications. We, therefore, suggest addressing these concerns to ensure PSTs can confidently rely on these applications in their teacher preparation programs. Additionally, we recommend targeted strategies to integrate GenAI more effectively into both learning and teaching processes for PSTs.
翻訳日:2024-07-22 11:50:18 公開日:2024-06-03
# AI開発とガバナンスへの参加的アプローチ:原則的アプローチ

Participatory Approaches in AI Development and Governance: A Principled Approach ( http://arxiv.org/abs/2407.13100v1 )

ライセンス: Link先を確認
Ambreesh Parthasarathy, Aditya Phalnikar, Ameen Jauhar, Dhruv Somayajula, Gokul S Krishnan, Balaraman Ravindran, (参考訳) 人工知能(AI)技術が公共部門や民間セクターに広く採用され、新しい、予期せぬ方法で人々の生活に大きな影響を与えている。 この文脈では、設計、開発、デプロイメントがどのように行われるかを知ることが重要になります。 この調査の結果、これらのシステムの展開によって影響を受けそうな人は、どのように開発されているかはほとんど語られていないことが明らかとなった。 この研究は、より責任があり、安全で、人間中心のAIシステムを構築し、使用するのに、参加的アプローチが(実用的にも規範的にも)有益である、という前提を推し進めている。 厳密には、これはプロセスの公正性を高め、市民が自分の生活に大きな影響を及ぼす可能性のあるシステムへの関心を喚起する権限を与える。 実際には、AIアルゴリズムの品質向上に役立ちそうな、新たな情報手段を開発者に提供します。 論文はまず,AIシステムのライフサイクルを説明することによって,この議論を推し進める。第2に,参加型エクササイズにおいて関連する利害関係者を特定するために使用される基準を特定し,第3に,関連する利害関係者をAIライフサイクルの異なる段階にマッピングすることによって,この議論を推し進める。 本稿は、AIにおける参加型ガバナンスに関する2部構成のシリーズの第1部を構成する。 第2の論文では、本論文で開発された原則を拡張し、拡張し、実際のAIシステムのユースケースに適用する。

The widespread adoption of Artificial Intelligence (AI) technologies in the public and private sectors has resulted in them significantly impacting the lives of people in new and unexpected ways. In this context, it becomes important to inquire how their design, development and deployment takes place. Upon this inquiry, it is seen that persons who will be impacted by the deployment of these systems have little to no say in how they are developed. Seeing this as a lacuna, this research study advances the premise that a participatory approach is beneficial (both practically and normatively) to building and using more responsible, safe, and human-centric AI systems. Normatively, it enhances the fairness of the process and empowers citizens in voicing concerns to systems that may heavily impact their lives. Practically, it provides developers with new avenues of information which will be beneficial to them in improving the quality of the AI algorithm. The paper advances this argument first, by describing the life cycle of an AI system; second, by identifying criteria which may be used to identify relevant stakeholders for a participatory exercise; and third, by mapping relevant stakeholders to different stages of AI lifecycle. This paper forms the first part of a two-part series on participatory governance in AI. The second paper will expand upon and concretise the principles developed in this paper and apply the same to actual use cases of AI systems.
翻訳日:2024-07-22 08:07:30 公開日:2024-06-03
# AI開発とガバナンスへの参加的アプローチ:ケーススタディ

Participatory Approaches in AI Development and Governance: Case Studies ( http://arxiv.org/abs/2407.13103v1 )

ライセンス: Link先を確認
Ambreesh Parthasarathy, Aditya Phalnikar, Gokul S Krishnan, Ameen Jauhar, Balaraman Ravindran, (参考訳) 本稿では、AI開発と展開への参加的アプローチの価値に関する2部シリーズの第2部を構成する。 最初の論文は、この2つのエクササイズ(つまり、AIの開発と展開)に参加メソッドをデプロイするための、原則と実践的な正当化を考案した。 現実的な正当化は、よりきめ細かい情報を提供することで、全体的なアルゴリズムの品質を向上させることである。 より原則化された正当化は、アルゴリズムの展開に影響を受けそうな人たちへの声を提供し、AIシステムの信頼と購入を築こうとするエンゲージメントを通じて実現している。 参加型アプローチでは、AIシステムのライフサイクルを通じて、実際の意思決定プロセスにさまざまな利害関係者(特定の方法を定義する)を含めます。 上記の正当化にもかかわらず、実際の実装は、プロセス全体の利害関係者の特定方法、どのような情報が提供され、どのように組み込まれているかに大きく依存する。 本稿では、これらの予備的な結論を、法と秩序の覚醒における顔認識技術の使用と、医療分野における大規模言語モデルの使用の2つの分野で検証する。 これらの部門は2つの主要な理由から選ばれた。 Facial Recognition Technologiesは、よく研究され、その影響が十分に文書化されているAIソリューションの分野であるため、PAIを既存のドメイン、特に最近かなり批判的な領域に適応するさまざまな側面を説明するための確立されたスペースを提供する。 医療分野におけるLLMは、比較的研究の少ない分野のキャンバスを提供し、イノベーションが常に患者の福祉と整合しなくてはならない分野において、比較的新しい技術のためにPAIの原則を具現化する方法を、どのように想像できるかを説明するのに役立つ。

This paper forms the second of a two-part series on the value of a participatory approach to AI development and deployment. The first paper had crafted a principled, as well as pragmatic, justification for deploying participatory methods in these two exercises (that is, development and deployment of AI). The pragmatic justification is that it improves the quality of the overall algorithm by providing more granular and minute information. The more principled justification is that it offers a voice to those who are going to be affected by the deployment of the algorithm, and through engagement attempts to build trust and buy-in for an AI system. By a participatory approach, we mean including various stakeholders (defined a certain way) in the actual decision making process through the life cycle of an AI system. Despite the justifications offered above, actual implementation depends crucially on how stakeholders in the entire process are identified, what information is elicited from them, and how it is incorporated. This paper will test these preliminary conclusions in two sectors, the use of facial recognition technology in the upkeep of law and order and the use of large language models in the healthcare sector. These sectors have been chosen for two primary reasons. Since Facial Recognition Technologies are a branch of AI solutions that are well-researched and the impact of which is well documented, it provides an established space to illustrate the various aspects of adapting PAI to an existing domain, especially one that has been quite contentious in the recent past. LLMs in healthcare provide a canvas for a relatively less explored space, and helps us illustrate how one could possibly envision enshrining the principles of PAI for a relatively new technology, in a space where innovation must always align with patient welfare.
翻訳日:2024-07-22 08:07:30 公開日:2024-06-03
# MOT:アルゴリズム取引のための最適輸送によるアクター強化学習手法の混合

MOT: A Mixture of Actors Reinforcement Learning Method by Optimal Transport for Algorithmic Trading ( http://arxiv.org/abs/2407.01577v1 )

ライセンス: Link先を確認
Xi Cheng, Jinghao Zhang, Yunan Zeng, Wenfang Xue, (参考訳) アルゴリズム取引は、自動的に特定された取引機会に基づいて、特定の資産の売買注文を実行することを指す。 強化学習(RL)に基づく戦略は,アルゴリズム取引問題に対処する際,顕著な能力を示した。 しかし、流通データの変化により、取引パターンは市場状況によって異なる。 データ内の複数のパターンを無視することは、RLのパフォーマンスを損なう。 本稿では,複数のアクターを非交叉表現学習で設計し,市場の異なるパターンをモデル化するMOTを提案する。 さらに、正規化損失項を導入することにより、サンプルを適切なアクターに割り当てるために、最適なトランスポート(OT)アルゴリズムを組み込む。 さらに,アクターの出力を専門家の戦略と整合させ,RLの探索と活用のバランスを良くすることで,模倣学習を容易にするためのPretrain Moduleを提案する。 将来の市場データによる実験結果から,MOTはリスクのバランスを保ちながら優れた収益性を示すことが示された。 アブレーション研究はMOTの成分の有効性を検証する。

Algorithmic trading refers to executing buy and sell orders for specific assets based on automatically identified trading opportunities. Strategies based on reinforcement learning (RL) have demonstrated remarkable capabilities in addressing algorithmic trading problems. However, the trading patterns differ among market conditions due to shifted distribution data. Ignoring multiple patterns in the data will undermine the performance of RL. In this paper, we propose MOT,which designs multiple actors with disentangled representation learning to model the different patterns of the market. Furthermore, we incorporate the Optimal Transport (OT) algorithm to allocate samples to the appropriate actor by introducing a regularization loss term. Additionally, we propose Pretrain Module to facilitate imitation learning by aligning the outputs of actors with expert strategy and better balance the exploration and exploitation of RL. Experimental results on real futures market data demonstrate that MOT exhibits excellent profit capabilities while balancing risks. Ablation studies validate the effectiveness of the components of MOT.
翻訳日:2024-07-07 13:34:23 公開日:2024-06-03
# 反復的局所探索-スパロー探索アルゴリズムに基づくユーザVR体験予測のためのランダムフォレスト機械学習アルゴリズムの最適化

Optimising Random Forest Machine Learning Algorithms for User VR Experience Prediction Based on Iterative Local Search-Sparrow Search Algorithm ( http://arxiv.org/abs/2406.16905v1 )

ライセンス: Link先を確認
Xirui Tang, Feiyang Li, Zinan Cao, Qixuan Yu, Yulu Gong, (参考訳) 本稿では,空間探索アルゴリズムと局所探索最適化スパロウ探索アルゴリズムにより改良されたランダムフォレストアルゴリズムを導入することにより,VRユーザエクスペリエンス予測の改善手法について検討する。 この研究はまずデータを統計的に分析し、続いて従来のランダム森林モデルを用いて訓練および試験を行い、スパロウ探索アルゴリズムによって改良されたランダム森林モデルと、反復的局所探索-スパロー探索アルゴリズムに基づいて改良されたランダム森林アルゴリズムを用いてランダム森林モデルを構築した。 その結果、従来のランダム林モデルでは、トレーニングセットで93%の予測精度を持つが、一般化が不十分なテストセットでは73.3%に過ぎず、一方、スパロウ探索アルゴリズムで改良されたモデルは、従来のモデルと比較して94%の予測精度を持つことがわかった。 さらに注目すべきは、反復的な局所探索-スパロー探索アルゴリズムに基づく改良されたモデルが、トレーニングとテストセットの両方で100%精度を達成し、他の2つの手法よりもはるかに優れていることである。 これらの研究結果は、VRユーザエクスペリエンス予測の新しいアイデアと方法、特に、反復的局所探索-スパロー探索アルゴリズムに基づく改善されたモデルを提供し、ユーザのVRエクスペリエンスをより正確に予測し、分類することができる。 将来的には、他の分野への本手法の適用をさらに検討し、実際の事例を通してその有効性を検証し、ユーザエクスペリエンス分野におけるAI技術の開発を促進することができる。

In this paper, an improved method for VR user experience prediction is investigated by introducing a sparrow search algorithm and a random forest algorithm improved by an iterative local search-optimised sparrow search algorithm. The study firstly conducted a statistical analysis of the data, and then trained and tested using the traditional random forest model, the random forest model improved by the sparrow search algorithm, and the random forest algorithm improved based on the iterative local search-sparrow search algorithm, respectively. The results show that the traditional random forest model has a prediction accuracy of 93% on the training set but only 73.3% on the test set, which is poor in generalisation; whereas the model improved by the sparrow search algorithm has a prediction accuracy of 94% on the test set, which is improved compared with the traditional model. What is more noteworthy is that the improved model based on the iterative local search-sparrow search algorithm achieves 100% accuracy on both the training and test sets, which is significantly better than the other two methods. These research results provide new ideas and methods for VR user experience prediction, especially the improved model based on the iterative local search-sparrow search algorithm performs well and is able to more accurately predict and classify the user's VR experience. In the future, the application of this method in other fields can be further explored, and its effectiveness can be verified through real cases to promote the development of AI technology in the field of user experience.
翻訳日:2024-07-01 06:41:31 公開日:2024-06-03
# REST: 残留状態更新による効率よく加速されたEEGseizure分析

REST: Efficient and Accelerated EEG Seizure Analysis through Residual State Updates ( http://arxiv.org/abs/2406.16906v1 )

ライセンス: Link先を確認
Arshia Afzal, Grigorios Chrysos, Volkan Cevher, Mahsa Shoaran, (参考訳) EEGベースの発作検出モデルは、推測速度とメモリ効率の点で課題に直面し、臨床機器におけるリアルタイム実装を制限する。 本稿では、てんかん発作検出などのアプリケーションにおけるリアルタイム脳波信号解析のための新しいグラフベースの残状態更新機構(REST)を提案する。 グラフニューラルネットワークとリカレント構造の組み合わせを活用することで、RESTは、非ユークリッド幾何学とEEGデータ内の時間的依存関係の両方を効率的にキャプチャする。 本モデルは,発作検出と分類作業において高い精度を示す。 特に、RESTは最先端のモデルと比較して、推論速度の9倍の大幅な加速を実現していますが、同時にこのタスクで使用される最小のモデルよりもメモリをかなり少なく要求しています。 これらの属性は、RESTを、レスポンシブ神経刺激や発作警報システムなど、臨床機器におけるリアルタイム実装の候補と位置づけている。

EEG-based seizure detection models face challenges in terms of inference speed and memory efficiency, limiting their real-time implementation in clinical devices. This paper introduces a novel graph-based residual state update mechanism (REST) for real-time EEG signal analysis in applications such as epileptic seizure detection. By leveraging a combination of graph neural networks and recurrent structures, REST efficiently captures both non-Euclidean geometry and temporal dependencies within EEG data. Our model demonstrates high accuracy in both seizure detection and classification tasks. Notably, REST achieves a remarkable 9-fold acceleration in inference speed compared to state-of-the-art models, while simultaneously demanding substantially less memory than the smallest model employed for this task. These attributes position REST as a promising candidate for real-time implementation in clinical devices, such as Responsive Neurostimulation or seizure alert systems.
翻訳日:2024-07-01 06:41:31 公開日:2024-06-03
# FLOW:IMUを用いたユーザ間人間活動認識のためのグローバルおよびローカルビューの融合とシャッフル

FLOW: Fusing and Shuffling Global and Local Views for Cross-User Human Activity Recognition with IMUs ( http://arxiv.org/abs/2406.18569v1 )

ライセンス: Link先を確認
Qi Qiu, Tao Zhu, Furong Duan, Kevin I-Kai Wang, Liming Chen, Mingxing Nie, Mingxing Nie, (参考訳) 慣性測定ユニット(IMU)センサーは、可搬性、エネルギー効率、研究の関心の高まりにより、HAR(Human Activity Recognition)に広く利用されている。 しかし、IMU-HARモデルにとって重要な課題は、多様なユーザー間で堅牢な一般化性能を達成することである。 この制限は、個々のユーザ間でのデータ分散のかなりのバリエーションに起因する。 この分布の相違の主な理由は、局所座標系におけるIMUセンサデータの表現にある。 この問題に対処するために,IMUデータの特徴に基づいてグローバルなビュー表現を抽出し,着用スタイルによるデータ分散の相違を効果的に緩和する手法を提案する。 グローバルビュー表現の有効性を検証するため,グローバルビューデータとローカルビューデータの両方を実験モデルに投入した。 その結果,グローバルなビューデータは,ユーザ間の実験において,ローカルなビューデータよりも有意に優れていた。 さらに,Shufflingに基づくマルチビュー監視ネットワーク(MVFNet)を提案し,ローカルビューとグローバルビューデータを効果的に融合させる。 ビュー分割とビューシャッフルを通じて各ビューの特徴抽出を監督し、重要な特徴を無視したモデルを避ける。 OPPORTUNITYとPAMAP2データセットを用いた大規模な実験により、提案アルゴリズムはユーザ間HARにおける現在の最先端手法よりも優れていることを示した。

Inertial Measurement Unit (IMU) sensors are widely employed for Human Activity Recognition (HAR) due to their portability, energy efficiency, and growing research interest. However, a significant challenge for IMU-HAR models is achieving robust generalization performance across diverse users. This limitation stems from substantial variations in data distribution among individual users. One primary reason for this distribution disparity lies in the representation of IMU sensor data in the local coordinate system, which is susceptible to subtle user variations during IMU wearing. To address this issue, we propose a novel approach that extracts a global view representation based on the characteristics of IMU data, effectively alleviating the data distribution discrepancies induced by wearing styles. To validate the efficacy of the global view representation, we fed both global and local view data into model for experiments. The results demonstrate that global view data significantly outperforms local view data in cross-user experiments. Furthermore, we propose a Multi-view Supervised Network (MVFNet) based on Shuffling to effectively fuse local view and global view data. It supervises the feature extraction of each view through view division and view shuffling, so as to avoid the model ignoring important features as much as possible. Extensive experiments conducted on OPPORTUNITY and PAMAP2 datasets demonstrate that the proposed algorithm outperforms the current state-of-the-art methods in cross-user HAR.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-03
# 画像生成器の創造的な流動度を計測する「バグ」ではなく「バグ」

It's a Feature, Not a Bug: Measuring Creative Fluidity in Image Generators ( http://arxiv.org/abs/2406.18570v1 )

ライセンス: Link先を確認
Aditi Ramaswamy, Melane Navaratnarajah, Hana Chockler, (参考訳) 無償で利用できる画像生成装置の登場に伴い、AI生成アートは、人間の創造性の概念に関する一連の熱い議論の中心となっている。 画像生成AIは、アーティストと同じタイプの「創造性」を示すことができる。 本稿では,AIにおける創造的行動の1つの側面を定義し,実験的に測定する試みとして,選択された画像生成装置の「素早い解釈の流動性」や単に「流動性」を定量化する実験を行った。 流動性を研究するために,(1) 初期「地中真実」の画像を用いた自動生成プロンプトと画像のチェーンの作成,(3) 既存の視覚的および意味的指標を用いたこれらのチェーンの破壊点の測定,(4) 統計的検査と視覚的説明の両方を用いて,これらのチェーンを解析し,生成に使用する画像生成装置が流動性を示すか否かを判定する。

With the rise of freely available image generators, AI-generated art has become the centre of a series of heated debates, one of which concerns the concept of human creativity. Can an image generation AI exhibit ``creativity'' of the same type that artists do, and if so, how does that manifest? Our paper attempts to define and empirically measure one facet of creative behavior in AI, by conducting an experiment to quantify the "fluidity of prompt interpretation", or just "fluidity", in a series of selected popular image generators. To study fluidity, we (1) introduce a clear definition for it, (2) create chains of auto-generated prompts and images seeded with an initial "ground-truth: image, (3) measure these chains' breakage points using preexisting visual and semantic metrics, and (4) use both statistical tests and visual explanations to study these chains and determine whether the image generators used to produce them exhibit significant fluidity.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-03
# UltraCortex: サブミリ超高磁場9.4 T1脳MR画像収集と手動皮質切片

UltraCortex: Submillimeter Ultra-High Field 9.4 T1 Brain MR Image Collection and Manual Cortical Segmentations ( http://arxiv.org/abs/2406.18571v1 )

ライセンス: Link先を確認
Lucas Mahler, Julius Steiglechner, Benjamin Bender, Tobias Lindig, Dana Ramadan, Jonas Bause, Florian Birk, Rahel Heule, Edyta Charyasz, Michael Erb, Vinod Jangir Kumar, Gisela E Hagberg, Pascal Martin, Gabriele Lohmann, Klaus Scheffler, (参考訳) UltraCortexリポジトリ(https://www.ultracortex.org)には、超高磁場強度9.4Tで取得したヒト脳の磁気共鳴画像データが格納されている。 さらに、レポジトリは12の脳をグレーとホワイトの物質区画に分割する。 これらのセグメンテーションは、2人の専門神経放射線学者によって独立に検証され、信頼できる金の標準として確立されている。 このリソースは、高品質な脳画像データと検証されたセグメンテーションへのアクセスを提供し、神経画像の研究を促進し、脳の構造と機能の理解を促進する。 既存のリポジトリは7 T以上のフィールド強度を許容せず、検証されたセグメンテーションも提供せず、この新しいリソースの重要性を強調している。

The UltraCortex repository (https://www.ultracortex.org) houses magnetic resonance imaging data of the human brain obtained at an ultra-high field strength of 9.4 T. It contains 86 structural MR images with spatial resolutions ranging from 0.6 to 0.8 mm. Additionally, the repository includes segmentations of 12 brains into gray and white matter compartments. These segmentations have been independently validated by two expert neuroradiologists, thus establishing them as a reliable gold standard. This resource provides researchers with access to high-quality brain imaging data and validated segmentations, facilitating neuroimaging studies and advancing our understanding of brain structure and function. Existing repositories do not accommodate field strengths beyond 7 T, nor do they offer validated segmentations, underscoring the significance of this new resource.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-03
# GeoReasoner:大規模視覚言語モデルを用いたストリートビューにおける推論による地理局在化

GeoReasoner: Geo-localization with Reasoning in Street Views using a Large Vision-Language Model ( http://arxiv.org/abs/2406.18572v1 )

ライセンス: Link先を確認
Ling Li, Yu Ye, Bingchuan Jiang, Wei Zeng, (参考訳) 本研究は,人間の推論知識を付加した大規模視覚言語モデル (LVLM) を用いた新しいパラダイムを用いて,ジオローカライゼーションの課題に取り組む。 既存のストリートビューデータセットには、視覚的な手がかりが欠如し、推論が欠如している多くの低品質画像が含まれていることが多い。 データ品質の問題に対処するため、我々はCLIPベースのネットワークを考案し、街路ビューがどこにあるかを定量化し、高度に配置可能な街路ビューからなる新しいデータセットを作成する。 推論の精度を高めるために,実地局所化ゲームから得られた外部知識を統合し,価値ある人間の推論能力を活用する。 データはGeoReasonerのトレーニングに利用される。 質的および定量的評価により、GeoReasonerは、国レベルでは25%以上、都市レベルでは38%、StreetCLIPのパフォーマンスを上回り、トレーニングリソースの削減を図っている。 データとコードはhttps://github.com/lingli1996/GeoReasoner.comで入手できる。

This work tackles the problem of geo-localization with a new paradigm using a large vision-language model (LVLM) augmented with human inference knowledge. A primary challenge here is the scarcity of data for training the LVLM - existing street-view datasets often contain numerous low-quality images lacking visual clues, and lack any reasoning inference. To address the data-quality issue, we devise a CLIP-based network to quantify the degree of street-view images being locatable, leading to the creation of a new dataset comprising highly locatable street views. To enhance reasoning inference, we integrate external knowledge obtained from real geo-localization games, tapping into valuable human inference capabilities. The data are utilized to train GeoReasoner, which undergoes fine-tuning through dedicated reasoning and location-tuning stages. Qualitative and quantitative evaluations illustrate that GeoReasoner outperforms counterpart LVLMs by more than 25% at country-level and 38% at city-level geo-localization tasks, and surpasses StreetCLIP performance while requiring fewer training resources. The data and code are available at https://github.com/lingli1996/GeoReasoner.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-03
# O(3)等変結晶テンソル予測のための空間群対称性インフォームドネットワーク

A Space Group Symmetry Informed Network for O(3) Equivariant Crystal Tensor Prediction ( http://arxiv.org/abs/2406.12888v1 )

ライセンス: Link先を確認
Keqiang Yan, Alexandra Saxton, Xiaofeng Qian, Xiaoning Qian, Shuiwang Ji, (参考訳) 誘電体,圧電体,弾性テンソルを含む結晶材料の一般的な引張特性の予測を考察する。 ここでの重要な課題は、予測が O(3) 群に対する一意のテンソル同値と結晶空間群への不変性を満足させる方法である。 そこで本研究では,必要な対称性を満たすために,GMTNet(General Materials Tensor Network)を提案する。 提案手法を評価するため, 結晶テンソル予測の複雑さに合わせて, データセットをキュレートし, 評価指標を確立する。 実験結果から,GMTNetは様々な順序の結晶テンソル上での有望な性能を達成するだけでなく,固有結晶対称性と完全に一致した予測を生成することがわかった。 私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS)の一部として公開されています。

We consider the prediction of general tensor properties of crystalline materials, including dielectric, piezoelectric, and elastic tensors. A key challenge here is how to make the predictions satisfy the unique tensor equivariance to O(3) group and invariance to crystal space groups. To this end, we propose a General Materials Tensor Network (GMTNet), which is carefully designed to satisfy the required symmetries. To evaluate our method, we curate a dataset and establish evaluation metrics that are tailored to the intricacies of crystal tensor predictions. Experimental results show that our GMTNet not only achieves promising performance on crystal tensors of various orders but also generates predictions fully consistent with the intrinsic crystal symmetries. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS).
翻訳日:2024-06-23 13:24:48 公開日:2024-06-03
# 小言語モデルにおけるスパースアクティベーションの実現

Achieving Sparse Activation in Small Language Models ( http://arxiv.org/abs/2406.06562v1 )

ライセンス: Link先を確認
Jifeng Song, Kai Huang, Xiangyu Yin, Boyuan Yang, Wei Gao, (参考訳) 入力依存ニューロンのみを選択的に活性化するスパースアクティベーションは、再訓練や適応をすることなく、LLM(Large Language Models)の計算コストを削減するのに有用である。 しかし、最近登場したSLM(Small Language Models)に適用できるかどうかは疑問視されている。 本稿では,SLMにおけるスパースアクティベーションの実現を目指す。 まず, ニューロンの出力大小をベースとしたLLMのスパース活性化スキームはSLMには適用できないことを示し, その属性スコアに基づいてニューロンを活性化することがよりよい選択肢であることを示した。 さらに,異なる層にまたがるニューロンの属性スコア間の相互依存性から,スパースアクティベーション時に既存の属性メトリクスの大規模な誤差を実証し,定量化した。 これらの観測に基づいて,これらの誤りを確実に修正し,正確なスパースアクティベーションを実現するための新しい属性指標を提案した。 複数のSLMおよびデータセットに対する実験結果から,本手法はモデルの精度損失を5%に抑えながら80%のスペース化比を達成できることが示唆された。 ソースコードは、https://github.com/pittisl/Sparse-Activation.comで入手できる。

Sparse activation, which selectively activates only an input-dependent set of neurons in inference, is a useful technique to reduce the computing cost of Large Language Models (LLMs) without retraining or adaptation efforts. However, whether it can be applied to the recently emerging Small Language Models (SLMs) remains questionable, because SLMs are generally less over-parameterized than LLMs. In this paper, we aim to achieve sparse activation in SLMs. We first show that the existing sparse activation schemes in LLMs that build on neurons' output magnitudes cannot be applied to SLMs, and activating neurons based on their attribution scores is a better alternative. Further, we demonstrated and quantified the large errors of existing attribution metrics when being used for sparse activation, due to the interdependency among attribution scores of neurons across different layers. Based on these observations, we proposed a new attribution metric that can provably correct such errors and achieve precise sparse activation. Experiments over multiple popular SLMs and datasets show that our approach can achieve 80% sparsification ratio with <5% model accuracy loss, comparable to the sparse activation achieved in LLMs. The source code is available at: https://github.com/pittisl/Sparse-Activation.
翻訳日:2024-06-17 00:11:14 公開日:2024-06-03
# Skywork-MoE:Mixture-of-Experts言語モデルのトレーニングテクニックを深く掘り下げる

Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models ( http://arxiv.org/abs/2406.06563v1 )

ライセンス: Link先を確認
Tianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li, Weiwei Lü, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Liang Zeng, Xiaokun Wang, Yutuan Ma, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou, (参考訳) 本稿では,約1460億のパラメータと16人のエキスパートを対象とする,高性能な言語モデル (LLM) であるSkywork-MoEの開発に実装されたトレーニング手法を紹介する。 既存のSkywork-13Bモデルの高密度チェックポイントから初期化されています。 我々は,スクラッチ初期化によるアップサイクリングとトレーニングの比較効果について検討した。 以上の結果から,これらの2つのアプローチの選択は,既存の高密度チェックポイントの性能とMoEトレーニング予算の両方を考慮すべきであることが示唆された。 本稿では, 適応型補助損失係数, 適応型補助損失係数を改良し, 補助損失係数の層特異的な調整を可能にする2つの革新的な手法について述べる。 これらの手法の有効性を実験的に検証した。 これらの技術と洞察を活用して、SkyPileコーパスの凝縮したサブセットで、リサイクルされたSkywork-MoEをトレーニングしました。 評価結果は,本モデルが幅広いベンチマークで高い性能を示すことを示す。

In this technical report, we introduce the training methodologies implemented in the development of Skywork-MoE, a high-performance mixture-of-experts (MoE) large language model (LLM) with 146 billion parameters and 16 experts. It is initialized from the pre-existing dense checkpoints of our Skywork-13B model. We explore the comparative effectiveness of upcycling versus training from scratch initializations. Our findings suggest that the choice between these two approaches should consider both the performance of the existing dense checkpoints and the MoE training budget. We highlight two innovative techniques: gating logit normalization, which improves expert diversification, and adaptive auxiliary loss coefficients, allowing for layer-specific adjustment of auxiliary loss coefficients. Our experimental results validate the effectiveness of these methods. Leveraging these techniques and insights, we trained our upcycled Skywork-MoE on a condensed subset of our SkyPile corpus. The evaluation results demonstrate that our model delivers strong performance across a wide range of benchmarks.
翻訳日:2024-06-17 00:11:14 公開日:2024-06-03
# 動的パラメータ調整による大規模言語モデル学習の革新

Revolutionizing Large Language Model Training through Dynamic Parameter Adjustment ( http://arxiv.org/abs/2406.06564v1 )

ライセンス: Link先を確認
Kaiye Zhou, Shucheng Wang, (参考訳) 大規模言語モデルの時代になると、計算資源の効率的な利用への需要が重要になってきている。 パラメータ効率のよい微調整技術は完全な微調整に匹敵する結果を得たが、事前学習フェーズでの応用は大きな課題を生んでいる。 具体的には、特に大規模モデルにおいて、事前学習の開始時にパラメータ効率の戦略を採用することは、効率を著しく損なう可能性がある。 本稿では,パラメータのトレーニング可能な部分を頻繁に変更し,効果的な事前学習を容易にする新しいパラメータ効率訓練手法を提案する。 提案手法は, 事前学習段階における現在最先端パラメータ効率アルゴリズムに匹敵するメモリ削減と計算オーバーヘッドを達成するだけでなく, 完全事前学習段階に匹敵する精度も維持する。 提案手法の有効性を実証するために,理論的解析と実証的証拠の両方を提供する。

In the era of large language models, the demand for efficient use of computational resources has become critically important. Although parameter-efficient fine-tuning techniques have achieved results comparable to full fine-tuning, their application during the pre-training phase poses significant challenges. Specifically, employing parameter-efficient strategies at the onset of pre-training can severely compromise efficiency, especially in larger models. In this paper, building upon the fine-tuning method LoRA, we introduce a novel parameter-efficient training technique that frequently alters trainable part of parameters, facilitating effective pre-training. Our method not only achieves memory reductions and computational overhead comparable to current state-of-the-art parameter-efficient algorithms during the pre-training phase but also maintains accuracy levels comparable to those of full pre-training. We provide both theoretical analyses and empirical evidence to demonstrate the effectiveness of our approach.
翻訳日:2024-06-17 00:11:14 公開日:2024-06-03
# MixEval: LLMベンチマークから群衆の知恵を導き出す

MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures ( http://arxiv.org/abs/2406.06565v1 )

ライセンス: Link先を確認
Jinjie Ni, Fuzhao Xue, Xiang Yue, Yuntian Deng, Mahir Shah, Kabir Jain, Graham Neubig, Yang You, (参考訳) 大規模言語モデル(LLM)の評価は難しい。 LLM-as-judgeベンチマークは、グレーディングバイアスと限られたクエリ量に悩まされている。 両者とも時間とともに汚染されることもある。 Chatbot Arenaのようなユーザによる評価は、信頼できる信号を提供するが、高価で遅い。 そこで本研究では,市販のベンチマークを戦略的に混合することにより,効率的な金標準LCM評価を実現するための新しいパラダイムであるMixEvalを提案する。 提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。 MixEvalをベースにMixEval-Hardを構築しました。 本ベンチマークの利点は,(1) 高速かつ安価かつ再現性の高い実行(MMLUの時間とコストの6%),(3) 高速かつ安定なデータ更新パイプラインで実現可能な動的評価などである。 我々は, LLM評価に関するコミュニティの理解を深め, 今後の研究方向性を導くため, 既存の LLM ベンチマークのメタ評価と分析を行う。

Evaluating large language models (LLMs) is challenging. Traditional ground-truth-based benchmarks fail to capture the comprehensiveness and nuance of real-world queries, while LLM-as-judge benchmarks suffer from grading biases and limited query quantity. Both of them may also become contaminated over time. User-facing evaluation, such as Chatbot Arena, provides reliable signals but is costly and slow. In this work, we propose MixEval, a new paradigm for establishing efficient, gold-standard LLM evaluation by strategically mixing off-the-shelf benchmarks. It bridges (1) comprehensive and well-distributed real-world user queries and (2) efficient and fairly-graded ground-truth-based benchmarks, by matching queries mined from the web with similar queries from existing benchmarks. Based on MixEval, we further build MixEval-Hard, which offers more room for model improvement. Our benchmarks' advantages lie in (1) a 0.96 model ranking correlation with Chatbot Arena arising from the highly impartial query distribution and grading mechanism, (2) fast, cheap, and reproducible execution (6% of the time and cost of MMLU), and (3) dynamic evaluation enabled by the rapid and stable data update pipeline. We provide extensive meta-evaluation and analysis for our and existing LLM benchmarks to deepen the community's understanding of LLM evaluation and guide future research directions.
翻訳日:2024-06-17 00:11:14 公開日:2024-06-03
# 家庭電力モニタリングに関するRAGの議論が可能に

RAG Enabled Conversations about Household Electricity Monitoring ( http://arxiv.org/abs/2406.06566v1 )

ライセンス: Link先を確認
Carolina Fortuna, Vid Hanžel, Blaž Bertalanič, (参考訳) 本稿では,ChatGPT,Gemini,Llamaなどの大規模言語モデル(LLM)とRAG(Retrieval Augmented Generation)を統合することにより,電気データセットに関する複雑な質問に対する応答の精度と特異性を向上する。 実感的理解よりもトレーニングデータのパターンに依存しているため,LLMの正確で文脈的に関係のある回答を生成する際の限界を認識し,専門的な電気知識グラフを活用するソリューションを提案する。 このアプローチは、LLMの生成能力によって合成される正確なリアルタイムデータの検索を容易にする。 以上の結果から,RAG手法はLLMが生成する誤情報の発生を減少させるだけでなく,検証可能なデータに応答することで,出力の質を著しく向上させることがわかった。 本稿では、我々の方法論を詳述し、RAGを用いた応答と非応答の比較分析を行い、エネルギーデータ分析のような専門分野におけるAIの今後の応用について考察する。

In this paper, we investigate the integration of Retrieval Augmented Generation (RAG) with large language models (LLMs) such as ChatGPT, Gemini, and Llama to enhance the accuracy and specificity of responses to complex questions about electricity datasets. Recognizing the limitations of LLMs in generating precise and contextually relevant answers due to their dependency on the patterns in training data rather than factual understanding, we propose a solution that leverages a specialized electricity knowledge graph. This approach facilitates the retrieval of accurate, real-time data which is then synthesized with the generative capabilities of LLMs. Our findings illustrate that the RAG approach not only reduces the incidence of incorrect information typically generated by LLMs but also significantly improves the quality of the output by grounding responses in verifiable data. This paper details our methodology, presents a comparative analysis of responses with and without RAG, and discusses the implications of our findings for future applications of AI in specialized sectors like energy data analysis.
翻訳日:2024-06-17 00:11:14 公開日:2024-06-03
# DHA:適応型頭融合による変圧器チェックポイントからの非結合型注意の学習

DHA: Learning Decoupled-Head Attention from Transformer Checkpoints via Adaptive Heads Fusion ( http://arxiv.org/abs/2406.06567v1 )

ライセンス: Link先を確認
Yilong Chen, Linhao Zhang, Junyuan Shang, Zhenyu Zhang, Tingwen Liu, Shuohuan Wang, Yu Sun, (参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、素晴らしいパフォーマンスを示している。 しかし、LLMにおけるMHA(Multi-Head Attention)は、推論中にかなりの計算コストとメモリコストを発生させる。 ヘッドを切断したり、ヘッド間でパラメータを共有することで注意機構を最適化する試みもあるが、これらの手法は性能低下や性能回復のためにかなりの事前訓練コストを必要とすることが多い。 注意力の冗長性の分析に基づいて,DHA(Decoupled-Head Attention)機構を設計する。 DHAは、様々なレイヤにわたるキーヘッドとバリューヘッドのグループ共有を適応的に構成し、パフォーマンスと効率のバランスを改善する。 そこで本研究では,MHAチェックポイントのパラメトリック知識を維持しつつ,類似頭部パラメータの線形融合を段階的に行うことで,MHAチェックポイントをDHAモデルに段階的に変換することを提案する。 DHA モデルの構築には,目標とする予算に応じて様々な MHA チェックポイントを変換する。 我々の実験によると、DHAは、75パーセントのKVキャッシュを節約しながら97.6%のパフォーマンスを達成するために、オリジナルのモデルの事前トレーニング予算のわずか0.25\%しか必要としていない。 グループクエリアテンション(GQA)と比較して、DHAは5$\times$トレーニングアクセラレーション、最大13.93\%の事前トレーニング予算、0.05\%の相対的な改善を達成している。

Large language models (LLMs) with billions of parameters demonstrate impressive performance. However, the widely used Multi-Head Attention (MHA) in LLMs incurs substantial computational and memory costs during inference. While some efforts have optimized attention mechanisms by pruning heads or sharing parameters among heads, these methods often lead to performance degradation or necessitate substantial continued pre-training costs to restore performance. Based on the analysis of attention redundancy, we design a Decoupled-Head Attention (DHA) mechanism. DHA adaptively configures group sharing for key heads and value heads across various layers, achieving a better balance between performance and efficiency. Inspired by the observation of clustering similar heads, we propose to progressively transform the MHA checkpoint into the DHA model through linear fusion of similar head parameters step by step, retaining the parametric knowledge of the MHA checkpoint. We construct DHA models by transforming various scales of MHA checkpoints given target head budgets. Our experiments show that DHA remarkably requires a mere 0.25\% of the original model's pre-training budgets to achieve 97.6\% of performance while saving 75\% of KV cache. Compared to Group-Query Attention (GQA), DHA achieves a 5$\times$ training acceleration, a maximum of 13.93\% performance improvement under 0.01\% pre-training budget, and 4\% relative improvement under 0.05\% pre-training budget.
翻訳日:2024-06-17 00:11:14 公開日:2024-06-03
# 合成データによる臨床ドキュメンテーションの強化:精度向上のための生成モデルを活用する

Enhancing Clinical Documentation with Synthetic Data: Leveraging Generative Models for Improved Accuracy ( http://arxiv.org/abs/2406.06569v1 )

ライセンス: Link先を確認
Anjanava Biswas, Wrick Talukdar, (参考訳) 正確かつ包括的な臨床文書は、高品質な医療の提供、提供者間の効果的なコミュニケーションの促進、規制要件の遵守の確保に不可欠である。 しかし、手動による書き起こしとデータ入力のプロセスは、時間がかかり、エラーが発生し、不整合に陥り、不完全または不正確な医療記録に繋がる。 本稿では, 臨床文書の現実的, 多様な書式を生成するために, 合成データ生成技術を活用することによって, 臨床文書の充実に向けた新たなアプローチを提案する。 本稿では,GAN (Generative Adversarial Networks) やVAE (variantal Autoencoders) といった最先端のジェネレーティブ・モデルと,実際の臨床転写とその他の臨床データを組み合わせて合成転写を生成する手法を提案する。 これらの合成写本は、既存のドキュメントワークフローを補完し、自然言語処理モデルのための追加のトレーニングデータを提供し、より正確で効率的な転写プロセスを可能にするために使用することができる。 匿名化クリニカル・トランスクリプトの大規模なデータセットに関する広範な実験を通じて、実世界のデータによく似た高品質な合成・トランスクリプトを作成する上で、我々のアプローチの有効性を実証した。 パープレキシティスコアやBLEUスコア、ドメインの専門家による質的評価などの定量的評価指標は、生成された合成転写産物の忠実さと有用性を検証する。 本研究は, 患者医療の改善, 管理負担の軽減, 医療システム効率の向上など, 臨床ドキュメントの課題に対処する合成データ生成の可能性を明らかにするものである。

Accurate and comprehensive clinical documentation is crucial for delivering high-quality healthcare, facilitating effective communication among providers, and ensuring compliance with regulatory requirements. However, manual transcription and data entry processes can be time-consuming, error-prone, and susceptible to inconsistencies, leading to incomplete or inaccurate medical records. This paper proposes a novel approach to augment clinical documentation by leveraging synthetic data generation techniques to generate realistic and diverse clinical transcripts. We present a methodology that combines state-of-the-art generative models, such as Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs), with real-world clinical transcript and other forms of clinical data to generate synthetic transcripts. These synthetic transcripts can then be used to supplement existing documentation workflows, providing additional training data for natural language processing models and enabling more accurate and efficient transcription processes. Through extensive experiments on a large dataset of anonymized clinical transcripts, we demonstrate the effectiveness of our approach in generating high-quality synthetic transcripts that closely resemble real-world data. Quantitative evaluation metrics, including perplexity scores and BLEU scores, as well as qualitative assessments by domain experts, validate the fidelity and utility of the generated synthetic transcripts. Our findings highlight synthetic data generation's potential to address clinical documentation challenges, improving patient care, reducing administrative burdens, and enhancing healthcare system efficiency.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-03
# コンピュータ・エピグラフィーの概観

Review of Computational Epigraphy ( http://arxiv.org/abs/2406.06570v1 )

ライセンス: Link先を確認
Vishal Kumar, (参考訳) 計算エピノグラフィー(Computational Epigraphy)とは、計算手法の助けを借りて、石碑文、翻訳、解釈、帰属からテキストを抽出する過程を指す。 伝統的なエピノグラフィー法は時間がかかり、テキストを抽出しながら碑文を損傷させる傾向がある。 さらに、解釈と帰属は主観的であり、異なるエピグラフィーによって異なる可能性がある。 しかし、現代の計算手法は、テキストを抽出するだけでなく、テキストを頑健な方法で解釈し、属性付けするためにも利用できる。 エピノグラフィーにおける上記の課題を支援する既存の計算手法を調査・文書化する。

Computational Epigraphy refers to the process of extracting text from stone inscription, transliteration, interpretation, and attribution with the aid of computational methods. Traditional epigraphy methods are time consuming, and tend to damage the stone inscriptions while extracting text. Additionally, interpretation and attribution are subjective and can vary between different epigraphers. However, using modern computation methods can not only be used to extract text, but also interpret and attribute the text in a robust way. We survey and document the existing computational methods that aid in the above-mentioned tasks in epigraphy.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-03
# SUBLLM: LLMのためのToken Sequence Subsamplingを用いた新しい効率的なアーキテクチャ

SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM ( http://arxiv.org/abs/2406.06571v1 )

ライセンス: Link先を確認
Quandong Wang, Yuxuan Yuan, Xiaoyu Yang, Ruike Zhang, Kang Zhao, Wei Liu, Jian Luan, Daniel Povey, Bin Wang, (参考訳) 大規模言語モデル(LLM)は様々な分野で大きな成功を収めてきたが、トレーニングと推論の効率性は依然として大きな課題である。 本稿では,Subsampling-Upsampling-Bypass Large Language Modelの略で,Subsampling, Upsampling, Bypassモジュールを組み込んでコアデコーダのみのフレームワークを拡張する革新的なアーキテクチャであるSUBLLMを提案する。 サブサンプリングモジュールはシーケンスを短縮し、アップサンプリングモジュールはシーケンスの長さを復元し、バイパスモジュールは収束を高める。 LLaMAと比較して、提案されたSUBLLMは、トレーニング速度と推論速度、メモリ使用量の両方で大幅に向上し、競合する数ショットのパフォーマンスを維持している。 トレーニング中、SUBLLMはスピードを26%向上し、GPU毎にメモリを10GB削減する。 推論では、スピードを最大37%向上し、1GPUあたりのメモリを1GB削減する。 トレーニングと推論のスピードは、コンテキストウィンドウが8192に拡張された場合、それぞれ34%と52%向上できる。 提案されたアーキテクチャのソースコードを公開バージョンで公開します。

While Large Language Models (LLMs) have achieved remarkable success in various fields, the efficiency of training and inference remains a major challenge. To address this issue, we propose SUBLLM, short for Subsampling-Upsampling-Bypass Large Language Model, an innovative architecture that extends the core decoder-only framework by incorporating subsampling, upsampling, and bypass modules. The subsampling modules are responsible for shortening the sequence, while the upsampling modules restore the sequence length, and the bypass modules enhance convergence. In comparison to LLaMA, the proposed SUBLLM exhibits significant enhancements in both training and inference speeds as well as memory usage, while maintaining competitive few-shot performance. During training, SUBLLM increases speeds by 26% and cuts memory by 10GB per GPU. In inference, it boosts speeds by up to 37% and reduces memory by 1GB per GPU. The training and inference speeds can be enhanced by 34% and 52% respectively when the context window is expanded to 8192. We shall release the source code of the proposed architecture in the published version.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-03
# グラフニューラルネットワークによるLLMの問合せ検索

Graph Neural Network Enhanced Retrieval for Question Answering of LLMs ( http://arxiv.org/abs/2406.06572v1 )

ライセンス: Link先を確認
Zijian Li, Qingyan Guo, Jiawei Shao, Lei Song, Jiang Bian, Jun Zhang, Rui Wang, (参考訳) 検索拡張生成は、ファクトサポートを提供することで、大規模言語モデル(LLM)の出力に革命をもたらした。 それにもかかわらず、複雑な推論問題に必要な知識をすべて捉えるのに苦労している。 既存の検索方法は通常、参照文書を通路に分割し、それらを分離して扱う。 しかし、これらの節はしばしば相互に関連しており、例えば連続した節や同じキーワードを共有している節などである。 したがって、検索プロセスの強化には関連性を認識することが不可欠である。 本稿では,グラフニューラルネットワーク(GNN)を利用した新しい検索手法GNN-Retを提案する。 具体的には、まず、構造に関連がありキーワードに関連のある通路を接続することで、通路のグラフを構築する。 グラフニューラルネットワーク(GNN)を使用して、パス間の関係を利用して、サポートパスの検索を改善する。 さらに、リカレントグラフニューラルネットワーク(RGNN-Ret)を用いて、マルチホップ推論問題に対処する手法を拡張した。 各ステップにおいて、RGNN-Retは、前のステップからのパスのグラフを統合し、サポートパスの検索を強化する。 ベンチマークデータセットに対する大規模な実験により、GNN-Retは複数のクエリを必要とする強いベースラインよりも単一のLLMクエリによる質問応答の精度が高く、RGNN-Retはさらに精度を改善し、最先端のパフォーマンスを実現し、2WikiMQAデータセットでは最大10.4%の精度向上を実現している。

Retrieval augmented generation has revolutionized large language model (LLM) outputs by providing factual supports. Nevertheless, it struggles to capture all the necessary knowledge for complex reasoning questions. Existing retrieval methods typically divide reference documents into passages, treating them in isolation. These passages, however, are often interrelated, such as passages that are contiguous or share the same keywords. Therefore, recognizing the relatedness is crucial for enhancing the retrieval process. In this paper, we propose a novel retrieval method, called GNN-Ret, which leverages graph neural networks (GNNs) to enhance retrieval by considering the relatedness between passages. Specifically, we first construct a graph of passages by connecting passages that are structure-related and keyword-related. A graph neural network (GNN) is then leveraged to exploit the relationships between passages and improve the retrieval of supporting passages. Furthermore, we extend our method to handle multi-hop reasoning questions using a recurrent graph neural network (RGNN), named RGNN-Ret. At each step, RGNN-Ret integrates the graphs of passages from previous steps, thereby enhancing the retrieval of supporting passages. Extensive experiments on benchmark datasets demonstrate that GNN-Ret achieves higher accuracy for question answering with a single query of LLMs than strong baselines that require multiple queries, and RGNN-Ret further improves accuracy and achieves state-of-the-art performance, with up to 10.4% accuracy improvement on the 2WikiMQA dataset.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-03
# MedFuzz: 医療質問応答における大規模言語モデルのロバスト性を探る

MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering ( http://arxiv.org/abs/2406.06573v1 )

ライセンス: Link先を確認
Robert Osazuwa Ness, Katie Matton, Hayden Helm, Sheng Zhang, Junaid Bajwa, Carey E. Priebe, Eric Horvitz, (参考訳) 大規模言語モデル (LLM) は、医学的質問応答ベンチマークにおいて優れたパフォーマンスを達成している。 しかし、高いベンチマーク精度は、実際の臨床環境にパフォーマンスが一般化することを意味するものではない。 医学的質問答えベンチマークは、LLMのパフォーマンスの定量化と整合した仮定に頼っているが、クリニックのオープンワールドには当てはまらないかもしれない。 しかし、LLMは、著名なベンチマークにおける非現実的な仮定に関係なく、LLMが実践的な条件に一般化するのに役立つ幅広い知識を学習する。 我々は, LLM の医学的質問応答ベンチマークの性能が, ベンチマークの仮定に違反した場合にどのように一般化するかを定量化する。 具体的には,MedFuzz(医療ファズリング)と呼ぶ逆法を提案する。 MedFuzz は LLM のコンバウンドを目的とした方法でベンチマークの問題を修正しようと試みている。 MedQAベンチマークで提示された患者特性に関する強い仮定をターゲットとして,本手法を実証する。 成功した"アタック"は、ベンチマーク項目を医療専門家を騙す可能性が低い方法で修正するが、にもかかわらず、LSMを正しい回答から間違った回答に変更させる"トリック"を行う。 さらに,攻撃を成功させることが統計的に重要であることを示すための置換試験手法を提案する。 我々は、"MedFuzzed"ベンチマークでのパフォーマンスの使用方法と、個々の攻撃の成功例を示します。 これらの手法は、LLMがより現実的な環境で堅牢に動作する能力についての洞察を提供することを約束している。

Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quantifying LLM performance but that may not hold in the open world of the clinic. Yet LLMs learn broad knowledge that can help the LLM generalize to practical conditions regardless of unrealistic assumptions in celebrated benchmarks. We seek to quantify how well LLM medical question-answering benchmark performance generalizes when benchmark assumptions are violated. Specifically, we present an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz attempts to modify benchmark questions in ways aimed at confounding the LLM. We demonstrate the approach by targeting strong assumptions about patient characteristics presented in the MedQA benchmark. Successful "attacks" modify a benchmark item in ways that would be unlikely to fool a medical expert but nonetheless "trick" the LLM into changing from a correct to an incorrect answer. Further, we present a permutation test technique that can ensure a successful attack is statistically significant. We show how to use performance on a "MedFuzzed" benchmark, as well as individual successful attacks. The methods show promise at providing insights into the ability of an LLM to operate robustly in more realistic settings.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-03
# 透明性に向けて:ビジュアルトピックモデリングとセマンティックフレームによるLCMトレーニングデータセットの探索

Towards Transparency: Exploring LLM Trainings Datasets through Visual Topic Modeling and Semantic Frame ( http://arxiv.org/abs/2406.06574v1 )

ライセンス: Link先を確認
Charles de Dampierre, Andrei Mogoutov, Nicolas Baumard, (参考訳) LLMは現在、質問に答えることから物事の分類に至るまで、日々の生活において重要な役割を担っている。 近年、計算とモデルアーキテクチャは急速に拡大しているが、トレーニングデータセットのキュレーションへの取り組みはまだ始まったばかりである。 このトレーニングデータセットの過小評価により、LLMはバイアスのある低品質のコンテンツを作成できるようになった。 この問題を解決するために、AIと認知科学を活用してテキストデータセットの洗練を改善するソフトウェアであるBunkaを紹介する。 トピックモデリングと2次元カルトグラフィーを組み合わせることで、データセットの透明性が向上することを示す。 次に、同じトピックモデリング手法をPreferencesデータセットに適用して、微調整プロセスを加速し、異なるベンチマーク上でモデルの能力を高める方法を示す。 最後に、フレーム分析を用いることで、トレーニングコーパス内の既存のバイアスに対する洞察が得られることを示す。 全体として、私たちはLLMのトレーニングデータセットの品質と透明性を探求し、向上するためのより良いツールが必要であると論じています。

LLMs are now responsible for making many decisions on behalf of humans: from answering questions to classifying things, they have become an important part of everyday life. While computation and model architecture have been rapidly expanding in recent years, the efforts towards curating training datasets are still in their beginnings. This underappreciation of training datasets has led LLMs to create biased and low-quality content. In order to solve that issue, we present Bunka, a software that leverages AI and Cognitive Science to improve the refinement of textual datasets. We show how Topic Modeling coupled with 2-dimensional Cartography can increase the transparency of datasets. We then show how the same Topic Modeling techniques can be applied to Preferences datasets to accelerate the fine-tuning process and increase the capacities of the model on different benchmarks. Lastly, we show how using Frame Analysis can give insights into existing biases in the training corpus. Overall, we argue that we need better tools to explore and increase the quality and transparency of LLMs training datasets.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-03
# Ask-EDA: LLM, Hybrid RAG, Abbreviation De-hallucinationを活用したデザインアシスタント

Ask-EDA: A Design Assistant Empowered by LLM, Hybrid RAG and Abbreviation De-hallucination ( http://arxiv.org/abs/2406.06575v1 )

ライセンス: Link先を確認
Luyao Shi, Michael Kazda, Bradley Sears, Nick Shropshire, Ruchir Puri, (参考訳) 電子設計技術者は、設計構築、検証、技術開発における無数のタスクに対して、関連情報を効率的に見つけることが課題である。 大規模言語モデル(LLM)は、主語の専門家として効果的に機能する会話エージェントとして機能することで生産性を向上させる可能性がある。 本稿では,設計技術者にガイダンスを提供するために,24x7のエキスパートとして設計されたチャットエージェントであるAsk-EDAを実演する。 Ask-EDAは、LLM、ハイブリッド検索拡張生成(RAG)、短縮脱ハロシン化(ADH)技術を利用して、より関連性が高く正確な応答を提供する。 我々は,q2a-100,cmds-100,abr-100の3つの評価データセットをキュレートした。 各データセットは、一般的な設計質問応答、デザインコマンドハンドリング、省略解決といった、異なる側面を評価するように調整されている。 我々は、ハイブリッドRAGがq2a-100データセットのリコールを40%以上改善し、cmds-100データセットの60%以上をRAGを使用しないのに対して、ADHはabr-100データセットのリコールを70%以上改善することを示した。 評価の結果,Ask-EDAは設計関連質問に対して効果的に応答できることがわかった。

Electronic design engineers are challenged to find relevant information efficiently for a myriad of tasks within design construction, verification and technology development. Large language models (LLM) have the potential to help improve productivity by serving as conversational agents that effectively function as subject-matter experts. In this paper we demonstrate Ask-EDA, a chat agent designed to serve as a 24x7 expert available to provide guidance to design engineers. Ask-EDA leverages LLM, hybrid retrieval augmented generation (RAG) and abbreviation de-hallucination (ADH) techniques to deliver more relevant and accurate responses. We curated three evaluation datasets, namely q2a-100, cmds-100 and abbr-100. Each dataset is tailored to assess a distinct aspect: general design question answering, design command handling and abbreviation resolution. We demonstrated that hybrid RAG offers over a 40% improvement in Recall on the q2a-100 dataset and over a 60% improvement on the cmds-100 dataset compared to not using RAG, while ADH yields over a 70% enhancement in Recall on the abbr-100 dataset. The evaluation results show that Ask-EDA can effectively respond to design-related inquiries.
翻訳日:2024-06-17 00:04:06 公開日:2024-06-03
# VerilogReader: LLM支援ハードウェアテスト生成

VerilogReader: LLM-Aided Hardware Test Generation ( http://arxiv.org/abs/2406.04373v1 )

ライセンス: Link先を確認
Ruiyang Ma, Yuxin Yang, Ziqian Liu, Jiaxi Zhang, Min Li, Junhua Huang, Guojie Luo, (参考訳) テスト生成はハードウェア設計の検証において、重要かつ労働集約的なプロセスである。 近年,Large Language Model (LLM) の出現とその高度な理解と推論能力は,新しいアプローチを導入している。 本研究では,LLMがVerilog Readerとして機能するCoverage Directed Test Generation (CDG)プロセスへのLLMの統合について検討する。 コードロジックを正確に把握し、未探索のコードブランチに到達可能な刺激を生成する。 私たちは、自設計のVerilogベンチマークスイートを使用して、ランダムなテストとフレームワークを比較します。 実験により,本フレームワークはLLMの理解範囲内での設計におけるランダムなテストよりも優れていることが示された。 また,LLMの理解範囲と精度を高めるために,迅速な工学的最適化を提案する。

Test generation has been a critical and labor-intensive process in hardware design verification. Recently, the emergence of Large Language Model (LLM) with their advanced understanding and inference capabilities, has introduced a novel approach. In this work, we investigate the integration of LLM into the Coverage Directed Test Generation (CDG) process, where the LLM functions as a Verilog Reader. It accurately grasps the code logic, thereby generating stimuli that can reach unexplored code branches. We compare our framework with random testing, using our self-designed Verilog benchmark suite. Experiments demonstrate that our framework outperforms random testing on designs within the LLM's comprehension scope. Our work also proposes prompt engineering optimizations to augment LLM's understanding scope and accuracy.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-03
# $\ell_0$-regularized問題に対する分岐境界更新フレームワーク

A New Branch-and-Bound Pruning Framework for $\ell_0$-Regularized Problems ( http://arxiv.org/abs/2406.03504v1 )

ライセンス: Link先を確認
Theo Guyard, Cédric Herzet, Clément Elvira, Ayşe-Nur Arslan, (参考訳) 本稿では,ブランチ・アンド・バウンド(BnB)アルゴリズムによる$\ell_0$-regularizationを含む学習問題の解決について考察する。 これらの手法は、問題の実現可能な空間の領域を探索し、それらが「プルーニングテスト」によって解を含まないかどうかを確認する。 標準的な実装では、プルーニングテストの評価には凸最適化の問題が解決され、計算ボトルネックが発生する可能性がある。 本稿では,$\ell_0$-regularized問題に対するプルーニングテストの実装方法を提案する。 提案手法により,複数の領域の同時評価が可能となり,計算オーバーヘッドが無視できる標準BnB実装に組み込むことができる。 我々は,機械学習アプリケーションで発生する典型的な問題に対して,BnBプロシージャの解法時間を桁違いに改善できることを数値シミュレーションにより示す。

We consider the resolution of learning problems involving $\ell_0$-regularization via Branch-and-Bound (BnB) algorithms. These methods explore regions of the feasible space of the problem and check whether they do not contain solutions through "pruning tests". In standard implementations, evaluating a pruning test requires to solve a convex optimization problem, which may result in computational bottlenecks. In this paper, we present an alternative to implement pruning tests for some generic family of $\ell_0$-regularized problems. Our proposed procedure allows the simultaneous assessment of several regions and can be embedded in standard BnB implementations with a negligible computational overhead. We show through numerical simulations that our pruning strategy can improve the solving time of BnB procedures by several orders of magnitude for typical problems encountered in machine-learning applications.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-03
# 部分ラベル情報を用いた半教師付きコントラスト学習

Semi-supervised Contrastive Learning Using Partial Label Information ( http://arxiv.org/abs/2003.07921v2 )

ライセンス: Link先を確認
Colin B. Hansen, Vishwesh Nath, Diego A. Mesa, Yuankai Huo, Bennett A. Landman, Thomas A. Lasko, (参考訳) 半教師付き学習では、ラベルなし例からの情報はラベル付き例から学習したモデルを改善するために使用される。 いくつかの学習問題では、ラベルの情報をラベルのない例から推測し、モデルをさらに改善するために使用することができる。 特に、トレーニングサンプルのサブセットがラベル自体が欠落しているにも関わらず、同じラベルを持つことがわかっているときに、部分的なラベル情報が存在している。 対照的な学習目標を通じて、モデルに同じラベルをすべての例に付与するように促すことで、パフォーマンスを向上する可能性がある。 この促進をNullspace Tuningと呼ぶのは、同じラベルを持つ任意の一対の例の差分ベクトルが線型モデルのnull空間にあるからである。 そこで,本稿では,適切に分類された公開データセットに対する慎重な比較フレームワークを用いて,部分ラベル情報を使用することの利点について検討する。 部分ラベルによって提供される付加情報は、良い半教師付き手法よりもテストエラーを2倍から5.5倍に減らすことを示す。 また、最新かつ最先端のMixMatchメソッドにNullspace Tuningを追加することで、テストエラーを最大1.8倍に削減することを示す。

In semi-supervised learning, information from unlabeled examples is used to improve the model learned from labeled examples. In some learning problems, partial label information can be inferred from otherwise unlabeled examples and used to further improve the model. In particular, partial label information exists when subsets of training examples are known to have the same label, even though the label itself is missing. By encouraging the model to give the same label to all such examples through contrastive learning objectives, we can potentially improve its performance. We call this encouragement Nullspace Tuning because the difference vector between any pair of examples with the same label should lie in the nullspace of a linear model. In this paper, we investigate the benefit of using partial label information using a careful comparison framework over well-characterized public datasets. We show that the additional information provided by partial labels reduces test error over good semi-supervised methods usually by a factor of 2, up to a factor of 5.5 in the best case. We also show that adding Nullspace Tuning to the newer and state-of-the-art MixMatch method decreases its test error by up to a factor of 1.8.
翻訳日:2024-06-07 05:08:03 公開日:2024-06-03
# 高次元偏微分方程式に対する時空間ディープニューラルネットワーク近似

Space-time deep neural network approximations for high-dimensional partial differential equations ( http://arxiv.org/abs/2006.02199v2 )

ライセンス: Link先を確認
Fabian Hornung, Arnulf Jentzen, Diyora Salimova, (参考訳) 応用数学において、高次元偏微分方程式(PDE)を近似的に解くことが最も難しい問題の一つであり、科学文献におけるPDEの数値近似法は、対応する近似スキームで用いられる計算演算の数が PDE 次元および/または $\varepsilon$ の逆数で指数関数的に増加するという意味で、いわゆる次元の呪いに苦しむ。 近年, 深層学習に基づくPDEの近似法が提案されており, 深部ニューラルネットワーク(DNN)近似は, PDE次元の$d\in\mathbb{N}$と所定精度の$\varepsilon>0$の両方において, 近似DNNを記述するために用いられる実パラメータの数が多項式的に増加するという意味で, 次元性の呪いを克服する能力を持つ可能性が示唆されている。 現在では、DNNがPDEの近似解における次元性の呪いを克服していることを証明することによって、この予想を裏付ける科学文献に厳密な結果がいくつかある。 これらの結果は、DNN が適当な PDE 解を一定時間点 $T>0$ で近似し、コンパクトな立方体 $[a,b]^d$ で空間で近似することで、次元性の呪いを克服することを証明しているが、これらの結果は、次元性の呪いを伴わない DNN で PDE 解全体が $[0,T]\times [a,b]^d$ で近似できるかどうかという疑問に対する答えを与えていない。 この問題を克服するのはまさにこの記事の主題である。 より具体的には、この研究の主な結果は、任意の$a\in\mathbb{R}$, $ b\in (a,\infty)$に対して、あるコルモゴロフ PDE の解は時空領域 $[0,T]\times [a,b]^d$ の時空領域 $[0,T]\times [a,b]^d$ の DNN によって近似可能であることを証明している。

It is one of the most challenging issues in applied mathematics to approximately solve high-dimensional partial differential equations (PDEs) and most of the numerical approximation methods for PDEs in the scientific literature suffer from the so-called curse of dimensionality in the sense that the number of computational operations employed in the corresponding approximation scheme to obtain an approximation precision $\varepsilon>0$ grows exponentially in the PDE dimension and/or the reciprocal of $\varepsilon$. Recently, certain deep learning based approximation methods for PDEs have been proposed and various numerical simulations for such methods suggest that deep neural network (DNN) approximations might have the capacity to indeed overcome the curse of dimensionality in the sense that the number of real parameters used to describe the approximating DNNs grows at most polynomially in both the PDE dimension $d\in\mathbb{N}$ and the reciprocal of the prescribed accuracy $\varepsilon>0$. There are now also a few rigorous results in the scientific literature which substantiate this conjecture by proving that DNNs overcome the curse of dimensionality in approximating solutions of PDEs. Each of these results establishes that DNNs overcome the curse of dimensionality in approximating suitable PDE solutions at a fixed time point $T>0$ and on a compact cube $[a,b]^d$ in space but none of these results provides an answer to the question whether the entire PDE solution on $[0,T]\times [a,b]^d$ can be approximated by DNNs without the curse of dimensionality. It is precisely the subject of this article to overcome this issue. More specifically, the main result of this work in particular proves for every $a\in\mathbb{R}$, $ b\in (a,\infty)$ that solutions of certain Kolmogorov PDEs can be approximated by DNNs on the space-time region $[0,T]\times [a,b]^d$ without the curse of dimensionality.
翻訳日:2024-06-07 05:08:03 公開日:2024-06-03
# MNIST-1Dによるディープラーニングのスケールアップ

Scaling Down Deep Learning with MNIST-1D ( http://arxiv.org/abs/2011.14439v5 )

ライセンス: Link先を確認
Sam Greydanus, Dmitry Kobak, (参考訳) 深層学習モデルは商業的・政治的に関係があるが、その訓練と運用の重要な側面はいまだに理解されていない。 これはディープラーニングプロジェクトの科学への関心を喚起し、その多くは大量の時間、お金、電気を必要とする。 しかし、この研究のどれ程を大規模に行う必要があるのか? 本稿では,従来のディープラーニングベンチマークに代わる最小限のプロシージャ生成,低メモリ,低計算量であるMNIST-1Dを紹介する。 MNIST-1Dの寸法は40に過ぎず、デフォルトのトレーニングセットのサイズは4000に限られるが、MNIST-1Dは異なる深層建築の帰納バイアスの研究、宝くじの発見、深層二重降下の観察、アクティベーション関数の金属化、および自己教師付き学習におけるギロチン正則化の実証に使用できる。 これらの実験はすべてGPU上で、あるいは数分でCPU上で行うことができ、高速なプロトタイピング、教育ユースケース、低予算での最先端の研究を可能にする。

Although deep learning models have taken on commercial and political relevance, key aspects of their training and operation remain poorly understood. This has sparked interest in science of deep learning projects, many of which require large amounts of time, money, and electricity. But how much of this research really needs to occur at scale? In this paper, we introduce MNIST-1D: a minimalist, procedurally generated, low-memory, and low-compute alternative to classic deep learning benchmarks. Although the dimensionality of MNIST-1D is only 40 and its default training set size only 4000, MNIST-1D can be used to study inductive biases of different deep architectures, find lottery tickets, observe deep double descent, metalearn an activation function, and demonstrate guillotine regularization in self-supervised learning. All these experiments can be conducted on a GPU or often even on a CPU within minutes, allowing for fast prototyping, educational use cases, and cutting-edge research on a low budget.
翻訳日:2024-06-07 05:08:03 公開日:2024-06-03
# ドメイン特化人工知能を用いた発達小児のデジタル治療の改善 : 機械学習による研究

Improved Digital Therapy for Developmental Pediatrics Using Domain-Specific Artificial Intelligence: Machine Learning Study ( http://arxiv.org/abs/2012.08678v2 )

ライセンス: Link先を確認
Peter Washington, Haik Kalantarian, John Kent, Arman Husic, Aaron Kline, Emilie Leblanc, Cathy Hou, Onur Cezmi Mutlu, Kaitlyn Dunlap, Yordan Penev, Maya Varma, Nate Tyler Stockham, Brianna Chrisman, Kelley Paskov, Min Woo Sun, Jae-Yoon Jung, Catalin Voss, Nick Haber, Dennis Paul Wall, (参考訳) 背景: 自動感情分類は、自閉症などの発達的行動状態を持つ子供を含む感情の認識に苦慮する人々を支援する。 しかし、ほとんどのコンピュータビジョンの感情認識モデルは大人の感情に基づいて訓練されているため、子供の顔に適用された場合、性能は低下する。 目的:我々は,児童の感情に富んだ画像の収集とラベル付けをゲーミフィケーションし,児童の感情自動認識モデルの性能を,デジタル医療のアプローチに必要なレベルに近づけるための戦略を考案した。 方法: 発達的, 行動的条件の子ども向けに設計されたスマートフォンゲームGuessWhatを, ゲームによって引き起こされる様々な感情を表現した子どものビデオデータのセキュアな収集に活用した。 独立して、私たちはHorwoodSquaresと呼ばれる人間のラベル付け作業をゲーミフィケーションするためのセキュアなWebインターフェースを作成しました。 私たちは2155の動画、39,968の感情フレーム、106,001のラベルをすべての画像に集めてラベル付けしました。 この拡張された小児感情中心データベース(既存の一般の小児感情データセットの30倍)を用いて、我々は、子供によって誘発される幸せ、悲しみ、驚き、恐怖、怒り、嫌悪感、中立表現の畳み込みニューラルネットワーク(CNN)コンピュータビジョン分類器を訓練した。 結果: この分類器の精度は66.9%, 顔表情全体のF1スコア67.4%, バランスの取れた精度79.1%, CAFEサブセットAではF1スコア78%であった。 この性能は、CAFEに対して評価されたすべての開発済みの分類器よりも少なくとも10%高く、最も優れたものは、"anger"と"disgust"を1つのクラスに組み合わせた場合でも、56%のバランスの取れた精度に達した。

Background: Automated emotion classification could aid those who struggle to recognize emotions, including children with developmental behavioral conditions such as autism. However, most computer vision emotion recognition models are trained on adult emotion and therefore underperform when applied to child faces. Objective: We designed a strategy to gamify the collection and labeling of child emotion-enriched images to boost the performance of automatic child emotion recognition models to a level closer to what will be needed for digital health care approaches. Methods: We leveraged our prototype therapeutic smartphone game, GuessWhat, which was designed in large part for children with developmental and behavioral conditions, to gamify the secure collection of video data of children expressing a variety of emotions prompted by the game. Independently, we created a secure web interface to gamify the human labeling effort, called HollywoodSquares, tailored for use by any qualified labeler. We gathered and labeled 2155 videos, 39,968 emotion frames, and 106,001 labels on all images. With this drastically expanded pediatric emotion-centric database (>30 times larger than existing public pediatric emotion data sets), we trained a convolutional neural network (CNN) computer vision classifier of happy, sad, surprised, fearful, angry, disgust, and neutral expressions evoked by children. Results: The classifier achieved a 66.9% balanced accuracy and 67.4% F1-score on the entirety of the Child Affective Facial Expression (CAFE) as well as a 79.1% balanced accuracy and 78% F1-score on CAFE Subset A, a subset containing at least 60% human agreement on emotions labels. This performance is at least 10% higher than all previously developed classifiers evaluated against CAFE, the best of which reached a 56% balanced accuracy even when combining "anger" and "disgust" into a single class.
翻訳日:2024-06-07 05:08:03 公開日:2024-06-03
# エキスパートの一貫性を活用してアルゴリズム決定サポートを改善する

Leveraging Expert Consistency to Improve Algorithmic Decision Support ( http://arxiv.org/abs/2101.09648v3 )

ライセンス: Link先を確認
Maria De-Arteaga, Vincent Jeanselme, Artur Dubrawski, Alexandra Chouldechova, (参考訳) 機械学習(ML)は、高い意思決定をサポートするためにますます使われています。 しかし、意思決定タスクに対する関心の構成と、MLモデルをトレーニングするためにラベルとして使われるプロキシで捉えられるものとの間には、しばしば構成上のギャップがある。 その結果、MLモデルは決定基準の重要な次元を捉えることができず、意思決定支援の実用性を阻害する可能性がある。 したがって、決定支援のためのMLシステムの設計において重要なステップは、利用可能なプロキシの中からターゲットラベルを選択することである。 この研究では、構成ギャップを狭めるために観測結果と組み合わせることができる情報の源泉として、歴史的専門家による決定がリッチで不完全なものとして使われることを探る。 マネージャとシステムデザイナは、観察結果から学習しながら、相互に一貫性を示すケースで専門家から学ぶことに興味があるかもしれない、と私たちは主張する。 我々は,組織情報システムでよく見られる情報を用いて,この目標を達成するための方法論を開発する。 これには2つの中核ステップが含まれる。 まず、データ内の各ケースが1人の専門家によって評価された場合、専門家の一貫性を間接的に推定する影響関数に基づく方法論を提案する。 第2に,MLモデルを専門家の判断から同時に学習し,その結果を観察するラベルアマルガメーション手法を導入する。 本研究は, 臨床環境におけるシミュレーションと児童福祉領域の実世界データを用いた実証的評価から, 提案手法が構成ギャップを狭くし, 観察結果や専門家の判断だけでの学習よりも優れた予測性能が得られることを示した。

Machine learning (ML) is increasingly being used to support high-stakes decisions. However, there is frequently a construct gap: a gap between the construct of interest to the decision-making task and what is captured in proxies used as labels to train ML models. As a result, ML models may fail to capture important dimensions of decision criteria, hampering their utility for decision support. Thus, an essential step in the design of ML systems for decision support is selecting a target label among available proxies. In this work, we explore the use of historical expert decisions as a rich -- yet also imperfect -- source of information that can be combined with observed outcomes to narrow the construct gap. We argue that managers and system designers may be interested in learning from experts in instances where they exhibit consistency with each other, while learning from observed outcomes otherwise. We develop a methodology to enable this goal using information that is commonly available in organizational information systems. This involves two core steps. First, we propose an influence function-based methodology to estimate expert consistency indirectly when each case in the data is assessed by a single expert. Second, we introduce a label amalgamation approach that allows ML models to simultaneously learn from expert decisions and observed outcomes. Our empirical evaluation, using simulations in a clinical setting and real-world data from the child welfare domain, indicates that the proposed approach successfully narrows the construct gap, yielding better predictive performance than learning from either observed outcomes or expert decisions alone.
翻訳日:2024-06-07 05:08:03 公開日:2024-06-03
# サンプリングの力:民間EMMにおける次元自由リスク境界

The Power of Sampling: Dimension-free Risk Bounds in Private ERM ( http://arxiv.org/abs/2105.13637v4 )

ライセンス: Link先を確認
Yin Tat Lee, Daogao Liu, Zhou Lu, (参考訳) DP-ERM(differially private empirical risk minimization)は、プライベート最適化における基本的な問題である。 DP-ERMの理論はよく研究されているが、大規模モデルが普及するにつれて、従来のDP-ERM法は、(1)周囲次元への禁忌的依存、(2)非滑らかな目的関数、(3)高価な一階勾配オラクルなど、新しい課題に直面している。 このような課題は、既存のDP-ERM方法論を再考することを要求する。 本研究では,既存のサンプルと組み合わせた正規化指数関数機構が,これらの課題を完全に解決できることを示す: 標準の非制約領域と低ランク勾配仮定の下では,従来の手法では達成されなかったゼロ次オーラクルのみを用いて,非滑らかな凸対象に対するランク依存的リスクバウンダリを実現することができる。 これは、差分プライバシーにおけるサンプリングのパワーを強調します。 さらに下限を構築し、勾配がフルランクの場合、制約された設定と制約のない設定の間には分離がないことを示す。 我々の下限は、制約された領域に制限されない一般的なブラックボックス還元と、独立した関心を持つかもしれない制約された設定における改善された下限から導かれる。

Differentially private empirical risk minimization (DP-ERM) is a fundamental problem in private optimization. While the theory of DP-ERM is well-studied, as large-scale models become prevalent, traditional DP-ERM methods face new challenges, including (1) the prohibitive dependence on the ambient dimension, (2) the highly non-smooth objective functions, (3) costly first-order gradient oracles. Such challenges demand rethinking existing DP-ERM methodologies. In this work, we show that the regularized exponential mechanism combined with existing samplers can address these challenges altogether: under the standard unconstrained domain and low-rank gradients assumptions, our algorithm can achieve rank-dependent risk bounds for non-smooth convex objectives using only zeroth order oracles, which was not accomplished by prior methods. This highlights the power of sampling in differential privacy. We further construct lower bounds, demonstrating that when gradients are full-rank, there is no separation between the constrained and unconstrained settings. Our lower bound is derived from a general black-box reduction from unconstrained to the constrained domain and an improved lower bound in the constrained setting, which might be of independent interest.
翻訳日:2024-06-07 05:08:03 公開日:2024-06-03
# Rydberg原子における3体微細構造変化フェルスター共鳴に基づくトフォリゲート

Toffoli gate based on a three-body fine-structure-state-changing Förster resonance in Rydberg atoms ( http://arxiv.org/abs/2112.11058v3 )

ライセンス: Link先を確認
I. N. Ashkarin, I. I. Beterov, E. A. Yakshina, D. B. Tretyakov, V. M. Entin, I. I. Ryabtsev, P. Cheinet, K. -L. Pham, S. Lepoutre, P. Pillet, (参考訳) 我々は,3体リングバーグ相互作用を変化させる微細構造状態に基づく3量子トフォリゲートの改良手法を開発した。 I.I.Beterov et al , Physical Review A 98, 042704 (2018)]。 異なるタイプの3体F\"オースター共鳴を用いることにより、レーザー励起と集合3体状態の位相ダイナミクスのスキームを大幅に単純化した。 このタイプのF\オースター共鳴は、2つ以上の原子を持つ系にしか存在しないが、2体共鳴は存在しない。 我々は,外部磁場のゆらぎに対するゲート密度の感度を低減し,Rydberg原子に基づくトフォリゲートの以前の方式と比較して,共振電界値の微調整に外部磁場を使用する必要をなくした。 計算の結果, ゲート忠実度は99%であった。

We have developed an improved scheme of a three-qubit Toffoli gate based on fine structure state changing three-body Stark-tuned Rydberg interaction. This scheme is a substantial improvement of our previous proposal [I.I.Beterov et al., Physical Review A 98, 042704 (2018)]. Due to the use of a different type of three-body F\"orster resonance we substantially simplified the scheme of laser excitation and phase dynamics of collective three-body states. This type of F\"orster resonance exists only in systems with more than two atoms, while the two-body resonance is absent. We reduced the sensitivity of the gate fidelity to fluctuations of external electric field and eliminated the necessity to use external magnetic field for fine tuning of the resonant electric field value, compared to the previous scheme of Toffoli gate based on Rydberg atoms. A gate fidelity of >99% was demonstrated in the calculations.
翻訳日:2024-06-07 04:58:43 公開日:2024-06-03
# TATTOOED:拡散スペクトルチャネル符号化に基づくロバストなディープニューラルネットワーク透かし方式

TATTOOED: A Robust Deep Neural Network Watermarking Scheme based on Spread-Spectrum Channel Coding ( http://arxiv.org/abs/2202.06091v3 )

ライセンス: Link先を確認
Giulio Pagnotta, Dorjan Hitaj, Briland Hitaj, Fernando Perez-Cruz, Luigi V. Mancini, (参考訳) 近年、ディープニューラルネットワーク(DNN)の透かしは、所有者の許可なくこれらのモデルが取得されるシナリオにおいて、DNNの所有権を検証するメカニズムとして多くの(透かし)戦略が提案されている。 しかし, 既存の透かし機構は, 微調整, パラメータの刈り取り, シャッフルなど, 除去技術に非常に敏感であることが示された。 本稿では,既存の脅威に対して堅牢な新しいDNN透かし技術であるTATTOOEDを提案する。 DNN所有者は, TATTOOEDを透かし機構として使用することにより, 99%のモデルパラメータが変更されている場合においても, 透かしを取得し, モデルのオーナシップを検証できることを示した。 さらに、TATTOOEDは、トレーニングパイプラインで簡単に使用でき、モデルパフォーマンスに無視できる影響があることが示される。

Watermarking of deep neural networks (DNNs) has gained significant traction in recent years, with numerous (watermarking) strategies being proposed as mechanisms that can help verify the ownership of a DNN in scenarios where these models are obtained without the permission of the owner. However, a growing body of work has demonstrated that existing watermarking mechanisms are highly susceptible to removal techniques, such as fine-tuning, parameter pruning, or shuffling. In this paper, we build upon extensive prior work on covert (military) communication and propose TATTOOED, a novel DNN watermarking technique that is robust to existing threats. We demonstrate that using TATTOOED as their watermarking mechanisms, the DNN owner can successfully obtain the watermark and verify model ownership even in scenarios where 99% of model parameters are altered. Furthermore, we show that TATTOOED is easy to employ in training pipelines, and has negligible impact on model performance.
翻訳日:2024-06-07 04:58:43 公開日:2024-06-03
# ニューラルネットワークによるアスファルトコンクリートの疲労寿命予測

Predicting the fatigue life of asphalt concrete using neural networks ( http://arxiv.org/abs/2406.01523v1 )

ライセンス: Link先を確認
Jakub Houlík, Jan Valentin, Václav Nežerka, (参考訳) アスファルトコンクリート(AC)の耐久性と維持要求は, その疲労寿命に強く影響される。 この特徴を決定する従来の方法は、リソース集約と時間消費の両方である。 本研究では, ニューラルネットワークを用いて交流疲労寿命を予測し, ひずみレベル, バインダー含量, 空気ボイド含量の影響に着目した。 実際のデータセットを活用することで、当社のモデルを調整し、一般的に対数スケールで表現される幅広い疲労寿命データを効果的に扱えるようにしました。 平均2乗対数誤差を損失関数として利用し, 疲労寿命のすべてのレベルにわたって予測精度を向上した。 各種ハイパーパラメータの比較分析により,データ内の複雑な関係を抽出する機械学習モデルを開発した。 以上の結果から, 高いバインダー含有量では疲労寿命が著しく向上する一方, 気液含量の影響はバインダー濃度によって大きく変化することが示唆された。 最も重要なこととして、この研究は、ANNをモデリングに使用する複雑さに関する洞察を提供し、より大きなデータセットでその潜在的なユーティリティを示す。 この研究で使用されたコードとデータはGitHubリポジトリのオープンソースとして提供され、論文には完全なアクセスのためのリンクが含まれている。

Asphalt concrete's (AC) durability and maintenance demands are strongly influenced by its fatigue life. Traditional methods for determining this characteristic are both resource-intensive and time-consuming. This study employs artificial neural networks (ANNs) to predict AC fatigue life, focusing on the impact of strain level, binder content, and air-void content. Leveraging a substantial dataset, we tailored our models to effectively handle the wide range of fatigue life data, typically represented on a logarithmic scale. The mean square logarithmic error was utilized as the loss function to enhance prediction accuracy across all levels of fatigue life. Through comparative analysis of various hyperparameters, we developed a machine-learning model that captures the complex relationships within the data. Our findings demonstrate that higher binder content significantly enhances fatigue life, while the influence of air-void content is more variable, depending on binder levels. Most importantly, this study provides insights into the intricacies of using ANNs for modeling, showcasing their potential utility with larger datasets. The codes developed and the data used in this study are provided as open source on a GitHub repository, with a link included in the paper for full access.
翻訳日:2024-06-06 23:49:24 公開日:2024-06-03
# PPINtonus:Deep-Learning Tonal Analysis を用いたパーキンソン病早期発見

PPINtonus: Early Detection of Parkinson's Disease Using Deep-Learning Tonal Analysis ( http://arxiv.org/abs/2406.02608v1 )

ライセンス: Link先を確認
Varun Reddy, (参考訳) PPINtonusはパーキンソン病(PD)を早期に検出するためのシステムであり、ディープラーニングの音節解析を利用して、従来の神経学的検査に代わる費用対効果とアクセス性を提供する。 Parkinson's Voice Project (PVP)と共同で、PPINtonusは、半教師付き条件生成対向ネットワークを使用して合成データポイントを生成し、多層ディープニューラルネットワークのトレーニングデータセットを強化している。 PRAAT音声ソフトウェアと組み合わせて、典型的な家庭内騒音条件下で標準マイクを用いて実施した120秒音声検査から、生体医学的音声測定値を正確に評価する。 モデルの性能は混乱行列を用いて検証され、92.5 \%の精度で偽陰性率を低くした。 PPINtonusは92.7 \%の精度を示し、早期PD検出のための信頼性の高いツールとなった。 PPINtonusの非侵襲的で効率的な方法は、早期診断を可能にし、タイムリーな介入と管理を通じて何百万人ものPD患者の生活の質を向上させることによって、発展途上国に多大な利益をもたらすことができる。

PPINtonus is a system for the early detection of Parkinson's Disease (PD) utilizing deep-learning tonal analysis, providing a cost-effective and accessible alternative to traditional neurological examinations. Partnering with the Parkinson's Voice Project (PVP), PPINtonus employs a semi-supervised conditional generative adversarial network to generate synthetic data points, enhancing the training dataset for a multi-layered deep neural network. Combined with PRAAT phonetics software, this network accurately assesses biomedical voice measurement values from a simple 120-second vocal test performed with a standard microphone in typical household noise conditions. The model's performance was validated using a confusion matrix, achieving an impressive 92.5 \% accuracy with a low false negative rate. PPINtonus demonstrated a precision of 92.7 \%, making it a reliable tool for early PD detection. The non-intrusive and efficient methodology of PPINtonus can significantly benefit developing countries by enabling early diagnosis and improving the quality of life for millions of PD patients through timely intervention and management.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-03
# Pseudo-Label Filtering for Continual Test-Time Adaptation

Less is More: Pseudo-Label Filtering for Continual Test-Time Adaptation ( http://arxiv.org/abs/2406.02609v1 )

ライセンス: Link先を確認
Jiayao Tan, Fan Lyu, Chenggong Ni, Tingliang Feng, Fuyuan Hu, Zhang Zhang, Shaochuang Zhao, Liang Wang, (参考訳) 連続的テスト時間適応(CTTA)は、ソースデータにアクセスすることなく、テストフェーズ中に対象ドメインのシーケンスに事前訓練されたモデルを適用することを目的としている。 未知のドメインからのラベルのないデータに適応するために、既存のメソッドは、すべてのサンプルに対して擬似ラベルを構築し、自己学習を通じてモデルを更新する。 しかし、これらの擬似ラベルは、しばしばノイズを伴い、適応が不十分になる。 Pseudo Labeling Filter (PLF) と呼ばれるCTTAの擬似ラベル選択法を提案する。 PLFの鍵となる考え方は、擬似ラベルの適切なしきい値を選択し続け、自己学習のための信頼できるしきい値を特定することである。 具体的には、初期化、成長、多様性を含む、継続的なドメイン学習の間にしきい値を設定するための3つの原則を提示します。 これらの原則に基づいて、擬似ラベルをフィルタするために自己適応型閾値を設計する。 さらに、未知のドメインサンプルに対して多様な予測を行うようモデルに促すために、クラス優先アライメント(CPA)手法を導入する。 広範な実験を通じて、PLFは現在の最先端の手法よりも優れており、CTTAにおいてその効果が証明されている。

Continual Test-Time Adaptation (CTTA) aims to adapt a pre-trained model to a sequence of target domains during the test phase without accessing the source data. To adapt to unlabeled data from unknown domains, existing methods rely on constructing pseudo-labels for all samples and updating the model through self-training. However, these pseudo-labels often involve noise, leading to insufficient adaptation. To improve the quality of pseudo-labels, we propose a pseudo-label selection method for CTTA, called Pseudo Labeling Filter (PLF). The key idea of PLF is to keep selecting appropriate thresholds for pseudo-labels and identify reliable ones for self-training. Specifically, we present three principles for setting thresholds during continuous domain learning, including initialization, growth and diversity. Based on these principles, we design Self-Adaptive Thresholding to filter pseudo-labels. Additionally, we introduce a Class Prior Alignment (CPA) method to encourage the model to make diverse predictions for unknown domain samples. Through extensive experiments, PLF outperforms current state-of-the-art methods, proving its effectiveness in CTTA.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-03
# MoFormer:条件付き変圧器連成多モード核融合記述子に基づく多目的抗微生物ペプチド生成

MoFormer: Multi-objective Antimicrobial Peptide Generation Based on Conditional Transformer Joint Multi-modal Fusion Descriptor ( http://arxiv.org/abs/2406.02610v1 )

ライセンス: Link先を確認
Li Wang, Xiangzheng Fu, Jiahao Yang, Xinyi Zhang, Xiucai Ye, Yiping Liu, Tetsuya Sakurai, Xiangxiang Zeng, (参考訳) 深層学習は、より望ましい性質を持つ既存のペプチドを最適化する大きな可能性を秘めている。 いくつかの最適化された抗微生物ペプチド(AMP)生成法が最近出現したにもかかわらず、多目的最適化は依然として理想主義と現実主義のトレードオフにおいて非常に難しい。 そこで我々は,AMPの多属性同時最適化のための多目的AMP合成パイプライン (MoFormer) を構築した。 MoFormer は高度に構造化された潜伏空間における AMP 配列の所望の属性を改善し, 条件制約と細粒度多記述子により誘導される。 また,大規模モデルの微調整に基づくパレートに基づく非支配的ソートアルゴリズムとプロキシを用いて,候補を階層的にランク付けする。 1)分子シミュレーションとアミノ酸間の相互作用のスコアリングによるAMPの構造と機能の解析,(2)品質と分布特性の検証のための潜伏空間の可視化,デザイン制約のある多目的最適化AMPの有効な方法の検証,の2点から,MoFormerを用いた実質的な特性改善を実証した。

Deep learning holds a big promise for optimizing existing peptides with more desirable properties, a critical step towards accelerating new drug discovery. Despite the recent emergence of several optimized Antimicrobial peptides(AMP) generation methods, multi-objective optimizations remain still quite challenging for the idealism-realism tradeoff. Here, we establish a multi-objective AMP synthesis pipeline (MoFormer) for the simultaneous optimization of multi-attributes of AMPs. MoFormer improves the desired attributes of AMP sequences in a highly structured latent space, guided by conditional constraints and fine-grained multi-descriptor.We show that MoFormer outperforms existing methods in the generation task of enhanced antimicrobial activity and minimal hemolysis. We also utilize a Pareto-based non-dominated sorting algorithm and proxies based on large model fine-tuning to hierarchically rank the candidates. We demonstrate substantial property improvement using MoFormer from two perspectives: (1) employing molecular simulations and scoring interactions among amino acids to decipher the structure and functionality of AMPs; (2) visualizing latent space to examine the qualities and distribution features, verifying an effective means to facilitate multi-objective optimization AMPs with design constraints
翻訳日:2024-06-06 23:39:37 公開日:2024-06-03
# LOLA:コンテンツ実験のためのLLM支援オンライン学習アルゴリズム

LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments ( http://arxiv.org/abs/2406.02611v1 )

ライセンス: Link先を確認
Zikun Ye, Hema Yoganarasimhan, Yufeng Zheng, (参考訳) 急速に進化するデジタルコンテンツの世界では、メディア企業やニュース出版社は、ユーザーエンゲージメントを高めるための自動化された効率的な方法を必要としている。 本稿では,LLM-Assisted Online Learning Algorithm (LOLA)を紹介し,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークを提案する。 記事の内容に関連付けられた様々な見出しのパフォーマンスを評価するための17,681の見出しA/Bテストを含む、Upworthyから大規模データセットを活用することで、まず、プロンプトベースのメソッド、埋め込みベースの分類モデル、微調整されたオープンソースLCMの3つの幅広い純粋なLLMアプローチを調査する。 以上の結果から,プロンプトベースアプローチの精度は65%に満たないことが示唆された。 対照的に、OpenAI埋め込みベースの分類モデルと微調整のLlama-3-8bモデルは82~84%の精度を実現しているが、十分なトラフィックでの実験性能には達していない。 次に,最適純粋LLM手法とアッパー信頼境界アルゴリズムを組み合わせたLOLAを導入し,トラフィックを適応的に割り当て,クリックを最大化する。 Upworthy データの数値実験により,LOLA は標準的な A/B テスト法 (Upworthy の現在の状態 quo ) ,純バンドビットアルゴリズム,純粋LLM アプローチ,特に実験トラフィックの制限や多数のアームのシナリオにおいて,優れた性能を示した。 当社のアプローチは,デジタル広告やソーシャルメディアレコメンデーションなどのユーザエンゲージメントを最適化する,さまざまなディジタルセッティングのコンテンツ実験にも適用可能です。

In the rapidly evolving digital content landscape, media firms and news publishers require automated and efficient methods to enhance user engagement. This paper introduces the LLM-Assisted Online Learning Algorithm (LOLA), a novel framework that integrates Large Language Models (LLMs) with adaptive experimentation to optimize content delivery. Leveraging a large-scale dataset from Upworthy, which includes 17,681 headline A/B tests aimed at evaluating the performance of various headlines associated with the same article content, we first investigate three broad pure-LLM approaches: prompt-based methods, embedding-based classification models, and fine-tuned open-source LLMs. Our findings indicate that prompt-based approaches perform poorly, achieving no more than 65% accuracy in identifying the catchier headline among two options. In contrast, OpenAI-embedding-based classification models and fine-tuned Llama-3-8b models achieve comparable accuracy, around 82-84%, though still falling short of the performance of experimentation with sufficient traffic. We then introduce LOLA, which combines the best pure-LLM approach with the Upper Confidence Bound algorithm to adaptively allocate traffic and maximize clicks. Our numerical experiments on Upworthy data show that LOLA outperforms the standard A/B testing method (the current status quo at Upworthy), pure bandit algorithms, and pure-LLM approaches, particularly in scenarios with limited experimental traffic or numerous arms. Our approach is both scalable and broadly applicable to content experiments across a variety of digital settings where firms seek to optimize user engagement, including digital advertising and social media recommendations.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-03
# データ評価は学習可能か、解釈可能か?

Is Data Valuation Learnable and Interpretable? ( http://arxiv.org/abs/2406.02612v1 )

ライセンス: Link先を確認
Ou Wu, Weiyao Zhu, Mengyang Li, (参考訳) 個々のサンプルの価値を測定することは、深層学習モデルのトレーニングなど、多くのデータ駆動タスクにおいて重要である。 近年の文献では、データ評価手法の開発に多大な努力が注がれている。 主要なデータ評価手法はゲーム理論のShapley値に基づいており、この経路に沿って様々な手法が提案されている。 例えば、Shapleyの値に基づく評価には理論的な根拠があるが、完全に実験に基づくアプローチであり、これまでに評価モデルが構築されていない。 さらに、現在のデータアセスメント手法は、データ価格などのアプリケーションにおいて、相互運用可能なデータアセスメント手法が非常に有用であるにもかかわらず、出力値の解釈可能性を無視している。 この研究は、データバリュエーションは学習可能か、解釈可能か、という重要な疑問に答えることを目的としている。 学習された評価モデルには、パラメータの固定数や知識再利用可能性など、いくつかの望ましいメリットがある。 解釈不能なデータバリュエーションモデルは、なぜサンプルが価値あるのか、あるいは価値がないのかを説明することができる。 この目的のために、2つの新しいデータ価値モデリングフレームワークを提案し、モデルトレーニングと解釈可能性のための特定のベースモデルとして、多層知覚~〜(MLP)と新しい回帰ツリーをそれぞれ利用した。 ベンチマークデータセット上で大規模な実験が行われる。 実験結果は、その質問に対して肯定的な答えを与える。 }本研究は,データ値の評価のための新たな技術パスを開く。 大規模なデータバリュエーションモデルは、さまざまなデータ駆動タスクにまたがって構築することができ、データバリュエーションの広範な適用を促進することができる。

Measuring the value of individual samples is critical for many data-driven tasks, e.g., the training of a deep learning model. Recent literature witnesses the substantial efforts in developing data valuation methods. The primary data valuation methodology is based on the Shapley value from game theory, and various methods are proposed along this path. {Even though Shapley value-based valuation has solid theoretical basis, it is entirely an experiment-based approach and no valuation model has been constructed so far.} In addition, current data valuation methods ignore the interpretability of the output values, despite an interptable data valuation method is of great helpful for applications such as data pricing. This study aims to answer an important question: is data valuation learnable and interpretable? A learned valuation model have several desirable merits such as fixed number of parameters and knowledge reusability. An intrepretable data valuation model can explain why a sample is valuable or invaluable. To this end, two new data value modeling frameworks are proposed, in which a multi-layer perception~(MLP) and a new regression tree are utilized as specific base models for model training and interpretability, respectively. Extensive experiments are conducted on benchmark datasets. {The experimental results provide a positive answer for the question.} Our study opens up a new technical path for the assessing of data values. Large data valuation models can be built across many different data-driven tasks, which can promote the widespread application of data valuation.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-03
# ACCO: 分散LLMトレーニングにおけるコミュニケーションを保ちながら蓄積する

ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training ( http://arxiv.org/abs/2406.02613v1 )

ライセンス: Link先を確認
Adel Nabli, Louis Fournier, Pierre Erbacher, Louis Serrano, Eugene Belilovsky, Edouard Oyallon, (参考訳) 大規模言語モデル(LLM)のトレーニングは、複数のGPUを使用してモデルレプリカの確率勾配を並列に計算する分散実装に大きく依存している。 しかし、データ並列設定における勾配の同期は、分散ワーカーの数の増加に伴って通信オーバーヘッドを増大させ、並列化の効率向上を妨げる可能性がある。 この課題に対処するために、フェデレートラーニングで使用される局所最適化手法など、労働者間通信を減らす最適化アルゴリズムが登場した。 通信オーバヘッドの最小化には有効であるが、これらの手法はスケーラビリティを損なうため、余分な運動量変数に加えて、複数のローカル最適化ステップ間の通信が許される場合、オプティマイザの状態はワーカ間で共有できない。 これに対して,LLMの分散トレーニングに適したメモリ効率最適化アルゴリズムである$\textbf{AC}$cumulate while $\textbf{CO}$mmunicate ($\textt{ACCO}$。 $\texttt{ACCO}$は、ワーカー間でオプティマイザステートをシャーディングし、グラデーション計算と通信をオーバーラップして通信コストを隠蔽し、異種ハードウェアに対応する。 本手法は、勾配計算と通信の並列実行に固有の1ステップ遅延を緩和し、ウォームアップステップを不要とし、標準分散最適化のトレーニングダイナミクスと整合し、ウォールクロック時間でより高速に収束する手法である。 我々は、いくつかのLLMトレーニングおよび微調整タスクにおける$\texttt{ACCO}$の有効性を実証する。

Training Large Language Models (LLMs) relies heavily on distributed implementations, employing multiple GPUs to compute stochastic gradients on model replicas in parallel. However, synchronizing gradients in data parallel settings induces a communication overhead increasing with the number of distributed workers, which can impede the efficiency gains of parallelization. To address this challenge, optimization algorithms reducing inter-worker communication have emerged, such as local optimization methods used in Federated Learning. While effective in minimizing communication overhead, these methods incur significant memory costs, hindering scalability: in addition to extra momentum variables, if communications are only allowed between multiple local optimization steps, then the optimizer's states cannot be sharded among workers. In response, we propose $\textbf{AC}$cumulate while $\textbf{CO}$mmunicate ($\texttt{ACCO}$), a memory-efficient optimization algorithm tailored for distributed training of LLMs. $\texttt{ACCO}$ allows to shard optimizer states across workers, overlaps gradient computations and communications to conceal communication costs, and accommodates heterogeneous hardware. Our method relies on a novel technique to mitigate the one-step delay inherent in parallel execution of gradient computations and communications, eliminating the need for warmup steps and aligning with the training dynamics of standard distributed optimization while converging faster in terms of wall-clock time. We demonstrate the effectiveness of $\texttt{ACCO}$ on several LLMs training and fine-tuning tasks.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-03
# 都市間ファウショット交通予報のための周波数強化事前学習

Frequency Enhanced Pre-training for Cross-city Few-shot Traffic Forecasting ( http://arxiv.org/abs/2406.02614v1 )

ライセンス: Link先を確認
Zhanyu Liu, Jianrong Ding, Guanjie Zheng, (参考訳) インテリジェントトランスポーテーションシステム(ITS)の分野は、様々な下流アプリケーションを実現するために正確なトラフィック予測に依存している。 しかし、開発途上国は、限られた資源と時代遅れのインフラのために、十分なトレーニングトラフィックデータを収集する上で、しばしば課題に直面している。 この障害を認識して、都市間数発の予測という概念が実現可能なアプローチとして浮上した。 従来の都市間数ショット予測手法では、都市間の周波数類似性は無視されていたが、都市間の周波数領域では、交通データがより類似していることが観察された。 この事実に基づき、我々は \textbf{F}requency \textbf{E}nhanced \textbf{P}re-training Framework for \textbf{Cross}-city Few-shot Forecasting (\textbf{FEPCross})を提案する。 FEPCrossは事前訓練段階と微調整段階を有する。 事前学習段階において,時間・周波数領域の情報を含むクロスドメイン空間・テンポラルエンコーダを提案する。 微調整の段階では、トレーニングサンプルを豊かにし、モーメント更新されたグラフ構造を維持するモジュールを設計し、これにより、数ショットのトレーニングデータに過度に適合するリスクを軽減する。 実世界の交通データセット上で実施された実証的な評価は、FEPCrossの異常な有効性を検証し、多様なカテゴリの既存アプローチを上回り、都市間数ショット予測の進行を促進する特性を示す。

The field of Intelligent Transportation Systems (ITS) relies on accurate traffic forecasting to enable various downstream applications. However, developing cities often face challenges in collecting sufficient training traffic data due to limited resources and outdated infrastructure. Recognizing this obstacle, the concept of cross-city few-shot forecasting has emerged as a viable approach. While previous cross-city few-shot forecasting methods ignore the frequency similarity between cities, we have made an observation that the traffic data is more similar in the frequency domain between cities. Based on this fact, we propose a \textbf{F}requency \textbf{E}nhanced \textbf{P}re-training Framework for \textbf{Cross}-city Few-shot Forecasting (\textbf{FEPCross}). FEPCross has a pre-training stage and a fine-tuning stage. In the pre-training stage, we propose a novel Cross-Domain Spatial-Temporal Encoder that incorporates the information of the time and frequency domain and trains it with self-supervised tasks encompassing reconstruction and contrastive objectives. In the fine-tuning stage, we design modules to enrich training samples and maintain a momentum-updated graph structure, thereby mitigating the risk of overfitting to the few-shot training data. Empirical evaluations performed on real-world traffic datasets validate the exceptional efficacy of FEPCross, outperforming existing approaches of diverse categories and demonstrating characteristics that foster the progress of cross-city few-shot forecasting.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-03
# 非パラメトリックな測地に対する低次モデリングとグラフニューラルネットワークのハイブリッド数値解法結合:構造力学問題への応用

A hybrid numerical methodology coupling Reduced Order Modeling and Graph Neural Networks for non-parametric geometries: applications to structural dynamics problems ( http://arxiv.org/abs/2406.02615v1 )

ライセンス: Link先を確認
Victor Matray, Faisal Amlani, Frédéric Feyel, David Néron, (参考訳) 本研究は、複雑な物理系を管理する時間領域偏微分方程式(PDE)の数値解析を高速化するための新しいアプローチを導入する。 この手法は、古典的な低次モデリング(ROM)フレームワークと最近導入されたグラフニューラルネットワーク(GNN)の組み合わせに基づいている。 提案手法は非パラメトリックなジオメトリに特に適しており、最終的には多様なジオメトリやトポロジーを扱えることが示されている。 航空機の座席の設計およびそれに対応する衝撃に対する機械的応答に関する応用文脈において,性能研究は計算負荷を低減し,非パラメトリックな測地を伴わない問題に対する迅速な設計イテレーションを可能にすることが主な動機である。 提案手法は, 有限要素に基づく数値シミュレーションを多数必要とする他の科学的・工学的な問題にも適用可能である。

This work introduces a new approach for accelerating the numerical analysis of time-domain partial differential equations (PDEs) governing complex physical systems. The methodology is based on a combination of a classical reduced-order modeling (ROM) framework and recently-introduced Graph Neural Networks (GNNs), where the latter is trained on highly heterogeneous databases of varying numerical discretization sizes. The proposed techniques are shown to be particularly suitable for non-parametric geometries, ultimately enabling the treatment of a diverse range of geometries and topologies. Performance studies are presented in an application context related to the design of aircraft seats and their corresponding mechanical responses to shocks, where the main motivation is to reduce the computational burden and enable the rapid design iteration for such problems that entail non-parametric geometries. The methods proposed here are straightforwardly applicable to other scientific or engineering problems requiring a large number of finite element-based numerical simulations, with the potential to significantly enhance efficiency while maintaining reasonable accuracy.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-03
# エッジコンピューティングにおける無線LLM推論のための適応層分割:モデルに基づく強化学習アプローチ

Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach ( http://arxiv.org/abs/2406.02616v1 )

ライセンス: Link先を確認
Yuxuan Chen, Rongpeng Li, Xiaoxue Yu, Zhifeng Zhao, Honggang Zhang, (参考訳) エッジコンピューティング環境における大規模言語モデル(LLM)のデプロイの最適化は、プライバシと計算効率の向上に不可欠である。 本研究は,エッジコンピューティングにおける効率的な無線LLM推論に向けて,主要なオープンソースLLMにおける分割点の影響を包括的に分析する。 そこで本研究では,モデルベース強化学習(MBRL)からインスピレーションを得て,エッジとユーザ機器(UE)間の最適分割点を決定するフレームワークを提案する。 報酬代理モデルを導入することで、頻繁な性能評価の計算コストを大幅に削減できる。 大規模シミュレーションにより, この手法は, 異なるネットワーク条件下での推論性能と計算負荷のバランスを効果的に保ち, 分散環境におけるLLM配置の堅牢なソリューションを提供することを示した。

Optimizing the deployment of large language models (LLMs) in edge computing environments is critical for enhancing privacy and computational efficiency. Toward efficient wireless LLM inference in edge computing, this study comprehensively analyzes the impact of different splitting points in mainstream open-source LLMs. On this basis, this study introduces a framework taking inspiration from model-based reinforcement learning (MBRL) to determine the optimal splitting point across the edge and user equipment (UE). By incorporating a reward surrogate model, our approach significantly reduces the computational cost of frequent performance evaluations. Extensive simulations demonstrate that this method effectively balances inference performance and computational load under varying network conditions, providing a robust solution for LLM deployment in decentralized settings.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-03
# 免疫組織学のために自動生成された巨大免疫細胞データベースImmunocto

Immunocto: a massive immune cell database auto-generated for histopathology ( http://arxiv.org/abs/2406.02618v1 )

ライセンス: Link先を確認
Mikaël Simard, Zhuoyan Shen, Maria A. Hawkins, Charles-Antoine Collins-Fekete, (参考訳) 免疫療法などの新しいがん治療オプションの出現に伴い、腫瘍免疫マイクロ環境の研究は予後を知らせ、治療薬に対する反応を理解するために重要である。 腫瘍免疫マイクロ環境を特徴付けるための重要なアプローチは、(1)ヘマトキシリンとエオシン(H&E)染色組織断面のデジタル化による高分解能光学像と(2)自動免疫細胞検出および分類法を組み合わせることである。 しかし、デジタル病理学における現在の個別免疫細胞分類モデルでは、比較的性能が劣っている。 これは主に、現在利用可能な個々の免疫細胞のデータセットが限られているためであり、これは、デジタル化されたH&E全スライド画像に免疫細胞を手動で注釈付けするという、時間と難しい問題の結果である。 そこで本研究では,CD4$^+$T細胞リンパ球,CD8$^+$T細胞リンパ球,B細胞リンパ球,マクロファージの4つのサブタイプにまたがる2,282,818個の免疫細胞を含む,6,848,454個のヒト細胞の自動生成データベースであるImmomoctoを紹介する。 それぞれのセルに対して、64$\times$64ピクセルのH&Eイメージを$\mathbf{40}\times$倍率で提供し、核とラベルのバイナリマスクを提供します。 Imctoを作成するために、オープンソースモデルとデータを組み合わせて、輪郭やラベルを自動生成しました。 これらの細胞は、一致したH&EおよびOrionプラットフォームから免疫蛍光性大腸癌データセットから取得され、Segment Anything Modelを用いて輪郭が取得される。 免疫組織からのH&E画像に基づいて訓練された分類器は、平均的なF1スコア0.74を生成し、4つの免疫細胞サブタイプや他の細胞を区別する。 Immunocto は https://zenodo.org/uploads/11073373 でダウンロードできる。

With the advent of novel cancer treatment options such as immunotherapy, studying the tumour immune micro-environment is crucial to inform on prognosis and understand response to therapeutic agents. A key approach to characterising the tumour immune micro-environment may be through combining (1) digitised microscopic high-resolution optical images of hematoxylin and eosin (H&E) stained tissue sections obtained in routine histopathology examinations with (2) automated immune cell detection and classification methods. However, current individual immune cell classification models for digital pathology present relatively poor performance. This is mainly due to the limited size of currently available datasets of individual immune cells, a consequence of the time-consuming and difficult problem of manually annotating immune cells on digitised H&E whole slide images. In that context, we introduce Immunocto, a massive, multi-million automatically generated database of 6,848,454 human cells, including 2,282,818 immune cells distributed across 4 subtypes: CD4$^+$ T cell lymphocytes, CD8$^+$ T cell lymphocytes, B cell lymphocytes, and macrophages. For each cell, we provide a 64$\times$64 pixels H&E image at $\mathbf{40}\times$ magnification, along with a binary mask of the nucleus and a label. To create Immunocto, we combined open-source models and data to automatically generate the majority of contours and labels. The cells are obtained from a matched H&E and immunofluorescence colorectal dataset from the Orion platform, while contours are obtained using the Segment Anything Model. A classifier trained on H&E images from Immunocto produces an average F1 score of 0.74 to differentiate the 4 immune cell subtypes and other cells. Immunocto can be downloaded at: https://zenodo.org/uploads/11073373.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-03
# 暗号変換器回路を用いた言語モデルにおける未知のバックドア

Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits ( http://arxiv.org/abs/2406.02619v1 )

ライセンス: Link先を確認
Andis Draguns, Andrew Gritsevskiy, Sumeet Ramesh Motwani, Charlie Rogers-Smith, Jeffrey Ladish, Christian Schroeder de Witt, (参考訳) オープンソース言語モデルの急速な普及は、下流のバックドア攻撃のリスクを著しく高める。 これらのバックドアは、モデル展開中に危険な振る舞いを導入し、従来のサイバーセキュリティ監視システムによる検出を回避することができる。 本稿では,従来の技術とは対照的に,自己回帰型トランスフォーマーモデルにおけるバックドアの新たなクラスについて紹介する。 無効性は、ディフェンダーがバックドアをトリガーすることを防ぐため、完全なホワイトボックスアクセスを与えられたり、レッドチームや特定の形式的な検証方法のような自動化技術を使用したりしても、デプロイ前に評価や検出が不可能になる。 我々は, 暗号技術を用いることで, 新規な構築が不必要であるだけでなく, 良好な堅牢性を有することを示す。 これらの特性を実証的な調査で確認し、我々のバックドアが最先端の緩和戦略に耐えられることを示す。 さらに、ホワイトボックス設定で完全に検出できないような普遍的なバックドアは、既存の設計よりも検出が難しいことを示して、これまでの作業を拡張しました。 本稿では, トランスモデルへのバックドアのシームレスな統合の実現可能性を示すことによって, プリデプロイ検出戦略の有効性を根本的に疑問視する。 これにより、AIの安全性とセキュリティにおける犯罪と防御のバランスに関する新たな洞察が得られる。

The rapid proliferation of open-source language models significantly increases the risks of downstream backdoor attacks. These backdoors can introduce dangerous behaviours during model deployment and can evade detection by conventional cybersecurity monitoring systems. In this paper, we introduce a novel class of backdoors in autoregressive transformer models, that, in contrast to prior art, are unelicitable in nature. Unelicitability prevents the defender from triggering the backdoor, making it impossible to evaluate or detect ahead of deployment even if given full white-box access and using automated techniques, such as red-teaming or certain formal verification methods. We show that our novel construction is not only unelicitable thanks to using cryptographic techniques, but also has favourable robustness properties. We confirm these properties in empirical investigations, and provide evidence that our backdoors can withstand state-of-the-art mitigation strategies. Additionally, we expand on previous work by showing that our universal backdoors, while not completely undetectable in white-box settings, can be harder to detect than some existing designs. By demonstrating the feasibility of seamlessly integrating backdoors into transformer models, this paper fundamentally questions the efficacy of pre-deployment detection strategies. This offers new insights into the offence-defence balance in AI safety and security.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-03
# 大規模言語モデルの保護: 調査

Safeguarding Large Language Models: A Survey ( http://arxiv.org/abs/2406.02622v1 )

ライセンス: Link先を確認
Yi Dong, Ronghui Mu, Yanghao Zhang, Siqi Sun, Tianle Zhang, Changshun Wu, Gaojie Jin, Yi Qi, Jinwei Hu, Jie Meng, Saddek Bensalem, Xiaowei Huang, (参考訳) 大規模言語モデル (LLMs) の急成長する分野において、堅牢な安全メカニズムを開発する「安全ガード (safeguards)」あるいは「ガードレール (guardrails)」は、指定された境界内でのLLMの倫理的使用を保証するために必須となっている。 本稿は、この重要なメカニズムの現状について、体系的な文献レビューを提供する。 その主な課題と、様々な文脈における倫理的問題を扱う包括的なメカニズムにどのように拡張できるかを論じる。 まず、主要なLCMサービスプロバイダとオープンソースコミュニティが採用している保護メカニズムの現在の状況を明らかにする。 続いて、幻覚、公正性、プライバシーなど、ガードレールが強制したいと思われるいくつかの(望ましくない)プロパティを評価し、分析し、拡張するテクニックが続く。 これらに基づいて、これらの制御(すなわち攻撃)を回避し、攻撃を防御し、ガードレールを補強する手法をレビューする。 上記の技術は現状や研究動向を反映しているが,本手法では容易に対処できないいくつかの課題についても論じるとともに,多分野的アプローチ,ニューラルシンボリック手法,システム開発ライフサイクルの完全な検討を通じて,包括的ガードレールの実装方法に関するビジョンを提示する。

In the burgeoning field of Large Language Models (LLMs), developing a robust safety mechanism, colloquially known as "safeguards" or "guardrails", has become imperative to ensure the ethical use of LLMs within prescribed boundaries. This article provides a systematic literature review on the current status of this critical mechanism. It discusses its major challenges and how it can be enhanced into a comprehensive mechanism dealing with ethical issues in various contexts. First, the paper elucidates the current landscape of safeguarding mechanisms that major LLM service providers and the open-source community employ. This is followed by the techniques to evaluate, analyze, and enhance some (un)desirable properties that a guardrail might want to enforce, such as hallucinations, fairness, privacy, and so on. Based on them, we review techniques to circumvent these controls (i.e., attacks), to defend the attacks, and to reinforce the guardrails. While the techniques mentioned above represent the current status and the active research trends, we also discuss several challenges that cannot be easily dealt with by the methods and present our vision on how to implement a comprehensive guardrail through the full consideration of multi-disciplinary approach, neural-symbolic method, and systems development lifecycle.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-03
# Linuxカーネルの爆発におけるページスプレーの理解

Take a Step Further: Understanding Page Spray in Linux Kernel Exploitation ( http://arxiv.org/abs/2406.02624v1 )

ライセンス: Link先を確認
Ziyi Guo, Dang K Le, Zhenpeng Lin, Kyle Zeng, Ruoyu Wang, Tiffany Bao, Yan Shoshitaishvili, Adam Doupé, Xinyu Xing, (参考訳) 近年,カーネル脆弱性に対するページレベルのエクスプロイトに着目したPage Sprayと呼ばれる新しい手法が登場している。 エクスプロイラビリティ、安定性、互換性の面では利点があるが、Page Sprayに関する包括的な研究は依然として乏しい。 その根本原因、搾取モデル、他の搾取技術に対する比較利益、および潜在的緩和戦略に関する質問は、ほとんど答えられていない。 本稿では,本手法の詳細な理解を提供するため,Page Sprayの系統的な検討を行う。 我々は、その基本原理を解明し、Shasysモデルと呼ばれる包括的なエクスプロイトモデルを導入する。 さらに、Linuxカーネル内でのPage Spray発生の原因となる根本原因を徹底的に分析する。 我々は,Page Spray解析モデルに基づく解析器を設計し,Page Sprayの呼び出し元を同定する。 次に, 微妙に設計した実験により, ページスプレーの安定性, 利用性, 適合性を評価する。 最後に,Page Sprayに対処するための緩和原則を提案し,軽量化アプローチを提案する。 この研究は、セキュリティ研究者や開発者がPage Sprayに関する洞察を得るのを支援することを目的としており、最終的に、この新たなエクスプロイト技術に対する我々の集団的理解を高め、コミュニティの改善を図っている。

Recently, a novel method known as Page Spray emerges, focusing on page-level exploitation for kernel vulnerabilities. Despite the advantages it offers in terms of exploitability, stability, and compatibility, comprehensive research on Page Spray remains scarce. Questions regarding its root causes, exploitation model, comparative benefits over other exploitation techniques, and possible mitigation strategies have largely remained unanswered. In this paper, we conduct a systematic investigation into Page Spray, providing an in-depth understanding of this exploitation technique. We introduce a comprehensive exploit model termed the \sys model, elucidating its fundamental principles. Additionally, we conduct a thorough analysis of the root causes underlying Page Spray occurrences within the Linux Kernel. We design an analyzer based on the Page Spray analysis model to identify Page Spray callsites. Subsequently, we evaluate the stability, exploitability, and compatibility of Page Spray through meticulously designed experiments. Finally, we propose mitigation principles for addressing Page Spray and introduce our own lightweight mitigation approach. This research aims to assist security researchers and developers in gaining insights into Page Spray, ultimately enhancing our collective understanding of this emerging exploitation technique and making improvements to the community.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-03
# プログレッシブ推論:中間予測を用いたデコーダオンリーシーケンス分類モデルの説明

Progressive Inference: Explaining Decoder-Only Sequence Classification Models Using Intermediate Predictions ( http://arxiv.org/abs/2406.02625v1 )

ライセンス: Link先を確認
Sanjay Kariyappa, Freddy Lécué, Saumitra Mishra, Christopher Pond, Daniele Magazzeni, Manuela Veloso, (参考訳) 本稿では、デコーダのみのシーケンス分類モデルの予測を説明するために、入力属性を計算するためのフレームワークであるプログレッシブ推論を提案する。 本研究は、デコーダのみのトランスフォーマーモデルの分類ヘッドを用いて、入力シーケンスの異なる点で評価することで中間予測を行うことができるという知見に基づいている。 因果的注意機構のため、これらの中間予測は推論点の前のトークンにのみ依存し、マスク付き入力サブシーケンス上でモデルの予測を得ることができ、計算上のオーバーヘッドは無視できる。 この知見を用いてサブシーケンスレベルの属性を提供する2つの方法を開発した。 まず,連続する中間予測の差を捉えて属性を計算するシングルパスプログレッシブ推論(Single Pass-Progressive Inference,SP-PI)を提案する。 次に、Kernel SHAPとの接続を利用して、MP-PI(Multiple Pass-Progressive Inference)を開発する。 MP-PIは、複数のマスク付きバージョンの入力から中間予測を使用して、より高い品質の属性を計算する。 テキスト分類タスクを訓練した多種多様なモデルについて検討したところ,SP-PIとMP-PIは,従来の作業に比べて有意に優れた属性を提供することがわかった。

This paper proposes Progressive Inference - a framework to compute input attributions to explain the predictions of decoder-only sequence classification models. Our work is based on the insight that the classification head of a decoder-only Transformer model can be used to make intermediate predictions by evaluating them at different points in the input sequence. Due to the causal attention mechanism, these intermediate predictions only depend on the tokens seen before the inference point, allowing us to obtain the model's prediction on a masked input sub-sequence, with negligible computational overheads. We develop two methods to provide sub-sequence level attributions using this insight. First, we propose Single Pass-Progressive Inference (SP-PI), which computes attributions by taking the difference between consecutive intermediate predictions. Second, we exploit a connection with Kernel SHAP to develop Multi Pass-Progressive Inference (MP-PI). MP-PI uses intermediate predictions from multiple masked versions of the input to compute higher quality attributions. Our studies on a diverse set of models trained on text classification tasks show that SP-PI and MP-PI provide significantly better attributions compared to prior work.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-03
# ディープラーニングを用いたMRI再構成のための最適化アルゴリズムの概要

A Brief Overview of Optimization-Based Algorithms for MRI Reconstruction Using Deep Learning ( http://arxiv.org/abs/2406.02626v1 )

ライセンス: Link先を確認
Wanyu Bian, (参考訳) 磁気共鳴イメージング(MRI)はその例外的な軟組織コントラストと高い空間分解能で知られており、医用画像において重要なツールである。 ディープラーニングアルゴリズムの統合は、MRI再構成プロセスを最適化する大きな可能性を秘めている。 この領域における研究の活発化にもかかわらず、MRI再構成に適した最適化に基づくディープラーニングモデルに関する総合的な調査はまだ行われていない。 本稿では,MRI再構成に特化して設計されたディープラーニングにおいて,最新の最適化アルゴリズムを徹底的に検討することにより,このギャップに対処する。 本研究の目的は、MRIコミュニティ内でのさらなるイノベーションと応用を促進するために、これらの進歩を研究者に詳細に理解することである。

Magnetic resonance imaging (MRI) is renowned for its exceptional soft tissue contrast and high spatial resolution, making it a pivotal tool in medical imaging. The integration of deep learning algorithms offers significant potential for optimizing MRI reconstruction processes. Despite the growing body of research in this area, a comprehensive survey of optimization-based deep learning models tailored for MRI reconstruction has yet to be conducted. This review addresses this gap by presenting a thorough examination of the latest optimization-based algorithms in deep learning specifically designed for MRI reconstruction. The goal of this paper is to provide researchers with a detailed understanding of these advancements, facilitating further innovation and application within the MRI community.
翻訳日:2024-06-06 23:29:51 公開日:2024-06-03
# 平均アンサンブルを超える - サブシーズン予測のための気候モデルアンサンブルの活用

Beyond Ensemble Averages: Leveraging Climate Model Ensembles for Subseasonal Forecasting ( http://arxiv.org/abs/2211.15856v4 )

ライセンス: Link先を確認
Elena Orlova, Haokun Liu, Raphael Rossellini, Benjamin A. Cash, Rebecca Willett, (参考訳) 温暖化や降水などの重要な気候変数の季節下時間スケールにおける高品質な予測は、長年にわたって運用上の予測のギャップであった。 本研究では,機械学習モデル(ML)を時系列予測のための後処理ツールとして応用することを検討した。 大陸アメリカにおける月平均降水量と2週間前の2週間の気温を予測するために、タグ付き数値アンサンブル予測(すなわち、メンバーが初期化日が異なるアンサンブル)と観測データ(相対湿度、海面圧力、測地高度など)をMLの様々な手法に組み込む。 回帰、量子レグレッション、およびtercile分類タスクでは、線形モデル、ランダムフォレスト、畳み込みニューラルネットワーク、および積み重ねモデル(個々のMLモデルの予測に基づくマルチモデルアプローチ)を用いて検討する。 アンサンブルを単独で使用する従来のMLアプローチとは異なり、アンサンブル予測に埋め込まれた情報を活用して予測精度を向上させる。 さらに,計画や緩和に不可欠な極端な事象予測についても検討する。 アンサンブルメンバーを空間予測の集合として考慮し、空間情報を用いた様々なアプローチを探求する。 異なるアプローチ間のトレードオフは、モデルの積み重ねによって緩和される可能性がある。 提案手法は,気候予報やアンサンブル手段などの標準基準よりも優れている。 さらに,全アンサンブルを用いた場合とアンサンブル平均のみを用いた場合のトレードオフ,空間的変動を考慮した説明方法の相違について検討した。

Producing high-quality forecasts of key climate variables, such as temperature and precipitation, on subseasonal time scales has long been a gap in operational forecasting. This study explores an application of machine learning (ML) models as post-processing tools for subseasonal forecasting. Lagged numerical ensemble forecasts (i.e., an ensemble where the members have different initialization dates) and observational data, including relative humidity, pressure at sea level, and geopotential height, are incorporated into various ML methods to predict monthly average precipitation and two-meter temperature two weeks in advance for the continental United States. For regression, quantile regression, and tercile classification tasks, we consider using linear models, random forests, convolutional neural networks, and stacked models (a multi-model approach based on the prediction of the individual ML models). Unlike previous ML approaches that often use ensemble mean alone, we leverage information embedded in the ensemble forecasts to enhance prediction accuracy. Additionally, we investigate extreme event predictions that are crucial for planning and mitigation efforts. Considering ensemble members as a collection of spatial forecasts, we explore different approaches to using spatial information. Trade-offs between different approaches may be mitigated with model stacking. Our proposed models outperform standard baselines such as climatological forecasts and ensemble means. In addition, we investigate feature importance, trade-offs between using the full ensemble or only the ensemble mean, and different modes of accounting for spatial variability.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-03
# 情報理論を用いた目的関数の選択法

How to select an objective function using information theory ( http://arxiv.org/abs/2212.06566v4 )

ライセンス: Link先を確認
Timothy O. Hodson, Thomas M. Over, Tyler J. Smith, Lucy M. Marshall, (参考訳) 機械学習や科学計算では、モデル性能は客観的関数で測定される。 しかし、なぜ別の目的を選ぶのか? 情報理論は1つの答えを与える: モデルの情報を最大限にするために、最少ビットにおけるエラーを表す目的関数を選択する。 異なる目的を評価するために、これらを可能性関数に変換する。 可能性として、それらの相対的な大きさは、ある目的が他の目標よりもどれだけ強く、その関係のログはビット長の違いと不確実性の違いを表す。 言い換えれば、どちらの目的も不確実性を最小化する。 情報理論のパラダイムの下では、最終的な目的は、特定のユーティリティとは対照的に、情報の最大化(および不確実性の最小化)である。 このパラダイムは、気候変動の影響を理解するために使用される大規模な地球システムモデルのように、多くの用途を持ち、明確な実用性を持たないモデルに適している、と我々は主張する。

In machine learning or scientific computing, model performance is measured with an objective function. But why choose one objective over another? Information theory gives one answer: To maximize the information in the model, select the objective function that represents the error in the fewest bits. To evaluate different objectives, transform them into likelihood functions. As likelihoods, their relative magnitude represents how strongly we should prefer one objective versus another, and the log of that relation represents the difference in their bit-length, as well as the difference in their uncertainty. In other words, prefer whichever objective minimizes the uncertainty. Under the information-theoretic paradigm, the ultimate objective is to maximize information (and minimize uncertainty), as opposed to any specific utility. We argue that this paradigm is well-suited to models that have many uses and no definite utility, like the large Earth system models used to understand the effects of climate change.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-03
# OpenAPI Specification Extended Security Scheme:Broken Object Level Authorizationの頻度を下げる方法

OpenAPI Specification Extended Security Scheme: A method to reduce the prevalence of Broken Object Level Authorization ( http://arxiv.org/abs/2212.06606v3 )

ライセンス: Link先を確認
Rami Haddad, Rim El Malki, Daniel Cozma, (参考訳) APIは、サービス間通信を達成するための重要な技術になっています。 APIデプロイメントの増加により、セキュリティ標準の欠如に対処する緊急性が高まっている。 API Securityは、OpenAPI標準の標準化された認証がないため、不適切な認証は、既知の脆弱性や未知の脆弱性の可能性を開く。 本稿は,API Security: Broken Object Level Authorization (BOLA) における第1の脆弱性について検討し,この脆弱性の頻度を下げるための方法とツールを提案する。 BOLAはさまざまなAPIフレームワークに影響を与えており、私たちのスコープはOpenAPI Specification(OAS)に固定されています。 OASはAPIの記述と実装の標準であり、一般的なOAS実装はFastAPI、Connexion(Flask)などである。 これらの実装には、OASsのAPIプロパティに関する知識に関連する長所と短所がある。 Open API Specificationsのセキュリティプロパティは、オブジェクト認証に対処せず、そのようなオブジェクトプロパティを定義するための標準化されたアプローチを提供しない。 これにより、オブジェクトレベルのセキュリティは開発者の慈悲に委ねられ、意図しない攻撃ベクタ生成のリスクが増大する。 私たちの目標は、この空白に挑戦することです。 1) OAS ESS(OpenAPI Specification Extended Security Scheme)には、OAS(Design-based approach)内のオブジェクトに対する宣言型セキュリティ制御が含まれている。 2) APIサービス(Flask/FastAPI)にインポートして、オブジェクトレベルで認証チェックを実行することができる認証モジュール(開発ベースのアプローチ)。 APIサービスを構築する場合、開発者はAPI設計(仕様)またはそのコードから始めることができる。 どちらの場合も、BOLAの頻度を緩和し、削減するために一連のメカニズムが導入される。

APIs have become the prominent technology of choice for achieving inter-service communications. The growth of API deployments has driven the urgency in addressing its lack of security standards. API Security is a topic for concern given the absence of standardized authorization in the OpenAPI standard, improper authorization opens the possibility for known and unknown vulnerabilities, which in the past years have been exploited by malicious actors resulting in data loss. This paper examines the number one vulnerability in API Security: Broken Object Level Authorization(BOLA), and proposes methods and tools to reduce the prevalence of this vulnerability. BOLA affects various API frameworks, our scope is fixated on the OpenAPI Specification(OAS). The OAS is a standard for describing and implementing APIs; popular OAS Implementations are FastAPI, Connexion (Flask), and many more. These implementations carry the pros and cons that are associated with the OASs knowledge of API properties. The Open API Specifications security properties do not address object authorization and provide no standardized approach to define such object properties. This leaves object-level security at the mercy of developers, which presents an increased risk of unintentionally creating attack vectors. Our aim is to tackle this void by introducing 1) the OAS ESS (OpenAPI Specification Extended Security Scheme) which includes declarative security controls for objects in OAS (design-based approach), and 2) an authorization module that can be imported to API services (Flask/FastAPI) to enforce authorization checks at the object level (development-based approach). When building an API service, a developer can start with the API design (specification) or its code. In both cases, a set of mechanisms are introduced to help developers mitigate and reduce the prevalence of BOLA.
翻訳日:2024-06-06 16:52:40 公開日:2024-06-03
# テキスト・ツー・イメージ・ジェネレータを用いたインターベンショナルデータ拡張に向けて

Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators ( http://arxiv.org/abs/2212.11237v4 )

ライセンス: Link先を確認
Jianhao Yuan, Francesco Pinto, Adam Davies, Philip Torr, (参考訳) ニューラルイメージ分類器は、トレーニングデータと異なる環境条件からサンプリングされた入力に曝されると、深刻な性能劣化が起こることが知られている。 近年のテキスト・トゥ・イメージ・ジェネレーション(T2I)の進展を考えると、近年のT2Iジェネレータは、トレーニングデータを強化し、下流分類器の堅牢性を向上させるために、こうした環境要因に対する任意の介入をシミュレートするためにどのように使用できるのかという疑問がある。 我々は、単一ドメイン一般化(SDG)におけるベンチマークの多種多様なコレクションを実験し、介入プロンプト戦略、条件付け機構、ポストホックフィルタリングを含む、T2I生成の重要な次元にまたがるスプリアス特徴(RRSF)への依存を減らした。 我々の広範な実証実験により、Stable Diffusionのような現代のT2Iジェネレータは、それぞれの寸法がどう構成されているかに関わらず、従来の最先端のデータ拡張技術よりも優れた、強力な介入データ拡張メカニズムとして実際に使用できることが示された。

Neural image classifiers are known to undergo severe performance degradation when exposed to inputs that are sampled from environmental conditions that differ from their training data. Given the recent progress in Text-to-Image (T2I) generation, a natural question is how modern T2I generators can be used to simulate arbitrary interventions over such environmental factors in order to augment training data and improve the robustness of downstream classifiers. We experiment across a diverse collection of benchmarks in single domain generalization (SDG) and reducing reliance on spurious features (RRSF), ablating across key dimensions of T2I generation, including interventional prompting strategies, conditioning mechanisms, and post-hoc filtering. Our extensive empirical findings demonstrate that modern T2I generators like Stable Diffusion can indeed be used as a powerful interventional data augmentation mechanism, outperforming previously state-of-the-art data augmentation techniques regardless of how each dimension is configured.
翻訳日:2024-06-06 14:46:08 公開日:2024-06-03
# 精密健康におけるクラウドソーシングとヒューマン・イン・ザ・ループワークフローの展望

A Perspective on Crowdsourcing and Human-in-the-Loop Workflows in Precision Health ( http://arxiv.org/abs/2303.03578v2 )

ライセンス: Link先を確認
Peter Washington, (参考訳) 現代の機械学習アプローチは、様々な健康状態に対するパフォーマンス診断モデルにつながっている。 決定木やディープニューラルネットワークなど、いくつかの機械学習アプローチは、原則として、任意の関数を近似することができる。 しかし、入力データが不均一で高次元であり、出力クラスが非常に非線形である場合に、過度に適合する傾向が拡大されるため、このパワーはギフトと呪いの両方と見なすことができる。 この問題は、特に主観的基準で診断される行動や精神状態を予測する診断システムに悩まされる可能性がある。 この問題に対する新たな解決策はクラウドソーシング(クラウドソーシング)であり、クラウドワーカーは金銭的補償やゲーミフィケーション体験の見返りに複雑な行動特徴に注釈を付けるために支払われる。 これらのラベルは、直接または診断機械学習モデルへの入力としてラベルを使用することによって、診断を導出するために使用することができる。 この視点では、この新興分野における既存の研究について述べ、新たな研究分野であるクラウドパワー診断システムにおける現在進行中の課題と機会について論じる。 正しい考慮により、複雑でニュアンスのある健康状態の予測のために、人為的な機械学習ワークフローにクラウドソーシングを追加することで、スクリーニング、診断、最終的にケアへのアクセスを加速することができる。

Modern machine learning approaches have led to performant diagnostic models for a variety of health conditions. Several machine learning approaches, such as decision trees and deep neural networks, can, in principle, approximate any function. However, this power can be considered to be both a gift and a curse, as the propensity toward overfitting is magnified when the input data are heterogeneous and high dimensional and the output class is highly nonlinear. This issue can especially plague diagnostic systems that predict behavioral and psychiatric conditions that are diagnosed with subjective criteria. An emerging solution to this issue is crowdsourcing, where crowd workers are paid to annotate complex behavioral features in return for monetary compensation or a gamified experience. These labels can then be used to derive a diagnosis, either directly or by using the labels as inputs to a diagnostic machine learning model. This viewpoint describes existing work in this emerging field and discusses ongoing challenges and opportunities with crowd-powered diagnostic systems, a nascent field of study. With the correct considerations, the addition of crowdsourcing to human-in-the-loop machine learning workflows for the prediction of complex and nuanced health conditions can accelerate screening, diagnostics, and ultimately access to care.
翻訳日:2024-06-06 14:46:07 公開日:2024-06-03
# MAWSEO: 不正なオンラインプロモーションのための逆ウィキ検索

MAWSEO: Adversarial Wiki Search Poisoning for Illicit Online Promotion ( http://arxiv.org/abs/2304.11300v3 )

ライセンス: Link先を確認
Zilong Lin, Zhengyi Li, Xiaojing Liao, XiaoFeng Wang, Xiaozhong Liu, (参考訳) Wiki検索中毒(Wiki search poisoning for illicit promotion)は、ウィキ記事の編集と、関連するクエリのWiki検索結果による不正なビジネスの促進を目的としたサイバー犯罪である。 本稿では,Wiki上のステルスブラックハットSEOが自動化可能であることを示す研究を報告する。 我々の技術はMAWSEOと呼ばれ、現実のサイバー犯罪の目的を達成するために、ランクアップ、破壊的検出回避、トピック関連性、セマンティック一貫性、プロモーションコンテンツのユーザ認識(警告はしない)など、敵対的な修正を用いています。 評価とユーザスタディにより、MAWSEOは、最先端のWiki破壊検知器をバイパスし、アラームを発生させることなく、Wikiユーザーにプロモーションコンテンツを届けることのできる、敵の破壊的編集を効果的かつ効率的に生成できることが示されている。 さらに, ウィキエコシステムにおける攻撃に対するコヒーレンスに基づく検出および破壊行為検出の敵意訓練を含む潜在的防御について検討した。

As a prominent instance of vandalism edits, Wiki search poisoning for illicit promotion is a cybercrime in which the adversary aims at editing Wiki articles to promote illicit businesses through Wiki search results of relevant queries. In this paper, we report a study that, for the first time, shows that such stealthy blackhat SEO on Wiki can be automated. Our technique, called MAWSEO, employs adversarial revisions to achieve real-world cybercriminal objectives, including rank boosting, vandalism detection evasion, topic relevancy, semantic consistency, user awareness (but not alarming) of promotional content, etc. Our evaluation and user study demonstrate that MAWSEO is capable of effectively and efficiently generating adversarial vandalism edits, which can bypass state-of-the-art built-in Wiki vandalism detectors, and also get promotional content through to Wiki users without triggering their alarms. In addition, we investigated potential defense, including coherence based detection and adversarial training of vandalism detection, against our attack in the Wiki ecosystem.
翻訳日:2024-06-06 14:36:23 公開日:2024-06-03
# SciMON:新奇性に最適化された科学的な吸気装置

SciMON: Scientific Inspiration Machines Optimized for Novelty ( http://arxiv.org/abs/2305.14259v7 )

ライセンス: Link先を確認
Qingyun Wang, Doug Downey, Heng Ji, Tom Hope, (参考訳) 文献に基づく新たな科学的方向を生成するために,ニューラルランゲージモデルを探索し,拡張する。 文献に基づく仮説生成の研究は伝統的に、仮説の表現性を制限する二進的リンク予測に焦点を当ててきた。 この一連の作品は、新規性を最適化することにも焦点をあてていない。 我々は、入力背景コンテキスト(例えば、問題、実験的な設定、目標)としてモデルを使い、文学に根ざした自然言語のアイデアを出力する、新しい設定で劇的な出発点を取ります。 本稿では,過去の科学的論文から「吸入」を抽出し,先行論文と反復的に比較し,十分な新規性が達成されるまでアイデア提案を更新することによって,新規性のために明示的に最適化するモデリングフレームワークであるSciMONについて述べる。 包括的評価の結果,GPT-4は全体的に低い技術深度と新規性を持つアイデアを産み出す傾向にあることがわかった。 我々の研究は、科学文献から生まれた新しいアイデアを生み出す言語モデルの評価と開発に向けた第一歩である。

We explore and enhance the ability of neural language models to generate novel scientific directions grounded in literature. Work on literature-based hypothesis generation has traditionally focused on binary link prediction--severely limiting the expressivity of hypotheses. This line of work also does not focus on optimizing novelty. We take a dramatic departure with a novel setting in which models use as input background contexts (e.g., problems, experimental settings, goals), and output natural language ideas grounded in literature. We present SciMON, a modeling framework that uses retrieval of "inspirations" from past scientific papers, and explicitly optimizes for novelty by iteratively comparing to prior papers and updating idea suggestions until sufficient novelty is achieved. Comprehensive evaluations reveal that GPT-4 tends to generate ideas with overall low technical depth and novelty, while our methods partially mitigate this issue. Our work represents a first step toward evaluating and developing language models that generate new ideas derived from the scientific literature
翻訳日:2024-06-06 14:36:23 公開日:2024-06-03
# ロバストなデータ駆動型規範性最適化

Robust Data-driven Prescriptiveness Optimization ( http://arxiv.org/abs/2306.05937v2 )

ライセンス: Link先を確認
Mehran Poursoltani, Erick Delage, Angelos Georghiou, (参考訳) データの豊富さは、利用可能なサイド情報を活用してより予測的な決定を下そうとする、さまざまな最適化手法の出現につながっている。 応用の幅広い方法や文脈は、規範性の係数として知られる普遍的な単位のないパフォーマンス尺度の設計を動機付けている。 この係数は、参照情報と比較して文脈決定の質と、サイド情報の規範的パワーの両方を定量化するように設計された。 データ駆動型コンテキストにおいて前者を最大化するポリシーを特定するために,古典的経験的リスク最小化の目的に代えて規範性の係数が代わる分布的ロバストな文脈最適化モデルを提案する。 分布のあいまいさ集合が適切なネスト形式と多面体構造を持つ場合、一連の線形プログラムを解くことに依存する、このモデルを解くための分岐アルゴリズムを提案する。 文脈的最短経路問題について検討し、アウト・オブ・サンプルデータセットが様々な分布シフトを受ける場合の代替手法に対する結果のロバスト性を評価する。

The abundance of data has led to the emergence of a variety of optimization techniques that attempt to leverage available side information to provide more anticipative decisions. The wide range of methods and contexts of application have motivated the design of a universal unitless measure of performance known as the coefficient of prescriptiveness. This coefficient was designed to quantify both the quality of contextual decisions compared to a reference one and the prescriptive power of side information. To identify policies that maximize the former in a data-driven context, this paper introduces a distributionally robust contextual optimization model where the coefficient of prescriptiveness substitutes for the classical empirical risk minimization objective. We present a bisection algorithm to solve this model, which relies on solving a series of linear programs when the distributional ambiguity set has an appropriate nested form and polyhedral structure. Studying a contextual shortest path problem, we evaluate the robustness of the resulting policies against alternative methods when the out-of-sample dataset is subject to varying amounts of distribution shift.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-03
# CompanyKG: 企業類似性定量化のための大規模不均一グラフ

CompanyKG: A Large-Scale Heterogeneous Graph for Company Similarity Quantification ( http://arxiv.org/abs/2306.10649v3 )

ライセンス: Link先を確認
Lele Cao, Vilhelm von Ehrenheim, Mark Granroth-Wilding, Richard Anselmo Stahl, Andrew McCornack, Armin Catovic, Dhiana Deva Cavacanti Rocha, (参考訳) 投資業界では、市場マッピング、競合分析、合併・買収など、さまざまな目的のために、きめ細かい会社の類似度定量化を実施することが不可欠であることが多い。 我々は,企業の特徴や関係を多様に表現し,学習するための知識グラフである企業KGを提案し,公開する。 具体的には、117万の企業が企業記述の埋め込みに富んだノードとして表現され、15の異なる企業間関係によって51.06百万のエッジが生成される。 企業類似度定量化のための手法を総合的に評価するために, 類似度予測, 競合検索, 類似度ランキングという, 注釈付きテストセットを用いた3つの評価タスクを考案し, コンパイルした。 本稿では,11個の再現可能な予測手法について,ノードのみ,エッジのみ,ノード+エッジの3つのグループに分類したベンチマーク結果を示す。 私たちの知る限りでは、企業間類似性を定量化するのに適した、実世界の投資プラットフォームから派生した、最初の大規模な異種グラフデータセットである。

In the investment industry, it is often essential to carry out fine-grained company similarity quantification for a range of purposes, including market mapping, competitor analysis, and mergers and acquisitions. We propose and publish a knowledge graph, named CompanyKG, to represent and learn diverse company features and relations. Specifically, 1.17 million companies are represented as nodes enriched with company description embeddings; and 15 different inter-company relations result in 51.06 million weighted edges. To enable a comprehensive assessment of methods for company similarity quantification, we have devised and compiled three evaluation tasks with annotated test sets: similarity prediction, competitor retrieval and similarity ranking. We present extensive benchmarking results for 11 reproducible predictive methods categorized into three groups: node-only, edge-only, and node+edge. To the best of our knowledge, CompanyKG is the first large-scale heterogeneous graph dataset originating from a real-world investment platform, tailored for quantifying inter-company similarity.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-03
# 分類における部分的バイアスの補正

Correcting Underrepresentation and Intersectional Bias for Classification ( http://arxiv.org/abs/2306.11112v4 )

ライセンス: Link先を確認
Emily Diana, Alexander Williams Tolbert, (参考訳) 偏見バイアスによって劣化したデータから学習することの問題点を考察し, 正の例を, 一定数のセンシティブなグループに対して異なる未知のレートでフィルタする。 交叉群のメンバーシップが各交叉率を計算不能にするような設定であっても,少数の偏りのないデータを用いてグループ単位のドロップアウト率を効率的に推定できることが示される。 これらの推定値を用いて、偏りのあるサンプル上で経験的誤差のみを観測しても、真の分布上の仮説の損失を近似できる再重み付け方式を構築する。 そこで本研究では,この学習過程と再加重過程を包括するアルゴリズムを提案する。 最後に,表現不足と交叉バイアス設定に対するPAC学習可能性の概念を定義し,このアルゴリズムが有限VC次元のモデルクラスに対して効率的な学習を可能にすることを示す。

We consider the problem of learning from data corrupted by underrepresentation bias, where positive examples are filtered from the data at different, unknown rates for a fixed number of sensitive groups. We show that with a small amount of unbiased data, we can efficiently estimate the group-wise drop-out rates, even in settings where intersectional group membership makes learning each intersectional rate computationally infeasible. Using these estimates, we construct a reweighting scheme that allows us to approximate the loss of any hypothesis on the true distribution, even if we only observe the empirical error on a biased sample. From this, we present an algorithm encapsulating this learning and reweighting process along with a thorough empirical investigation. Finally, we define a bespoke notion of PAC learnability for the underrepresentation and intersectional bias setting and show that our algorithm permits efficient learning for model classes of finite VC dimension.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-03
# 2層ReLUニューラルネットワークによる確率的マルチタスク表現学習

Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks ( http://arxiv.org/abs/2307.06887v4 )

ライセンス: Link先を確認
Liam Collins, Hamed Hassani, Mahdi Soltanolkotabi, Aryan Mokhtari, Sanjay Shakkottai, (参考訳) ますます人気のある機械学習パラダイムは、多くのタスクでニューラルネットワーク(NN)をオフラインで事前トレーニングし、ダウンストリームタスクに適応させることである。 このアプローチは様々な文脈において強力なダウンストリーム性能をもたらし、マルチタスク事前学習が効果的な特徴学習につながることを示す。 最近のいくつかの理論的研究は、浅いNNはいずれかが有意義な特徴を学習していることを示している。 i) 単調なタスクで訓練されるか (ii)これらは線型であり、非線型NNが複数のタスクで訓練された場合についてはほとんど知られていない。 本研究では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。 私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。 この結果から,2層 ReLU NN 上の単純な勾配に基づくマルチタスク学習アルゴリズムにより,データを$d\gg r$-dimensional 入力空間内の$r$-dimensional 部分空間に投影した値に依存したラベル付きバイナリ分類タスクが,このプロジェクションを復元し,サンプルとニューロンの複雑さを$d$と独立にダウンストリームタスクに一般化できることが示唆された。 対照的に、1つのタスクの引き分けよりも高い確率で、この1つのタスクのトレーニングは、すべての$r$グランドトルース機能を学ぶことを保証できない。

An increasingly popular machine learning paradigm is to pretrain a neural network (NN) on many tasks offline, then adapt it to downstream tasks, often by re-training only the last linear layer of the network. This approach yields strong downstream performance in a variety of contexts, demonstrating that multitask pretraining leads to effective feature learning. Although several recent theoretical studies have shown that shallow NNs learn meaningful features when either (i) they are trained on a {\em single} task or (ii) they are {\em linear}, very little is known about the closer-to-practice case of {\em nonlinear} NNs trained on {\em multiple} tasks. In this work, we present the first results proving that feature learning occurs during training with a nonlinear model on multiple tasks. Our key insight is that multi-task pretraining induces a pseudo-contrastive loss that favors representations that align points that typically have the same label across tasks. Using this observation, we show that when the tasks are binary classification tasks with labels depending on the projection of the data onto an $r$-dimensional subspace within the $d\gg r$-dimensional input space, a simple gradient-based multitask learning algorithm on a two-layer ReLU NN recovers this projection, allowing for generalization to downstream tasks with sample and neuron complexity independent of $d$. In contrast, we show that with high probability over the draw of a single task, training on this single task cannot guarantee to learn all $r$ ground-truth features.
翻訳日:2024-06-06 14:26:34 公開日:2024-06-03
# シフト雑音をもつ分布ロバスト変動量子アルゴリズム

Distributionally Robust Variational Quantum Algorithms with Shifted Noise ( http://arxiv.org/abs/2308.14935v2 )

ライセンス: Link先を確認
Zichang He, Bo Peng, Yuri Alexeev, Zheng Zhang, (参考訳) 短期的な量子優位性を示す可能性を考えると、変分量子アルゴリズム(VQA)は広く研究されている。 VQAパラメータ最適化のための多くの技術が開発されているが、依然として大きな課題である。 現実的な問題は、量子ノイズは非常に不安定であり、したがってリアルタイムに変化する可能性が高いことである。 これは、最適化されたVQAアンザッツが異なるノイズ環境下では効果的に動作しないため、重要な問題となる。 本稿では,VQAパラメータを未知のシフトノイズに対して頑健に最適化する方法を初めて検討する。 ノイズレベルを未知の確率密度関数を持つ確率変数(PDF)としてモデル化し、不確実性セット内でPDFがシフトする可能性があると仮定する。 この仮定は、シフトノイズの下で有効性を維持するパラメータを見つけることを目的として、分布的に堅牢な最適化問題を定式化することを促す。 我々は,分布的に頑健なベイズ最適化問題を定式化するために利用する。 このことは、量子近似最適化アルゴリズム(QAOA)とハードウェア効率のアンサッツを持つ変分量子固有解器(VQE)の両方で数値的な証拠を提供し、シフトノイズ下でより堅牢に実行されるパラメータを特定できることを示唆している。 本研究は,パラメータ最適化の観点からのシフトノイズの影響を受け,VQAの信頼性向上に向けた第一歩とみなす。

Given their potential to demonstrate near-term quantum advantage, variational quantum algorithms (VQAs) have been extensively studied. Although numerous techniques have been developed for VQA parameter optimization, it remains a significant challenge. A practical issue is that quantum noise is highly unstable and thus it is likely to shift in real time. This presents a critical problem as an optimized VQA ansatz may not perform effectively under a different noise environment. For the first time, we explore how to optimize VQA parameters to be robust against unknown shifted noise. We model the noise level as a random variable with an unknown probability density function (PDF), and we assume that the PDF may shift within an uncertainty set. This assumption guides us to formulate a distributionally robust optimization problem, with the goal of finding parameters that maintain effectiveness under shifted noise. We utilize a distributionally robust Bayesian optimization solver for our proposed formulation. This provides numerical evidence in both the Quantum Approximate Optimization Algorithm (QAOA) and the Variational Quantum Eigensolver (VQE) with hardware-efficient ansatz, indicating that we can identify parameters that perform more robustly under shifted noise. We regard this work as the first step towards improving the reliability of VQAs influenced by shifted noise from the parameter optimization perspective.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-03
# 因果的基礎モデルに向けて:因果的推論と注意の二重性について

Towards Causal Foundation Model: on Duality between Causal Inference and Attention ( http://arxiv.org/abs/2310.00809v3 )

ライセンス: Link先を確認
Jiaqi Zhang, Joel Jennings, Agrin Hilmkil, Nick Pawlowski, Cheng Zhang, Chao Ma, (参考訳) ファンデーションモデルは、機械学習の風景に変化をもたらし、多様なタスクにまたがる人間レベルのインテリジェンスの火花を誇示している。 しかし、因果推論のような複雑なタスクにおいてギャップは持続し、主に複雑な推論ステップと高い数値的精度の要求に関連する課題が原因である。 本研究では,治療効果推定のための因果認識基盤モデルの構築に向けて第一歩を踏み出す。 提案手法は,複数のラベルのないデータセットを用いて自己教師付き因果学習を行い,その結果,未知のタスクに対するゼロショット因果推論を新しいデータで実現する,Causal Inference with Attention (CInA) と呼ばれる,理論的に正当化された手法を提案する。 これは、最適共変量バランスと自己アテンションの原始的双対関係を実証し、訓練されたトランスフォーマー型アーキテクチャの最終層を通したゼロショット因果推論を容易にする理論結果に基づいている。 我々は、CInAが、従来のデータセットごとの手法にマッチしたり、超えたりしながら、分散データセットや様々な実世界のデータセットに効果的に一般化できることを実証的に実証した。 これらの結果は,本手法が因果基盤モデルの発展の足掛かりとなる可能性を示唆する証拠となる。

Foundation models have brought changes to the landscape of machine learning, demonstrating sparks of human-level intelligence across a diverse array of tasks. However, a gap persists in complex tasks such as causal inference, primarily due to challenges associated with intricate reasoning steps and high numerical precision requirements. In this work, we take a first step towards building causally-aware foundation models for treatment effect estimations. We propose a novel, theoretically justified method called Causal Inference with Attention (CInA), which utilizes multiple unlabeled datasets to perform self-supervised causal learning, and subsequently enables zero-shot causal inference on unseen tasks with new data. This is based on our theoretical results that demonstrate the primal-dual connection between optimal covariate balancing and self-attention, facilitating zero-shot causal inference through the final layer of a trained transformer-type architecture. We demonstrate empirically that CInA effectively generalizes to out-of-distribution datasets and various real-world datasets, matching or even surpassing traditional per-dataset methodologies. These results provide compelling evidence that our method has the potential to serve as a stepping stone for the development of causal foundation models.
翻訳日:2024-06-06 14:16:48 公開日:2024-06-03
# 不確かさを定量的に予測するオンラインアルゴリズム

Online Algorithms with Uncertainty-Quantified Predictions ( http://arxiv.org/abs/2310.11558v2 )

ライセンス: Link先を確認
Bo Sun, Jerry Huang, Nicolas Christianson, Mohammad Hajiesmaili, Adam Wierman, Raouf Boutaba, (参考訳) 予測を伴うアルゴリズムの急成長する分野は、オンラインアルゴリズムのパフォーマンスを改善するために、潜在的に不完全な機械学習予測を使用することの問題を研究する。 このフレームワークの既存のアルゴリズムのほとんどすべてが予測品質を前提としていないが、機械学習モデルに不確実な定量化(UQ)を提供する方法が近年開発され、意思決定時の予測品質に関する追加情報を可能にしている。 本研究では,オンラインアルゴリズムの設計における不確実性定量化予測を最適に活用する問題について検討する。 特に,スキーレンタルとオンライン検索という2つの古典的なオンライン問題について検討し,意思決定者がUQを付加した予測を行い,基底真理が特定の範囲の値に収まる可能性について述べる。 我々は、UQ予測を完全に活用するために、アルゴリズム設計への非自明な修正が必要であることを実証する。 さらに、より一般的なUQの活用方法を考察し、マルチインスタンス環境での意思決定にUQを活用することを学ぶオンライン学習フレームワークを提案する。

The burgeoning field of algorithms with predictions studies the problem of using possibly imperfect machine learning predictions to improve online algorithm performance. While nearly all existing algorithms in this framework make no assumptions on prediction quality, a number of methods providing uncertainty quantification (UQ) on machine learning models have been developed in recent years, which could enable additional information about prediction quality at decision time. In this work, we investigate the problem of optimally utilizing uncertainty-quantified predictions in the design of online algorithms. In particular, we study two classic online problems, ski rental and online search, where the decision-maker is provided predictions augmented with UQ describing the likelihood of the ground truth falling within a particular range of values. We demonstrate that non-trivial modifications to algorithm design are needed to fully leverage the UQ predictions. Moreover, we consider how to utilize more general forms of UQ, proposing an online learning framework that learns to exploit UQ to make decisions in multi-instance settings.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-03
# ParisLuco3D:LiDAR知覚の領域一般化のための高品質なターゲットデータセット

ParisLuco3D: A high-quality target dataset for domain generalization of LiDAR perception ( http://arxiv.org/abs/2310.16542v3 )

ライセンス: Link先を確認
Jules Sanchez, Louis Soum-Fontez, Jean-Emmanuel Deschaud, Francois Goulette, (参考訳) LiDARは、シーンに関する正確な幾何学的情報を収集することによって、自律運転に不可欠なセンサーである。 % 利用可能なデータの量が増えるにつれて,この情報を認識するために公開することが興味深い。 様々なLiDAR認識タスクの性能が向上するにつれて、これらの最適化されたモデルを実環境下でテストするために、新しい環境やセンサーへの一般化が出現している。 本稿では,クロスドメイン評価のための新しいデータセットParisLuco3Dを提案する。 データセットに加えて、LiDARセマンティックセグメンテーション、LiDARオブジェクト検出、LiDARトラッキングのためのオンラインベンチマークも提供され、メソッド間の公正な比較が保証される。 ParisLuco3Dデータセット、評価スクリプト、ベンチマークへのリンクは以下のウェブサイトで見ることができる。

LiDAR is an essential sensor for autonomous driving by collecting precise geometric information regarding a scene. %Exploiting this information for perception is interesting as the amount of available data increases. As the performance of various LiDAR perception tasks has improved, generalizations to new environments and sensors has emerged to test these optimized models in real-world conditions. This paper provides a novel dataset, ParisLuco3D, specifically designed for cross-domain evaluation to make it easier to evaluate the performance utilizing various source datasets. Alongside the dataset, online benchmarks for LiDAR semantic segmentation, LiDAR object detection, and LiDAR tracking are provided to ensure a fair comparison across methods. The ParisLuco3D dataset, evaluation scripts, and links to benchmarks can be found at the following website:https://npm3d.fr/parisluco3d
翻訳日:2024-06-06 14:07:02 公開日:2024-06-03
# 言語モデルからの制御された復号化

Controlled Decoding from Language Models ( http://arxiv.org/abs/2310.17022v3 )

ライセンス: Link先を確認
Sidharth Mudgal, Jong Lee, Harish Ganapathy, YaGuang Li, Tao Wang, Yanping Huang, Zhifeng Chen, Heng-Tze Cheng, Michael Collins, Trevor Strohman, Jilin Chen, Alex Beutel, Ahmad Beirami, (参考訳) KL正規化強化学習(KL-regularized reinforcement learning、RL)は、高い報奨結果に対する言語モデル応答を制御するための一般的なアライメントフレームワークである。 トークン単位のRLを目的とし、制御復号(CD)と呼ばれるモジュラーソルバを提案する。 CDは個別のプレフィックススコアリングモジュールを通じて制御を行い、報酬の値関数を学習するように訓練される。 プレフィックススコアラは、推論時に凍結ベースモデルから生成を制御するために使用され、RL目標に対する溶液から確実にサンプリングされる。 我々は,CDが人気のあるベンチマークの制御機構として有効であることを実証的に実証した。 また,複数報酬に対するプレフィックススコアラを推論時に組み合わせることで,追加のトレーニングを伴わずに多目的RL問題を効果的に解決できることを示す。 また,CD転送を未確認のベースモデルに適用することで,さらなるチューニングを行なわないメリットが示された。 最後に,CDを推論時にブロックワイズで復号化することで,一般的なK戦略と強化学習によるトークンワイズ制御のギャップを埋めることができることを示す。 これにより、CDは言語モデルのアライメントに有望なアプローチとなる。

KL-regularized reinforcement learning (RL) is a popular alignment framework to control the language model responses towards high reward outcomes. We pose a tokenwise RL objective and propose a modular solver for it, called controlled decoding (CD). CD exerts control through a separate prefix scorer module, which is trained to learn a value function for the reward. The prefix scorer is used at inference time to control the generation from a frozen base model, provably sampling from a solution to the RL objective. We empirically demonstrate that CD is effective as a control mechanism on popular benchmarks. We also show that prefix scorers for multiple rewards may be combined at inference time, effectively solving a multi-objective RL problem with no additional training. We show that the benefits of applying CD transfer to an unseen base model with no further tuning as well. Finally, we show that CD can be applied in a blockwise decoding fashion at inference-time, essentially bridging the gap between the popular best-of-K strategy and tokenwise control through reinforcement learning. This makes CD a promising approach for alignment of language models.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-03
# 無線通信におけるデータ再構成強化のための条件付き拡散確率モデル

Conditional Denoising Diffusion Probabilistic Models for Data Reconstruction Enhancement in Wireless Communications ( http://arxiv.org/abs/2310.19460v2 )

ライセンス: Link先を確認
Mehdi Letafati, Samad Ali, Matti Latva-aho, (参考訳) 本稿では,無線チャネル上でのデータ伝送と再構成を強化するために,条件付き拡散確率モデル(DDPM)を提案する。 DDPMの基盤となるメカニズムは、いわゆる“デノイング”ステップでデータ生成プロセスを分解することだ。 これに触発された鍵となる考え方は、情報信号の「ノイズからクリーン」変換を学ぶ際に、拡散モデルの生成的先行を活用して、データ再構成を強化することである。 提案手法は,マルチメディア通信において,情報コンテンツに関する事前知識が利用できる通信シナリオに有用である。 したがって、情報レートを下げる複雑なチャネル符号を使う代わりに、信頼性の高いデータ再構成、特に信号対雑音比(SNR)の低い信号対雑音比(SNR)やハードウェア障害通信による極端なチャネル条件下で拡散先を利用することができる。 提案したDDPM支援受信機は、MNISTデータセットを用いた無線画像伝送のシナリオに合わせて調整される。 数値計算の結果は,従来のデジタル通信やディープニューラルネットワーク(DNN)ベースのベンチマークと比較して,提案手法の再構築性能を強調した。 また, 誤り訂正のための情報レートを低下させることなく, 低いSNR体制下で10dB以上の改善が達成できることが示唆された。

In this paper, conditional denoising diffusion probabilistic models (DDPMs) are proposed to enhance the data transmission and reconstruction over wireless channels. The underlying mechanism of DDPM is to decompose the data generation process over the so-called "denoising" steps. Inspired by this, the key idea is to leverage the generative prior of diffusion models in learning a "noisy-to-clean" transformation of the information signal to help enhance data reconstruction. The proposed scheme could be beneficial for communication scenarios in which a prior knowledge of the information content is available, e.g., in multimedia transmission. Hence, instead of employing complicated channel codes that reduce the information rate, one can exploit diffusion priors for reliable data reconstruction, especially under extreme channel conditions due to low signal-to-noise ratio (SNR), or hardware-impaired communications. The proposed DDPM-assisted receiver is tailored for the scenario of wireless image transmission using MNIST dataset. Our numerical results highlight the reconstruction performance of our scheme compared to the conventional digital communication, as well as the deep neural network (DNN)-based benchmark. It is also shown that more than 10 dB improvement in the reconstruction could be achieved in low SNR regimes, without the need to reduce the information rate for error correction.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-03
# VQPy: 現代的なビデオ分析のためのオブジェクト指向アプローチ

VQPy: An Object-Oriented Approach to Modern Video Analytics ( http://arxiv.org/abs/2311.01623v4 )

ライセンス: Link先を確認
Shan Yu, Zhenting Zhu, Yu Chen, Hanchen Xu, Pengzhan Zhao, Yang Wang, Arthi Padmanabhan, Hugo Latapie, Harry Xu, (参考訳) ビデオ分析は現代のシステムやサービスで広く使われている。 ビデオ分析の最前線は、ユーザが特定の関心のあるオブジェクトを見つけるために開発するビデオクエリである。 ビデオ分析の中心である映像オブジェクト(人間、動物、車など)は、従来のオブジェクト指向言語でモデル化されたオブジェクトと精神的に類似しているという知見に基づいて、ビデオ分析のためのオブジェクト指向アプローチを開発することを提案する。 VQPyという名前のこのアプローチは、フロントエンド$\unicode{x2015}$a Python variantと、ビデオオブジェクトとそのインタラクションを簡単に表現できるコンストラクトと、ビデオオブジェクトに基づいてパイプラインを自動構築および最適化する拡張可能なバックエンドで構成されている。 私たちは、DeepVisionフレームワークの一部としてCiscoで製品化されているVQPyを実装、オープンソース化しました。

Video analytics is widely used in contemporary systems and services. At the forefront of video analytics are video queries that users develop to find objects of particular interest. Building upon the insight that video objects (e.g., human, animals, cars, etc.), the center of video analytics, are similar in spirit to objects modeled by traditional object-oriented languages, we propose to develop an object-oriented approach to video analytics. This approach, named VQPy, consists of a frontend$\unicode{x2015}$a Python variant with constructs that make it easy for users to express video objects and their interactions$\unicode{x2015}$as well as an extensible backend that can automatically construct and optimize pipelines based on video objects. We have implemented and open-sourced VQPy, which has been productized in Cisco as part of its DeepVision framework.
翻訳日:2024-06-06 14:07:02 公開日:2024-06-03
# genEVA:LLMを用いた分岐物語の生成と可視化

GENEVA: GENErating and Visualizing branching narratives using LLMs ( http://arxiv.org/abs/2311.09213v2 )

ライセンス: Link先を確認
Jorge Leandro, Sudha Rao, Michael Xu, Weijia Xu, Nebosja Jojic, Chris Brockett, Bill Dolan, (参考訳) 対話型ロールプレイングゲーム(RPG)は強力なストーリーテリングを必要とする。 これらの物語は、大きな創造的なチームを書くのに何年もかかるかもしれない。 本研究では,このプロセスを支援するため,大規模生成テキストモデルの可能性を示す。 プロトタイプツールである \textbf{GENEVA} は、デザイナによって提供される高レベルな物語記述と制約にマッチするストーリーラインの分岐と再収束を伴うリッチな物語グラフを生成する。 大規模言語モデル(LLM)であるGPT-4は、分岐した物語を生成し、2段階のプロセスでグラフ形式でレンダリングするために使用される。 本稿では,異なる文脈制約下での4つの有名な物語の分岐物語生成におけるgenEVAの利用について述べる。 このツールはゲーム開発、シミュレーション、その他のゲームライクな特性を持つアプリケーションを支援する可能性がある。

Dialogue-based Role Playing Games (RPGs) require powerful storytelling. The narratives of these may take years to write and typically involve a large creative team. In this work, we demonstrate the potential of large generative text models to assist this process. \textbf{GENEVA}, a prototype tool, generates a rich narrative graph with branching and reconverging storylines that match a high-level narrative description and constraints provided by the designer. A large language model (LLM), GPT-4, is used to generate the branching narrative and to render it in a graph format in a two-step process. We illustrate the use of GENEVA in generating new branching narratives for four well-known stories under different contextual constraints. This tool has the potential to assist in game development, simulations, and other applications with game-like properties.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-03
# 材料生成のためのスケーラブル拡散

Scalable Diffusion for Materials Generation ( http://arxiv.org/abs/2311.09235v2 )

ライセンス: Link先を確認
Sherry Yang, KwangHwan Cho, Amil Merchant, Pieter Abbeel, Dale Schuurmans, Igor Mordatch, Ekin Dogus Cubuk, (参考訳) インターネット規模のデータに基づいてトレーニングされた生成モデルは、新規で現実的なテキスト、画像、ビデオを生成することができる。 次の自然な疑問は、新しい安定物質を生成するなど、これらのモデルが科学を前進させることができるかどうかである。 伝統的に、明示的な構造を持つモデル(例えばグラフ)は、科学データ(例えば結晶中の原子や結合)の構造関係をモデル化するのに使われてきたが、大規模で複雑なシステムにスケールすることは困難である。 材料生成におけるもうひとつの課題は、標準生成モデリングメトリクスと下流アプリケーションとのミスマッチである。 例えば、復元誤差のような一般的な指標は、安定した材料を発見するという下流の目標とよく相関しない。 本研究では,任意の結晶構造を表現可能な統一結晶表現(UniMat)を開発し,これらのUniMat表現上で拡散確率モデルを訓練することによって,拡張性に挑戦する。 実験の結果,UniMatは明示的な構造モデリングの欠如にもかかわらず,より大規模で複雑な化学系から高忠実度結晶構造を生成できることが示唆された。 新規な安定材料発見などの下流アプリケーションへの材料生成の質向上を図るため,密度関数理論(DFT)の分解エネルギーを通した凸殻に対するコンベックス生成エネルギーと安定性を含む材料生成モデルの評価指標を提案する。 最後に、UniMatを用いた条件付き生成は、数百万の結晶構造を持つ既存の結晶データセットにスケール可能であることを示し、新しい安定物質を発見する上で、ランダムな構造探索(構造発見の現在の先導方法)よりも優れていることを示す。

Generative models trained on internet-scale data are capable of generating novel and realistic texts, images, and videos. A natural next question is whether these models can advance science, for example by generating novel stable materials. Traditionally, models with explicit structures (e.g., graphs) have been used in modeling structural relationships in scientific data (e.g., atoms and bonds in crystals), but generating structures can be difficult to scale to large and complex systems. Another challenge in generating materials is the mismatch between standard generative modeling metrics and downstream applications. For instance, common metrics such as the reconstruction error do not correlate well with the downstream goal of discovering stable materials. In this work, we tackle the scalability challenge by developing a unified crystal representation that can represent any crystal structure (UniMat), followed by training a diffusion probabilistic model on these UniMat representations. Our empirical results suggest that despite the lack of explicit structure modeling, UniMat can generate high fidelity crystal structures from larger and more complex chemical systems, outperforming previous graph-based approaches under various generative modeling metrics. To better connect the generation quality of materials to downstream applications, such as discovering novel stable materials, we propose additional metrics for evaluating generative models of materials, including per-composition formation energy and stability with respect to convex hulls through decomposition energy from Density Function Theory (DFT). Lastly, we show that conditional generation with UniMat can scale to previously established crystal datasets with up to millions of crystals structures, outperforming random structure search (the current leading method for structure discovery) in discovering new stable materials.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-03
# 量子開始スコア

Quantum Inception Score ( http://arxiv.org/abs/2311.12163v3 )

ライセンス: Link先を確認
Akira Sone, Akira Tanji, Naoki Yamamoto, (参考訳) 機械学習における古典的生成モデルの成功に触発されて、量子バージョンの熱心な探索が最近始まった。 この旅に出発するためには、量子生成モデルの質を評価するための関連する指標を開発することが重要である。 本稿では,cISの自然な拡張として,量子発生器の量子開始スコア(qIS)を提案する。 重要な点として、QISは、与えられたデータセットを分類する量子チャネルのホレボ情報に品質を関連付ける。 この文脈では、qISのいくつかの特性を示す。 第一に、qISは対応するcISよりも大きいか等しいかであり、システム出力の投影測定によって定義される。 第2に、QISとcISの違いは、非対称性の資源理論によって特徴づけられるように、量子コヒーレンスの存在から生じる。 第3に、絡み合ったジェネレータのセットを用意した場合には、QISのさらなる拡張につながる分類プロセスが存在する。 第4に、量子ゆらぎ定理を利用して、QISの物理的極限を特徴づける。 最後に、量子多体物理学における位相分類問題に対して、量子畳み込みニューラルネットワークを量子分類器として、量子生成モデルとして1次元スピンチェーンモデルの品質を評価するためにqISを適用した。

Motivated by the great success of classical generative models in machine learning, enthusiastic exploration of their quantum version has recently started. To depart on this journey, it is important to develop a relevant metric to evaluate the quality of quantum generative models; in the classical case, one such example is the (classical) inception score (cIS). In this paper, as a natural extension of cIS, we propose the quantum inception score (qIS) for quantum generators. Importantly, qIS relates the quality to the Holevo information of the quantum channel that classifies a given dataset. In this context, we show several properties of qIS. First, qIS is greater than or equal to the corresponding cIS, which is defined through projection measurements on the system output. Second, the difference between qIS and cIS arises from the presence of quantum coherence, as characterized by the resource theory of asymmetry. Third, when a set of entangled generators is prepared, there exists a classifying process leading to the further enhancement of qIS. Fourth, we harness the quantum fluctuation theorem to characterize the physical limitation of qIS. Finally, we apply qIS to assess the quality of the one-dimensional spin chain model as a quantum generative model, with the quantum convolutional neural network as a quantum classifier, for the phase classification problem in the quantum many-body physics.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-03
# OASIS:フェデレートラーニングにおけるアクティブリコンストラクションアタックのオフセット

OASIS: Offsetting Active Reconstruction Attacks in Federated Learning ( http://arxiv.org/abs/2311.13739v2 )

ライセンス: Link先を確認
Tre' R. Jeter, Truc Nguyen, Raed Alharbi, My T. Thai, (参考訳) フェデレートラーニング(FL)は、モデルのトレーニング効率を高めながら、ユーザのプライバシを保護する可能性について、大きな注目を集めている。 そのため、FLは医療から工業工学まで、特に機密情報やプライバシー法によってデータが簡単に交換できない分野において、さまざまな領域で利用されてきた。 しかし、最近の研究では、不適切なサーバによって実行されるアクティブリコンストラクションアタックによって、FLプロトコルが容易に損なわれることが示されている。 これらの攻撃には、グローバルモデルパラメータの悪意ある修正が含まれており、サーバは、勾配更新を反転させることで、ユーザのプライベートデータの冗長コピーを取得することができる。 このタイプの攻撃に対処することは、強力な脅威モデルのために重要な課題である。 本稿では, モデル性能を維持しつつ, アクティブリコンストラクション攻撃を効果的に防止する, 画像強化に基づく防御機構, OASISを提案する。 まず,これらの攻撃を可能にする勾配反転の原理を明らかにし,攻撃戦略によらず防御が堅牢である主条件を理論的に同定する。 次に,攻撃原理を損なう可能性があることを示す画像拡張による防御を構築した。 総合的な評価は、そのソリューションとしての可能性を強調する防衛機構の有効性を示すものである。

Federated Learning (FL) has garnered significant attention for its potential to protect user privacy while enhancing model training efficiency. For that reason, FL has found its use in various domains, from healthcare to industrial engineering, especially where data cannot be easily exchanged due to sensitive information or privacy laws. However, recent research has demonstrated that FL protocols can be easily compromised by active reconstruction attacks executed by dishonest servers. These attacks involve the malicious modification of global model parameters, allowing the server to obtain a verbatim copy of users' private data by inverting their gradient updates. Tackling this class of attack remains a crucial challenge due to the strong threat model. In this paper, we propose a defense mechanism, namely OASIS, based on image augmentation that effectively counteracts active reconstruction attacks while preserving model performance. We first uncover the core principle of gradient inversion that enables these attacks and theoretically identify the main conditions by which the defense can be robust regardless of the attack strategies. We then construct our defense with image augmentation showing that it can undermine the attack principle. Comprehensive evaluations demonstrate the efficacy of the defense mechanism highlighting its feasibility as a solution.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-03
# 量子コンピューティングアプローチによる高スピンモデルの2次元コヒーレントスペクトル

Two-dimensional coherent spectrum of high-spin models via a quantum computing approach ( http://arxiv.org/abs/2311.14035v4 )

ライセンス: Link先を確認
Martin Mootz, Peter P. Orth, Chuankun Huang, Liang Luo, Jigang Wang, Yong-Xin Yao, (参考訳) 本稿では,高スピンモデルの2次元コヒーレントスペクトル(2DCS)を計算するための量子コンピューティング手法を提案する。 本手法は,数個の磁場パルスの存在下でのリアルタイムダイナミクスのシミュレーションに基づく。 適応型変動量子力学シミュレーション(AVQDS)アルゴリズムを,その小型回路による研究に利用し,周波数空間の必要な分解能を達成するために,十分に長時間のシミュレーションを可能にする。 具体的には、Dzyaloshinskii-Moriya相互作用と単一イオン異方性を含む反強磁性量子スピンモデルを考える。 得られた2DCSスペクトルは、未摂動ハミルトニアンの異なる固有状態間の遷移から生じるマグノン周波数の倍数の異なるピークを示す。 1次元コヒーレントスペクトルを2DCSと比較することにより、2DCSがエネルギースペクトルの高分解能を提供することを示す。 さらに、高スピン演算子の2つの異なるバイナリエンコーディング(標準バイナリエンコーディングとグレイ符号)を用いて、スピンの大きさで量子資源がスケールする方法について検討する。 低磁場では、両方の符号化は同等の量子資源を必要とするが、より大きな磁場ではグレイ符号が有利である。 サイト数が増加するスピンモデルの数値シミュレーションは、量子資源の多項式系サイズのスケーリングを示している。 最後に,2DCSの数値計算結果と希土類オルソフェリット系の実験結果を比較した。 量子ハイスピンモデルの2DCSにおける高調波発生信号の観測強度は実験データとよく一致し, 対応する平均場よりも顕著に向上した。

We present and benchmark a quantum computing approach to calculate the two-dimensional coherent spectrum (2DCS) of high-spin models. Our approach is based on simulating their real-time dynamics in the presence of several magnetic field pulses, which are spaced in time. We utilize the adaptive variational quantum dynamics simulation (AVQDS) algorithm for the study due to its compact circuits, which enables simulations over sufficiently long times to achieve the required resolution in frequency space. Specifically, we consider an antiferromagnetic quantum spin model that incorporates Dzyaloshinskii-Moriya interactions and single-ion anisotropy. The obtained 2DCS spectra exhibit distinct peaks at multiples of the magnon frequency, arising from transitions between different eigenstates of the unperturbed Hamiltonian. By comparing the one-dimensional coherent spectrum with 2DCS, we demonstrate that 2DCS provides a higher resolution of the energy spectrum. We further investigate how the quantum resources scale with the magnitude of the spin using two different binary encodings of the high-spin operators: the standard binary encoding and the Gray code. At low magnetic fields both encodings require comparable quantum resources, but at larger field strengths the Gray code is advantageous. Numerical simulations for spin models with increasing number of sites indicate a polynomial system-size scaling for quantum resources. Lastly, we compare the numerical 2DCS with experimental results on a rare-earth orthoferrite system. The observed strength of the magnonic high-harmonic generation signals in the 2DCS of the quantum high-spin model aligns well with the experimental data, showing significant improvement over the corresponding mean-field results.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-03
# 混成分類器による精度・ロバスト性取引の軽減

Mixing Classifiers to Alleviate the Accuracy-Robustness Trade-Off ( http://arxiv.org/abs/2311.15165v2 )

ライセンス: Link先を確認
Yatong Bai, Brendon G. Anderson, Somayeh Sojoudi, (参考訳) 深層神経分類器は、最近、データ駆動制御システムで大きな成功を収めている。 しかし、既存のモデルは精度と敵の堅牢性の間のトレードオフに悩まされている。 この制限は、高い性能と厳格な堅牢性の両方を必要とする安全クリティカルなシステムの制御において克服されなければならない。 本研究では、ロバストモデルから高いロバスト性と標準モデルから高い精度を同時に継承する分類器を開発する。 具体的には、標準ニューラルネットワークとロバストニューラルネットワークの出力確率を混合した理論的動機付け型定式化を提案する。 どちらの基本分類器も事前訓練されているので、我々の方法は追加の訓練を必要としない。 数値実験により,混合分類器は精度・損耗トレードオフを顕著に改善し,ロバスト基底分類器の信頼性特性を,より良質なトレードオフの鍵となるものとして同定することを確認した。 我々の理論的結果は、弱い仮定の下で、ロバスト基底モデルのロバスト性が証明された場合、入力上の閉じた形式である$\ell_p$半径内での変更や攻撃は、混合分類器の誤分類をもたらすことを証明している。

Deep neural classifiers have recently found tremendous success in data-driven control systems. However, existing models suffer from a trade-off between accuracy and adversarial robustness. This limitation must be overcome in the control of safety-critical systems that require both high performance and rigorous robustness guarantees. In this work, we develop classifiers that simultaneously inherit high robustness from robust models and high accuracy from standard models. Specifically, we propose a theoretically motivated formulation that mixes the output probabilities of a standard neural network and a robust neural network. Both base classifiers are pre-trained, and thus our method does not require additional training. Our numerical experiments verify that the mixed classifier noticeably improves the accuracy-robustness trade-off and identify the confidence property of the robust base classifier as the key leverage of this more benign trade-off. Our theoretical results prove that under mild assumptions, when the robustness of the robust base model is certifiable, no alteration or attack within a closed-form $\ell_p$ radius on an input can result in the misclassification of the mixed classifier.
翻訳日:2024-06-06 13:57:08 公開日:2024-06-03
# 電界波の夢:拡散モデルを用いた心臓励起波の生成モデル

Dreaming of Electrical Waves: Generative Modeling of Cardiac Excitation Waves using Diffusion Models ( http://arxiv.org/abs/2312.14830v2 )

ライセンス: Link先を確認
Tanish Baranwal, Jan Lebert, Jan Christoph, (参考訳) 心臓の電気波は、心房細動や心室細動などの不整脈が持続する間、回転する渦巻波またはスクロール波を形成する。 波動力学は通常、励起媒質中の反応拡散力学を記述する結合偏微分方程式を用いてモデル化される。 最近では、物理的および生物学的システムにおいて時空間パターンを生成する代替として、データ駆動生成モデリングが出現している。 本稿では,心組織における電磁波パターンの生成モデル構築のための拡散確率モデルについて検討する。 我々は、非条件および条件付き生成タスクにおいて、そのような波動パターンを生成できるように、模擬波動パターンを用いた拡散モデルを訓練した。 例えば、拡散に基づく研究を行った。 i) パラメータ固有の生成 ii) 進化と進化 三 表面二次元測定による三次元スクロール波動の再構成を含む渦巻き波動の塗装 さらに, 任意の形状の両心室ジオメトリを生成し, 拡散を利用したスクロールウェーブパターンを同時に開始した。 生体物理モデルを用いて得られた解に対する拡散生成溶液の特性と比較を行った結果,拡散モデルはスパイラル波とスクロール波のダイナミックスを再現し,心組織における励起波のデータ駆動モデリングに利用できることがわかった。 例えば、拡散誘起スパイラル波動のアンサンブルは、生物物理学モデルでシミュレートされた対応するアンサンブルと同様の自己終端統計を示す。 しかし, 拡散モデルでは, トレーニングデータが不足している場合, 例えば, 自己終端時, および, 制約が不十分な場合の「幻覚」波のパターンを生成できることがわかった。

Electrical waves in the heart form rotating spiral or scroll waves during life-threatening arrhythmias such as atrial or ventricular fibrillation. The wave dynamics are typically modeled using coupled partial differential equations, which describe reaction-diffusion dynamics in excitable media. More recently, data-driven generative modeling has emerged as an alternative to generate spatio-temporal patterns in physical and biological systems. Here, we explore denoising diffusion probabilistic models for the generative modeling of electrical wave patterns in cardiac tissue. We trained diffusion models with simulated electrical wave patterns to be able to generate such wave patterns in unconditional and conditional generation tasks. For instance, we explored the diffusion-based i) parameter-specific generation, ii) evolution and iii) inpainting of spiral wave dynamics, including reconstructing three-dimensional scroll wave dynamics from superficial two-dimensional measurements. Further, we generated arbitrarily shaped bi-ventricular geometries and simultaneously initiated scroll wave patterns inside these geometries using diffusion. We characterized and compared the diffusion-generated solutions to solutions obtained with corresponding biophysical models and found that diffusion models learn to replicate spiral and scroll waves dynamics so well that they could be used for data-driven modeling of excitation waves in cardiac tissue. For instance, an ensemble of diffusion-generated spiral wave dynamics exhibits similar self-termination statistics as the corresponding ensemble simulated with a biophysical model. However, we also found that diffusion models {produce artifacts if training data is lacking, e.g. during self-termination,} and `hallucinate' wave patterns when insufficiently constrained.
翻訳日:2024-06-06 13:37:33 公開日:2024-06-03
# 高分解能ジコトコス像の両側参照

Bilateral Reference for High-Resolution Dichotomous Image Segmentation ( http://arxiv.org/abs/2401.03407v4 )

ライセンス: Link先を確認
Peng Zheng, Dehong Gao, Deng-Ping Fan, Li Liu, Jorma Laaksonen, Wanli Ouyang, Nicu Sebe, (参考訳) 高分解能ディコトコス像分割(DIS)のための新しい両側参照フレームワーク(BiRefNet)を導入する。 本研究は,2つの基本成分: 局所化モジュール (LM) と再構成モジュール (RM) を, 提案した両側参照 (BiRef) で構成する。 LMはグローバルな意味情報を用いたオブジェクトのローカライゼーションを支援する。 RM内では、画像の階層的パッチがソース参照を提供し、勾配マップがターゲット参照として機能する、再構成プロセスにBiRefを利用する。 これらのコンポーネントは、最終的な予測マップを生成するために協力する。 また,より詳細な領域に焦点を絞るために,補助的な勾配監督を導入する。 さらに、地図の質とトレーニングプロセスを改善するために、Disdisに適した実践的なトレーニング戦略を概説する。 提案手法の汎用性を検証するため,BiRefNetがすべてのベンチマークにおいて,タスク固有の最先端手法よりも優れた性能を示すことを示すため,4つのタスクについて広範な実験を行った。 私たちのコードはhttps://github.com/ZhengPeng7/BiRefNetで公開されています。

We introduce a novel bilateral reference framework (BiRefNet) for high-resolution dichotomous image segmentation (DIS). It comprises two essential components: the localization module (LM) and the reconstruction module (RM) with our proposed bilateral reference (BiRef). The LM aids in object localization using global semantic information. Within the RM, we utilize BiRef for the reconstruction process, where hierarchical patches of images provide the source reference and gradient maps serve as the target reference. These components collaborate to generate the final predicted maps. We also introduce auxiliary gradient supervision to enhance focus on regions with finer details. Furthermore, we outline practical training strategies tailored for DIS to improve map quality and training process. To validate the general applicability of our approach, we conduct extensive experiments on four tasks to evince that BiRefNet exhibits remarkable performance, outperforming task-specific cutting-edge methods across all benchmarks. Our codes are available at https://github.com/ZhengPeng7/BiRefNet.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-03
# REBUS: シンボル理解のためのロバストな評価ベンチマーク

REBUS: A Robust Evaluation Benchmark of Understanding Symbols ( http://arxiv.org/abs/2401.05604v2 )

ライセンス: Link先を確認
Andrew Gritsevskiy, Arjun Panickssery, Aaron Kirtland, Derik Kauffman, Hans Gundlach, Irina Gritsevskaya, Joe Cavanagh, Jonathan Chiang, Lydia La Roux, Michelle Hung, (参考訳) 本稿では,リバスパズルを用いたマルチモーダル大言語モデルの性能評価手法を提案する。 データセットは、画像ベースのワードプレイのオリジナル例333をカバーし、映画、作曲家、主要都市、食品など13のカテゴリを網羅している。 キーワードやフレーズを識別するベンチマークで優れたパフォーマンスを達成するためには、画像認識と文字列操作を仮説テスト、多段階推論、人間の認知の理解と組み合わせて、複雑なマルチモーダルな機能評価を行う必要がある。 GPT-4oは他のモデルよりも大幅に優れており、続いてプロプライエタリモデルも他のモデルよりも優れています。 しかし、最高のモデルでさえ、最終的な精度は42\%に過ぎず、ハードパズルでは7\%に低下し、推論の大幅な改善の必要性が浮かび上がっている。 さらに、モデルはパズルのすべての部分をほとんど理解せず、ほとんど常に正解を遡って説明できない。 したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。

We propose a new benchmark evaluating the performance of multimodal large language models on rebus puzzles. The dataset covers 333 original examples of image-based wordplay, cluing 13 categories such as movies, composers, major cities, and food. To achieve good performance on the benchmark of identifying the clued word or phrase, models must combine image recognition and string manipulation with hypothesis testing, multi-step reasoning, and an understanding of human cognition, making for a complex, multimodal evaluation of capabilities. We find that GPT-4o significantly outperforms all other models, followed by proprietary models outperforming all other evaluated models. However, even the best model has a final accuracy of only 42\%, which goes down to just 7\% on hard puzzles, highlighting the need for substantial improvements in reasoning. Further, models rarely understand all parts of a puzzle, and are almost always incapable of retroactively explaining the correct answer. Our benchmark can therefore be used to identify major shortcomings in the knowledge and reasoning of multimodal large language models.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-03
# ニューロ・シンボリック推論と学習のための凸とバイレベル最適化

Convex and Bilevel Optimization for Neuro-Symbolic Inference and Learning ( http://arxiv.org/abs/2401.09651v2 )

ライセンス: Link先を確認
Charles Dickens, Changyu Gao, Connor Pryor, Stephen Wright, Lise Getoor, (参考訳) 我々は凸と双レベル最適化の手法を活用し、ニューラルシンボリック(NeSy)システムのための一般的な勾配に基づくパラメータ学習フレームワークを開発する。 我々は、最先端のNeSyアーキテクチャであるNeuPSLを使って、我々のフレームワークを実演する。 そこで本研究では、NeuPSL推論のスムーズな原始的および双対的定式化を提案し、学習勾配が最適双対変数の関数であることを示す。 さらに,温暖化開始を自然に活用する新しい定式化のための二重ブロック座標降下アルゴリズムを開発した。 これにより、現在の最高のNeuPSL推論メソッドよりも100倍以上の学習ランタイムが改善される。 最後に、さまざまなタスクをカバーする8つのデータセットにわたる広範な経験的評価を行い、我々の学習フレームワークが、代替学習手法よりも最大16%のポイント予測性能の向上を達成することを実証する。

We leverage convex and bilevel optimization techniques to develop a general gradient-based parameter learning framework for neural-symbolic (NeSy) systems. We demonstrate our framework with NeuPSL, a state-of-the-art NeSy architecture. To achieve this, we propose a smooth primal and dual formulation of NeuPSL inference and show learning gradients are functions of the optimal dual variables. Additionally, we develop a dual block coordinate descent algorithm for the new formulation that naturally exploits warm-starts. This leads to over 100x learning runtime improvements over the current best NeuPSL inference method. Finally, we provide extensive empirical evaluations across 8 datasets covering a range of tasks and demonstrate our learning framework achieves up to a 16% point prediction performance improvement over alternative learning methods.
翻訳日:2024-06-06 13:27:48 公開日:2024-06-03
# モース不整合からのリップシンクディープフェイクの抽出

Exposing Lip-syncing Deepfakes from Mouth Inconsistencies ( http://arxiv.org/abs/2401.10113v2 )

ライセンス: Link先を確認
Soumyya Kanti Datta, Shan Jia, Siwei Lyu, (参考訳) リップシンクのディープフェイク(英: Lip-syncing Deepfake)は、人の唇の動きをAIモデルを使って説得力のある方法で生成し、修正された音声や全く新しい音声にマッチさせるデジタル操作されたビデオである。 リップ同期のディープフェイクは、人工物がリップ領域に限定されており、識別が困難であるため、危険なタイプのディープフェイクである。 本稿では,口領域の時間的不整合を識別し,口内不整合(LIPINC)に基づく口内深度検出法を提案する。 これらの矛盾は、隣接するフレームやビデオ全体に見られる。 我々のモデルはこれらの不規則性をうまく捉え、いくつかのベンチマークディープフェイクデータセットで最先端の手法より優れている。 コードはhttps://github.com/skrantidatta/LIPINCで公開されている。

A lip-syncing deepfake is a digitally manipulated video in which a person's lip movements are created convincingly using AI models to match altered or entirely new audio. Lip-syncing deepfakes are a dangerous type of deepfakes as the artifacts are limited to the lip region and more difficult to discern. In this paper, we describe a novel approach, LIP-syncing detection based on mouth INConsistency (LIPINC), for lip-syncing deepfake detection by identifying temporal inconsistencies in the mouth region. These inconsistencies are seen in the adjacent frames and throughout the video. Our model can successfully capture these irregularities and outperforms the state-of-the-art methods on several benchmark deepfake datasets. Code is available at https://github.com/skrantidatta/LIPINC
翻訳日:2024-06-06 13:27:48 公開日:2024-06-03
# 任意スケールの病理画像スーパーレゾリューションに向けて: インシシト自己テクスチャ強化による効率的なデュアルブランチフレームワーク

Towards Arbitrary-Scale Histopathology Image Super-resolution: An Efficient Dual-branch Framework via Implicit Self-texture Enhancement ( http://arxiv.org/abs/2401.15613v2 )

ライセンス: Link先を確認
Minghong Duan, Linhao Qu, Zhiwei Yang, Manning Wang, Chenxi Zhang, Zhijian Song, (参考訳) 高品質な全スライディングスキャナーは高価で複雑で時間を要するため、日常臨床における高解像度の病理画像の取得と利用が制限される。 低分解能画像から高分解能画像を合成することにより、深層学習に基づく単一画像の超解像技術がこの問題の解決に有効な方法である。 しかし、病理画像に適用された既存の超解像モデルは、固定整数倍率でしか機能せず、適用性が著しく低下する。 暗黙的な神経表現に基づく手法は、自然画像の任意のスケールの超解像において有望な結果を示しているが、それを病理画像に直接適用することは、自然画像とは異なる独特の微細な画像テクスチャを持つため、不十分である。 そこで本研究では,この課題に対処するために,任意の規模の病理像の超解像を実現するためのImplicit Self-Texture Enhancement-based dual-branch framework (ISTE)を提案する。 ISTEには、まずピクセルの特徴とテクスチャの特徴を学習するテクスチャ学習ブランチと、画素学習ブランチが含まれている。 そして、2段階のテクスチャ強化戦略を設計し、2段階のテクスチャを融合させて超解像結果を得る。 3つの公開データセットに対する大規模な実験によると、ISTEは既存の固定スケールおよび任意のスケールのアルゴリズムを複数の倍率で上回り、下流タスクのパフォーマンスを向上させる。 我々の知る限りでは、病理画像における任意のスケールの超解像を実現するための最初の試みである。 コードは利用可能。

High-quality whole-slide scanners are expensive, complex, and time-consuming, thus limiting the acquisition and utilization of high-resolution pathology whole-slide images in daily clinical work. Deep learning-based single-image super-resolution techniques are an effective way to solve this problem by synthesizing high-resolution images from low-resolution ones. However, the existing super-resolution models applied in pathology images can only work in fixed integer magnifications, significantly decreasing their applicability. Though methods based on implicit neural representation have shown promising results in arbitrary-scale super-resolution of natural images, applying them directly to pathology images is inadequate because they have unique fine-grained image textures different from natural images. Thus, we propose an Implicit Self-Texture Enhancement-based dual-branch framework (ISTE) for arbitrary-scale super-resolution of pathology images to address this challenge. ISTE contains a pixel learning branch and a texture learning branch, which first learn pixel features and texture features, respectively. Then, we design a two-stage texture enhancement strategy to fuse the features from the two branches to obtain the super-resolution results, where the first stage is feature-based texture enhancement, and the second stage is spatial-domain-based texture enhancement. Extensive experiments on three public datasets show that ISTE outperforms existing fixed-scale and arbitrary-scale algorithms at multiple magnifications and helps to improve downstream task performance. To the best of our knowledge, this is the first work to achieve arbitrary-scale super-resolution in pathology images. Codes will be available.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-03
# 変圧器はコピー時の状態空間モデルより優れている

Repeat After Me: Transformers are Better than State Space Models at Copying ( http://arxiv.org/abs/2402.01032v2 )

ライセンス: Link先を確認
Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach, (参考訳) トランスフォーマーはシーケンスモデリングにおいて支配的なアーキテクチャであるが、我々は「一般化状態空間モデル」(GSSM)と呼ばれるシーケンス長に依存しない固定サイズの潜在状態を使用するモデルへの関心が高まっている。 本稿では,GSSMは推論時間効率の面で有望であるが,入力コンテキストからのコピーを必要とするタスクにおいて,トランスフォーマーモデルと比較して限定的であることを示す。 まず,2層変換器が指数関数長の文字列をコピーできるのに対して,GSSMは固定サイズ潜在状態によって根本的に制限されていることを証明する。 実験により,コンテクストの複製を必要とする合成タスクにおいて,トランスフォーマーがGSSMよりも効率や一般化に優れていることが判明した。 最後に、事前学習した大規模言語モデルを評価し、コンテクストからの情報のコピーと検索において、トランスフォーマーモデルが状態空間モデルより劇的に優れていることを見出した。 これらの結果は,本研究の課題におけるトランスフォーマーとGSSMの根本的なギャップを示唆するものである。

Transformers are the dominant architecture for sequence modeling, but there is growing interest in models that use a fixed-size latent state that does not depend on the sequence length, which we refer to as "generalized state space models" (GSSMs). In this paper we show that while GSSMs are promising in terms of inference-time efficiency, they are limited compared to transformer models on tasks that require copying from the input context. We start with a theoretical analysis of the simple task of string copying and prove that a two layer transformer can copy strings of exponential length while GSSMs are fundamentally limited by their fixed-size latent state. Empirically, we find that transformers outperform GSSMs in terms of efficiency and generalization on synthetic tasks that require copying the context. Finally, we evaluate pretrained large language models and find that transformer models dramatically outperform state space models at copying and retrieving information from context. Taken together, these results suggest a fundamental gap between transformers and GSSMs on tasks of practical interest.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-03
# 構成生成モデリング:1つのモデルだけでは十分ではない

Compositional Generative Modeling: A Single Model is Not All You Need ( http://arxiv.org/abs/2402.01103v3 )

ライセンス: Link先を確認
Yilun Du, Leslie Kaelbling, (参考訳) 大量のデータに基づいてトレーニングされた巨大なモノリシックな生成モデルは、AI研究においてますます支配的なアプローチになりつつある。 本稿では,より小さな生成モデルを構成することによって,より大規模な生成システムを構築するべきであると論じる。 このような構成的生成アプローチによって、よりデータ効率の良い方法で分布を学習し、トレーニング時に見つからないデータ分布の一部に一般化できることを示す。 さらに、トレーニングで完全に見えないタスクのための新しい生成モデルをプログラムし、構築することを可能にする方法を示す。 最後に、多くの場合、データから別々の構成成分を発見できることを示す。

Large monolithic generative models trained on massive amounts of data have become an increasingly dominant approach in AI research. In this paper, we argue that we should instead construct large generative systems by composing smaller generative models together. We show how such a compositional generative approach enables us to learn distributions in a more data-efficient manner, enabling generalization to parts of the data distribution unseen at training time. We further show how this enables us to program and construct new generative models for tasks completely unseen at training. Finally, we show that in many cases, we can discover separate compositional components from data.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-03
# PINNの育成における課題--景観の喪失をめざして

Challenges in Training PINNs: A Loss Landscape Perspective ( http://arxiv.org/abs/2402.01868v2 )

ライセンス: Link先を確認
Pratik Rathore, Weimu Lei, Zachary Frangella, Lu Lu, Madeleine Udell, (参考訳) 本稿では,物理情報ニューラルネットワーク(PINN)の学習における課題について考察し,学習過程における損失景観の役割を強調した。 本稿では, PINN損失関数の最小化の難しさについて検討する。 我々は、勾配に基づく最適化器AdamとL-BFGSとそれらの組み合わせAdam+L-BFGSを比較し、Adam+L-BFGSの優位性を示し、新しい二階最適化器NysNewton-CG(NNCG)を導入し、PINNの性能を大幅に向上させた。 理論的には、不条件微分演算子と不条件演算子のPINN損失の関係を解明し、一階と二階の最適化法を組み合わせる利点を示す。 我々の研究は、PINNを訓練するための貴重な洞察とより強力な最適化戦略を示し、難しい偏微分方程式を解くためのPINNの有用性を向上させることができる。

This paper explores challenges in training Physics-Informed Neural Networks (PINNs), emphasizing the role of the loss landscape in the training process. We examine difficulties in minimizing the PINN loss function, particularly due to ill-conditioning caused by differential operators in the residual term. We compare gradient-based optimizers Adam, L-BFGS, and their combination Adam+L-BFGS, showing the superiority of Adam+L-BFGS, and introduce a novel second-order optimizer, NysNewton-CG (NNCG), which significantly improves PINN performance. Theoretically, our work elucidates the connection between ill-conditioned differential operators and ill-conditioning in the PINN loss and shows the benefits of combining first- and second-order optimization methods. Our work presents valuable insights and more powerful optimization strategies for training PINNs, which could improve the utility of PINNs for solving difficult partial differential equations.
翻訳日:2024-06-06 13:17:49 公開日:2024-06-03
# 効率的であることを学ぶ - 大規模言語モデルにおける構造化された疎結合の構築

Learn To be Efficient: Build Structured Sparsity in Large Language Models ( http://arxiv.org/abs/2402.06126v3 )

ライセンス: Link先を確認
Haizhong Zheng, Xiaoyan Bai, Xueshen Liu, Z. Morley Mao, Beidi Chen, Fan Lai, Atul Prakash, (参考訳) 大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。 LLMにおける活性化空間の出現は、推論のためのパラメータの一部だけを含むことによって、このコストを削減する自然なアプローチを提供する。 しかし、既存の手法では、この自然に形成された活性化空間を訓練後の環境で利用することのみに焦点が当てられており、この固有領域をさらに増幅する可能性を見越している。 本稿では,より構造化された活性化空間を実現することにより,LCMが効率良く学習できるという仮説を立てる。 そこで本研究では,Learning-To-be-Efficient(LTE)という新しいトレーニングアルゴリズムを導入し,LLMを学習してニューロンの活性化を減らし,空間性と性能のトレードオフを改善することを目的とした。 さらに、主にReLUベースのモデルに焦点を当てたSOTA MoEfication法とは異なり、LTEは非ReLUアクティベーションを使用してLLaMAのようなLLMにも適用することができる。 言語理解、言語生成、命令チューニングタスクに関する広範囲な評価は、LTEがSOTAベースラインを一貫して上回っていることを示している。 ハードウェア対応のカスタムカーネル実装に加えて、LTEはLLaMA2-7B推論遅延を50%の間隔で25%削減します。

Large Language Models (LLMs) have achieved remarkable success with their billion-level parameters, yet they incur high inference overheads. The emergence of activation sparsity in LLMs provides a natural approach to reduce this cost by involving only parts of the parameters for inference. However, existing methods only focus on utilizing this naturally formed activation sparsity in a post-training setting, overlooking the potential for further amplifying this inherent sparsity. In this paper, we hypothesize that LLMs can learn to be efficient by achieving more structured activation sparsity. To achieve this, we introduce a novel training algorithm, Learn-To-be-Efficient (LTE), designed to train efficiency-aware LLMs to learn to activate fewer neurons and achieve a better trade-off between sparsity and performance. Furthermore, unlike SOTA MoEfication methods, which mainly focus on ReLU-based models, LTE can also be applied to LLMs like LLaMA using non-ReLU activations. Extensive evaluation on language understanding, language generation, and instruction tuning tasks show that LTE consistently outperforms SOTA baselines. Along with our hardware-aware custom kernel implementation, LTE reduces LLaMA2-7B inference latency by 25% at 50% sparsity.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-03
# 効率的な普遍的形態制御のための蒸留型ハイパーネット

Distilling Morphology-Conditioned Hypernetworks for Efficient Universal Morphology Control ( http://arxiv.org/abs/2402.06570v2 )

ライセンス: Link先を確認
Zheng Xiong, Risto Vuorio, Jacob Beck, Matthieu Zimmer, Kun Shao, Shimon Whiteson, (参考訳) 異なるロボット形態の普遍的なポリシーを学ぶことは、学習効率を著しく向上させ、ゼロショットの一般化を目に見えない形態の一般化を可能にする。 しかし、高性能なユニバーサルポリシーを学ぶには、より単純な多層パーセプトロン(MLP)よりもメモリと計算コストが大きいトランスフォーマー(TF)のような高度なアーキテクチャを必要とする。 TFのような優れた性能と、推論時のMLPのような高効率を実現するために、(1)ロボットのMDPポリシーを生成する形態条件付きハイパーネットワーク(HN)、(2)トレーニングを成功させるために不可欠なポリシー蒸留アプローチからなるHyperDistillを提案する。 何百もの多様な形態のベンチマークであるUNIMALにおいて、HyperDistillはトレーニングと未確認テストロボットの共通TF教師ポリシーと同様に、異なる環境でモデルサイズを6~14倍、計算コストを67~160倍削減することを示した。 我々の分析は、推論時間におけるHyperDistillの効率性は、知識分離、すなわち、タスク間知識とタスク内知識を分離する能力に起因している。

Learning a universal policy across different robot morphologies can significantly improve learning efficiency and enable zero-shot generalization to unseen morphologies. However, learning a highly performant universal policy requires sophisticated architectures like transformers (TF) that have larger memory and computational cost than simpler multi-layer perceptrons (MLP). To achieve both good performance like TF and high efficiency like MLP at inference time, we propose HyperDistill, which consists of: (1) A morphology-conditioned hypernetwork (HN) that generates robot-wise MLP policies, and (2) A policy distillation approach that is essential for successful training. We show that on UNIMAL, a benchmark with hundreds of diverse morphologies, HyperDistill performs as well as a universal TF teacher policy on both training and unseen test robots, but reduces model size by 6-14 times, and computational cost by 67-160 times in different environments. Our analysis attributes the efficiency advantage of HyperDistill at inference time to knowledge decoupling, i.e., the ability to decouple inter-task and intra-task knowledge, a general principle that could also be applied to improve inference efficiency in other domains.
翻訳日:2024-06-06 13:08:02 公開日:2024-06-03
# ランダム化平滑化を用いたセグメンテーションのための適応的階層的認証

Adaptive Hierarchical Certification for Segmentation using Randomized Smoothing ( http://arxiv.org/abs/2402.08400v2 )

ライセンス: Link先を確認
Alaa Anani, Tobias Lorenz, Bernt Schiele, Mario Fritz, (参考訳) 機械学習の認証は、特定の条件下でモデルを回避する敵のサンプルが存在しないことを証明している。 セグメンテーションの一般的な認証方法は、平らな粒度のクラスを使い、多くのクラスでモデルの不確実性のために高い断続率をもたらす。 本稿では,複数レベルの階層内の画素を認証し,不安定なコンポーネントに対する粗いレベルの認証を適応的に緩和する,より実用的な設定を提案する。 問題設定を数学的に定式化し、適応的階層的認証アルゴリズムを導入し、その保証の正確性を証明する。 認証精度は、粗いクラスを考慮した情報損失を考慮しないので、クラス粒度レベルに比例した認証情報ゲイン(\mathrm{CIG}$)メトリクスを導入する。 Cityscapes, PASCAL-Context, ACDC, COCO-Stuffのデータセットに関する広範な実験により、我々の適応アルゴリズムは、現在の最先端認証法と比較して、より高い$\mathrm{CIG}$と低い吸収率を達成することを示した。 私たちのコードは、https://github.com/AlaaAnani/adaptive-certify.comで参照できます。

Certification for machine learning is proving that no adversarial sample can evade a model within a range under certain conditions, a necessity for safety-critical domains. Common certification methods for segmentation use a flat set of fine-grained classes, leading to high abstain rates due to model uncertainty across many classes. We propose a novel, more practical setting, which certifies pixels within a multi-level hierarchy, and adaptively relaxes the certification to a coarser level for unstable components classic methods would abstain from, effectively lowering the abstain rate whilst providing more certified semantically meaningful information. We mathematically formulate the problem setup, introduce an adaptive hierarchical certification algorithm and prove the correctness of its guarantees. Since certified accuracy does not take the loss of information into account for coarser classes, we introduce the Certified Information Gain ($\mathrm{CIG}$) metric, which is proportional to the class granularity level. Our extensive experiments on the datasets Cityscapes, PASCAL-Context, ACDC and COCO-Stuff demonstrate that our adaptive algorithm achieves a higher $\mathrm{CIG}$ and lower abstain rate compared to the current state-of-the-art certification method. Our code can be found here: https://github.com/AlaaAnani/adaptive-certify.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-03
# 時間分布シフト下におけるモデル評価と選択

Model Assessment and Selection under Temporal Distribution Shift ( http://arxiv.org/abs/2402.08672v2 )

ライセンス: Link先を確認
Elise Han, Chengpiao Huang, Kaizheng Wang, (参考訳) 変動環境におけるモデル評価と選択について,現在と歴史的時代の両方からデータセットを合成することによって検討する。 未知かつ潜在的に任意の時間分布シフトに対処するため、与えられたモデルの一般化誤差を推定する適応型ローリングウインドウ手法を開発した。 この戦略はまた、一般化誤差の差を推定することにより、任意の2つの候補モデルの比較を容易にする。 さらに、ペアワイズ比較を単一消去トーナメントに統合し、候補の集合から最適に近いモデル選択を実現する。 理論的解析と数値実験により,提案手法の非定常性に対する適応性を示す。

We investigate model assessment and selection in a changing environment, by synthesizing datasets from both the current time period and historical epochs. To tackle unknown and potentially arbitrary temporal distribution shift, we develop an adaptive rolling window approach to estimate the generalization error of a given model. This strategy also facilitates the comparison between any two candidate models by estimating the difference of their generalization errors. We further integrate pairwise comparisons into a single-elimination tournament, achieving near-optimal model selection from a collection of candidates. Theoretical analyses and numerical experiments demonstrate the adaptivity of our proposed methods to the non-stationarity in data.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-03
# トランスダクティブサンプル複合体はコンパクトである

Transductive Sample Complexities Are Compact ( http://arxiv.org/abs/2402.10360v2 )

ライセンス: Link先を確認
Julian Asilis, Siddartha Devic, Shaddin Dughmi, Vatsal Sharan, Shang-Hua Teng, (参考訳) すべての仮説クラス$H$は、すべての有限射影が標本複雑性$m$で学習可能であれば、正確には、半帰納的標本複雑性$m$で学習可能である。 この厳密なコンパクト性は、任意の適切な計量損失函数(例えば、$\mathbb{R}^d$のノルム)およびコンパクト空間上の任意の連続損失(例えば、クロスエントロピー、正方形損失)に関して、実現可能かつ非依存的な学習に成り立つことを証明している。 不適切な計量損失を伴う実現可能な学習のために、サンプルの複雑さの正確なコンパクト性は失敗しうることを示し、そのようなサンプルの複雑さが相違する程度で2の係数の上と下の境界が一致することを示す。 我々は、無知の場合においてより大きなギャップが可能であると推測する。 さらに、PACのサンプル複雑度とトランスダクティブモデル(実現可能な場合、低次因子まで)の等価性を呼び出すことで、結果を直接PACモデルに移植することが可能となり、PAC学習において広く保持されるほぼ正確なコンパクト性の形式が明らかになる。

We demonstrate a compactness result holding broadly across supervised learning with a general class of loss functions: Any hypothesis class $H$ is learnable with transductive sample complexity $m$ precisely when all of its finite projections are learnable with sample complexity $m$. We prove that this exact form of compactness holds for realizable and agnostic learning with respect to any proper metric loss function (e.g., any norm on $\mathbb{R}^d$) and any continuous loss on a compact space (e.g., cross-entropy, squared loss). For realizable learning with improper metric losses, we show that exact compactness of sample complexity can fail, and provide matching upper and lower bounds of a factor of 2 on the extent to which such sample complexities can differ. We conjecture that larger gaps are possible for the agnostic case. Furthermore, invoking the equivalence between sample complexities in the PAC and transductive models (up to lower order factors, in the realizable case) permits us to directly port our results to the PAC model, revealing an almost-exact form of compactness holding broadly in PAC learning.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-03
# PAT-Questions: リアルタイム質問応答のための自己更新ベンチマーク

PAT-Questions: A Self-Updating Benchmark for Present-Anchored Temporal Question-Answering ( http://arxiv.org/abs/2402.11034v2 )

ライセンス: Link先を確認
Jannat Ara Meem, Muhammad Shihab Rashid, Yue Dong, Vagelis Hristidis, (参考訳) TQA(Temporal Question Answering)の既存の研究は、主に特定のタイムスタンプやイベント(1970年のアメリカ大統領は誰だったのか? 時間的文脈が現在と相対的な問題(例えば「前大統領は誰だったのか」など)は、ほとんど研究されていない。 本報告では,この問題をPATQA(Present-Anchored Temporal QA)と呼ぶ。 PATQAは、(1)大きな言語モデル(LLM)が時代遅れの知識を持つかもしれないし、(2)複雑な時間的関係(例えば 'before' や 'previous' など)は推論が難しいし、(3)マルチホップ推論が必要かもしれないし、(4)ベンチマークの金の回答を継続的に更新する必要がある。 これらの課題に対処するために、単座と多座の時間的問題を含むPAT-Questionsベンチマークを導入する。 PAT-Questionsの回答は、もし利用可能であれば、ナレッジグラフ上でSPARQLクエリを再実行することで、自動的に更新できる。 我々は、直接的プロンプトと検索強化生成(RAG)を用いて、PAT-Questionsにおける最先端のLLMとSOTA時間的推論モデル(TEMPREASON-T5)を評価した。 その結果、PATQAにおける既存のソリューションの限界を強調し、PATQA推論機能を改善するための新しい方法の必要性を動機付けている。

Existing work on Temporal Question Answering (TQA) has predominantly focused on questions anchored to specific timestamps or events (e.g. "Who was the US president in 1970?"). Little work has studied questions whose temporal context is relative to the present time (e.g. "Who was the previous US president?"). We refer to this problem as Present-Anchored Temporal QA (PATQA). PATQA poses unique challenges: (1) large language models (LLMs) may have outdated knowledge, (2) complex temporal relationships (e.g. 'before', 'previous') are hard to reason, (3) multi-hop reasoning may be required, and (4) the gold answers of benchmarks must be continuously updated. To address these challenges, we introduce the PAT-Questions benchmark, which includes single and multi-hop temporal questions. The answers in PAT-Questions can be automatically refreshed by re-running SPARQL queries on a knowledge graph, if available. We evaluate several state-of-the-art LLMs and a SOTA temporal reasoning model (TEMPREASON-T5) on PAT-Questions through direct prompting and retrieval-augmented generation (RAG). The results highlight the limitations of existing solutions in PATQA and motivate the need for new methods to improve PATQA reasoning capabilities.
翻訳日:2024-06-06 12:58:06 公開日:2024-06-03
# 近接量子限界雑音特性を持つ4波混合を用いた4-8GHzの動特性インダクタンスパラメトリック増幅器

A 4-8 GHz Kinetic Inductance Travelling-Wave Parametric Amplifier Using Four-Wave Mixing with Near Quantum-Limit Noise Performance ( http://arxiv.org/abs/2402.11751v4 )

ライセンス: Link先を確認
Farzad Faramarzi, Ryan Stephenson, Sasha Sypkens, Byeong H. Eom, Henry LeDuc, Peter Day, (参考訳) 動インダクタンス進行波パラメトリック増幅器(KI-TWPA)は、量子限界に近い性能と比較的高いダイナミックレンジを持つ広い瞬時帯域を有する。 このため、低温検出器や超伝導量子ビットに適した読み出し装置であり、量子センシングに様々な応用がある。 本研究では,NbTiNマイクロストリップ伝送線路における4波長混合に基づくKI-TWPAの設計,製造,性能について述べる。 別個の高周波数帯域で発生する画像トーンから汚染されることなく、4〜8〜GHzの信号帯域を増幅する。 4〜8〜GHz帯は、マイクロ波速度インダクタンス検出器(MKID)やジョセフソンジャンクションベースの量子ビットなどの低温検出器の読み出しに一般的に用いられている。 1-dBゲイン圧縮点が-58dBmの4波長混合による最大ゲイン20dB以上を,そのバンドよりも15dBのゲイン15dBで測定した。 帯域幅とピークゲインは、ポンプ音の周波数と電力を調整することで調整可能である。 また、Y-factor法を用いて、4.5 - 8GHzの1.5$光子に対して0.5ドル/0.5ドル/0.5ドル/0.5ドル/の増幅雑音を測定する。

Kinetic inductance traveling-wave parametric amplifiers (KI-TWPA) have a wide instantaneous bandwidth with near quantum-limited performance and a relatively high dynamic range. Because of this, they are suitable readout devices for cryogenic detectors and superconducting qubits and have a variety of applications in quantum sensing. This work discusses the design, fabrication, and performance of a KI-TWPA based on four-wave mixing in a NbTiN microstrip transmission line. This device amplifies a signal band from 4 to 8~GHz without contamination from image tones, which are produced in a separate higher frequency band. The 4 - 8~GHz band is commonly used to read out cryogenic detectors, such as microwave kinetic inductance detectors (MKIDs) and Josephson junction-based qubits. We report a measured maximum gain of over 20 dB using four-wave mixing with a 1-dB gain compression point of -58 dBm at 15 dB of gain over that band. The bandwidth and peak gain are tunable by adjusting the pump-tone frequency and power. Using a Y-factor method, we measure an amplifier-added noise of $ 0.5 \leq N_{added} \leq 1.5$ photons from 4.5 - 8 GHz.
翻訳日:2024-06-06 12:48:21 公開日:2024-06-03
# 非線形力学系の状態とパラメータ推定のための反復INLA

Iterated INLA for State and Parameter Estimation in Nonlinear Dynamical Systems ( http://arxiv.org/abs/2402.17036v2 )

ライセンス: Link先を確認
Rafael Anderka, Marc Peter Deisenroth, So Takao, (参考訳) データ同化法(DA)法は、微分方程式から生じる先行値を用いてデータを頑健に補間し、外挿する。 高次元非線形PDE事前処理を行うアンサンブル法のような一般的な手法は、主に状態推定に重点を置いているが、パラメータを正確に学習することは困難である。 一方、機械学習に基づくアプローチは、状態とパラメータを自然に学習することができるが、適用性は制限されるか、解釈が難しい不確実性を生成することができる。 空間統計学におけるIntegrated Nested Laplace Approximation (INLA)法に着想を得て,動的モデルの反復線形化に基づくDAへの代替手法を提案する。 これにより、各イテレーションでガウスマルコフランダムフィールドを生成し、INLAを使って状態とパラメータを推測することができる。 本手法は,解釈可能性を維持しながら任意の非線形システムに利用することができ,さらにDAタスクにおける既存手法よりも優れていることを示す。 非線形PDE事前処理に対するよりニュアンスなアプローチを提供することにより、予測精度の向上とロバスト性、特にデータ空間が普及している場所での予測が可能となる。

Data assimilation (DA) methods use priors arising from differential equations to robustly interpolate and extrapolate data. Popular techniques such as ensemble methods that handle high-dimensional, nonlinear PDE priors focus mostly on state estimation, however can have difficulty learning the parameters accurately. On the other hand, machine learning based approaches can naturally learn the state and parameters, but their applicability can be limited, or produce uncertainties that are hard to interpret. Inspired by the Integrated Nested Laplace Approximation (INLA) method in spatial statistics, we propose an alternative approach to DA based on iteratively linearising the dynamical model. This produces a Gaussian Markov random field at each iteration, enabling one to use INLA to infer the state and parameters. Our approach can be used for arbitrary nonlinear systems, while retaining interpretability, and is furthermore demonstrated to outperform existing methods on the DA task. By providing a more nuanced approach to handling nonlinear PDE priors, our methodology offers improved accuracy and robustness in predictions, especially where data sparsity is prevalent.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-03
# 急激な不安定性を超えて--LLMにおける政治的世界観の信頼性と一貫性の評価

Beyond prompt brittleness: Evaluating the reliability and consistency of political worldviews in LLMs ( http://arxiv.org/abs/2402.17649v2 )

ライセンス: Link先を確認
Tanise Ceron, Neele Falk, Ana Barić, Dmitry Nikolaev, Sebastian Padó, (参考訳) ユビキタスシステムで大規模言語モデル(LLM)が広く使われているため、それらが特定の世界観を埋め込んでいるのか、どのように反映されているのかを理解する必要がある。 近年の研究では、政治的アンケートにより、LLMは左利き(Feng et al , 2023; Motoki et al , 2024)を示すことが報告されている。 しかし、これらの傾きが信頼できるか(変動を促すために悪用されている)、また、その傾きが政策や政治的傾きに一貫したものであるかは定かではない。 本研究では、EU7カ国から収集された投票支援票のデータセットに基づいて、政治声明に対するLCMの姿勢の信頼性と整合性を評価する一連のテストを提案する。 本研究では, 7B から 70B までの大きさの LLM について検討し, パラメータ数によって信頼性が向上することを確認した。 より大規模なモデルは、左派政党との全体的な整合性を示すが、政策プログラムによって異なる: 環境保護、社会福祉国家、リベラル社会に対する(左派)肯定的な姿勢と、(右派)法と秩序を、外交政策と移民に一貫した好意を持たない。

Due to the widespread use of large language models (LLMs) in ubiquitous systems, we need to understand whether they embed a specific worldview and what these views reflect. Recent studies report that, prompted with political questionnaires, LLMs show left-liberal leanings (Feng et al., 2023; Motoki et al., 2024). However, it is as yet unclear whether these leanings are reliable (robust to prompt variations) and whether the leaning is consistent across policies and political leaning. We propose a series of tests which assess the reliability and consistency of LLMs' stances on political statements based on a dataset of voting-advice questionnaires collected from seven EU countries and annotated for policy domains. We study LLMs ranging in size from 7B to 70B parameters and find that their reliability increases with parameter count. Larger models show overall stronger alignment with left-leaning parties but differ among policy programs: They evince a (left-wing) positive stance towards environment protection, social welfare state and liberal society but also (right-wing) law and order, with no consistent preferences in foreign policy and migration.
翻訳日:2024-06-06 12:38:37 公開日:2024-06-03
# ヘラクレス:高分解能画像と時系列解析のためのハイブリッドSSM変換器モデル

Heracles: A Hybrid SSM-Transformer Model for High-Resolution Image and Time-Series Analysis ( http://arxiv.org/abs/2403.18063v2 )

ライセンス: Link先を確認
Badri N. Patro, Suhas Ranganath, Vinay P. Namboodiri, Vijay S. Agneeswaran, (参考訳) トランスフォーマーは、DeIT、Swin、SVT、Biformer、STVit、FDVITなどの適応で画像モデリングタスクに革命をもたらした。 しかし、これらのモデルはしばしば誘導バイアスと高い二次的複雑性の課題に直面し、高解像度画像では効率が低下する。 Mamba、V-Mamba、ViM、SiMBAのような状態空間モデル(SSM)は、コンピュータビジョンタスクで高解像度の画像を処理する代替手段を提供する。 これらのSSMは2つの大きな問題に遭遇する。 まず、大規模なネットワークサイズにスケールすると不安定になる。 第二に、画像内のグローバルな情報を効率的にキャプチャするが、本質的にはローカル情報を扱うのに苦労する。 これらの課題に対処するため,ローカルSSM,グローバルSSM,アテンションベースのトークンインタラクションモジュールを統合した新しいSSMであるHeraclesを紹介した。 Heraclesは、グローバルイメージ情報のためのHartelyカーネルベースのステートスペースモデル、ローカル詳細のためのローカライズされた畳み込みネットワーク、トークンインタラクションのためのより深いレイヤにおけるアテンションメカニズムを活用する。 大規模な実験により、Heracles-C-smallは84.5\%のトップ-1精度でImageNetデータセット上で最先端のパフォーマンスを達成することが示された。 Heracles-C-Large と Heracles-C-Huge はさらに精度を 85.9\% と 86.4\% に改善した。 さらに、Heraclesは、CIFAR-10、CIFAR-100、Oxford Flowers、Stanford Carsといったデータセット上のトランスファー学習タスクや、例えばMSCOCOデータセット上のセグメンテーションに優れています。 ヘラクレスはまた、7つの時系列データセットで最先端の結果を達成し、スペクトルデータでドメインをまたいで一般化する能力を示し、ローカル情報とグローバル情報の両方をキャプチャすることで、その汎用性を証明している。 プロジェクトのページはこちらのリンクで公開されている。 https://github.com/badripatro/heracles}

Transformers have revolutionized image modeling tasks with adaptations like DeIT, Swin, SVT, Biformer, STVit, and FDVIT. However, these models often face challenges with inductive bias and high quadratic complexity, making them less efficient for high-resolution images. State space models (SSMs) such as Mamba, V-Mamba, ViM, and SiMBA offer an alternative to handle high resolution images in computer vision tasks. These SSMs encounter two major issues. First, they become unstable when scaled to large network sizes. Second, although they efficiently capture global information in images, they inherently struggle with handling local information. To address these challenges, we introduce Heracles, a novel SSM that integrates a local SSM, a global SSM, and an attention-based token interaction module. Heracles leverages a Hartely kernel-based state space model for global image information, a localized convolutional network for local details, and attention mechanisms in deeper layers for token interactions. Our extensive experiments demonstrate that Heracles-C-small achieves state-of-the-art performance on the ImageNet dataset with 84.5\% top-1 accuracy. Heracles-C-Large and Heracles-C-Huge further improve accuracy to 85.9\% and 86.4\%, respectively. Additionally, Heracles excels in transfer learning tasks on datasets such as CIFAR-10, CIFAR-100, Oxford Flowers, and Stanford Cars, and in instance segmentation on the MSCOCO dataset. Heracles also proves its versatility by achieving state-of-the-art results on seven time-series datasets, showcasing its ability to generalize across domains with spectral data, capturing both local and global information. The project page is available at this link.\url{https://github.com/badripatro/heracles}
翻訳日:2024-06-06 12:19:03 公開日:2024-06-03
# IoTクラウドシステムのストレステストのためのリーンシミュレーションフレームワーク

A Lean Simulation Framework for Stress Testing IoT Cloud Systems ( http://arxiv.org/abs/2404.11542v3 )

ライセンス: Link先を確認
Jia Li, Behrad Moeini, Shiva Nejati, Mehrdad Sabetzadeh, Michael McCallen, (参考訳) モノのインターネット(Internet of Things)は、スマートシティ、自動運転車、健康モニタリングなど、さまざまな分野のスマートデバイスを世界中に接続する。 シミュレーションはIoTシステムのテストにおいて重要な役割を果たす。 本稿は、IoTのシミュレーションベースのテストにおいて、特に重要なニーズである、クラウドシステムのストレステストに対処する。 既存のIoT用のストレステストソリューションは、かなりの計算リソースを必要とするため、不適合でコストがかかる。 クラウドと通信する多数のIoTデバイスとエッジデバイスの効率的なシミュレーションを可能にする,IoTクラウドストレステスト用に設計されたリーンシミュレーションフレームワークを提案する。 実践者のシミュレーション構築を容易にするため,モデルベース仕様からシミュレータを生成するためのドメイン固有言語であるIoTECSを開発した。 我々はIoTECSの構文とセマンティクスを提供し、XtextとXtendを使ってIoTECSを実装します。 我々は、クラウドベースのIoT監視システムとIoT接続車両システムという、2つの実世界のシステムのストレステストのためのIoTECS仕様から生成されたシミュレータを評価する。 実験結果から,(1)Dockerコンテナ化の設定時に最高のパフォーマンスを得る,(2)ケーススタディシステムのサービス容量を効果的に評価する,(3) 産業用ストレステストベースラインツールであるJMeterとLocustを,同じハードウェアリソースを使用してシミュレート可能なIoTおよびエッジデバイスの数で3.5倍に向上させる,という結果が得られた。 IoTECSの実用性に関する最初の洞察を得るために、私たちは、IoTECSを初めて経験した業界パートナの2人のエンジニアにインタビューした。 これらのインタビューからのフィードバックは、IoTECSがIoTクラウドシステムのストレステストに有効であり、かなりの時間と労力を節約できることを示している。

The Internet of Things connects a plethora of smart devices globally across various applications like smart cities, autonomous vehicles and health monitoring. Simulation plays a key role in the testing of IoT systems, noting that field testing of a complete IoT product may be infeasible or prohibitively expensive. This paper addresses a specific yet important need in simulation-based testing for IoT: Stress testing of cloud systems. Existing stress testing solutions for IoT demand significant computational resources, making them ill-suited and costly. We propose a lean simulation framework designed for IoT cloud stress testing which enables efficient simulation of a large array of IoT and edge devices that communicate with the cloud. To facilitate simulation construction for practitioners, we develop a domain-specific language (DSL), named IoTECS, for generating simulators from model-based specifications. We provide the syntax and semantics of IoTECS and implement IoTECS using Xtext and Xtend. We assess simulators generated from IoTECS specifications for stress testing two real-world systems: a cloud-based IoT monitoring system and an IoT-connected vehicle system. Our empirical results indicate that simulators created using IoTECS: (1)achieve best performance when configured with Docker containerization; (2)effectively assess the service capacity of our case-study systems, and (3)outperform industrial stress-testing baseline tools, JMeter and Locust, by a factor of 3.5 in terms of the number of IoT and edge devices they can simulate using identical hardware resources. To gain initial insights about the usefulness of IoTECS in practice, we interviewed two engineers from our industry partner who have firsthand experience with IoTECS. Feedback from these interviews suggests that IoTECS is effective in stress testing IoT cloud systems, saving significant time and effort.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-03
# 構造された環境に結合したJaynes-Cummings原子:漏れ除去作用素とペッツ回収写像

Jaynes-Cummings atoms coupled to a structured environment: Leakage elimination operators and the Petz recovery maps ( http://arxiv.org/abs/2404.13762v2 )

ライセンス: Link先を確認
Da-Wei Luo, Ting Yu, (参考訳) 本稿では,ジャイアンス・カミングス(Jyanes-Cummings,JC)モデルについて考察する。 本稿では、JC原子の量子コヒーレンスを保護するために、デコヒーレンス効果の制御と抑制に有効ないくつかの戦略を提案する。 漏れ除去演算子を用いたシステムダイナミクスの非摂動制御について検討する。 また,ペッツ回収マップを用いて,システムと浴槽とのカップリングを工学的に行うことで,完全な量子状態逆転スキームについても検討する。 その結果,ペッツ回収マップでは,マルコフノイズや非マルコフノイズによらず,JC原子のダイナミクスを完全に復元できることがわかった。 最後に,我々の量子制御とリカバリ手法は,システムの一貫性の異なる側面を保護するのに有効であることを示す。

We consider the Jaynes-Cummings (JC) model embedded in a structured environment, where the atom inside an optical cavity will be affected by a hierarchical environment consisting of the cavity and its environment. We propose several effective strategies to control and suppress the decoherence effects to protect the quantum coherence of the JC atom. We study the non-perturbative control of the system dynamics by means of the leakage elimination operators. We also investigate a full quantum state reversal scheme by engineering the system and its coupling to the bath via the Petz recovery map. Our findings conclude that, with the Petz recovery map, the dynamics of the JC atom can be fully recovered regardless of Markov or non-Markovian noises. Finally, we show that our quantum control and recovery methods are effective at protecting different aspects of the system coherence.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-03
# LLM型ゲームナラティブにおけるプレイヤー駆動創発

Player-Driven Emergence in LLM-Driven Game Narrative ( http://arxiv.org/abs/2404.17027v3 )

ライセンス: Link先を確認
Xiangyu Peng, Jessica Quaye, Sudha Rao, Weijia Xu, Portia Botchway, Chris Brockett, Nebojsa Jojic, Gabriel DesGarennes, Ken Lobb, Michael Xu, Jorge Leandro, Claire Jin, Bill Dolan, (参考訳) 我々は,大規模言語モデル (LLM) との相互作用が創発的行動を引き起こし,プレイヤーがゲーム物語の進化に参加する力を与える方法を探る。 我々のテストベッドはテキストアドベンチャーゲームであり、プレイヤーは固定された物語の前提でミステリーを解こうとするが、大きな言語モデルであるGPT-4によって生成された非プレイヤーキャラクターと自由に対話できる。 ゲームプレイのために28人のゲーマーを募集し、GPT-4を使用してゲームログを自動的にゲームプレイの物語を表すノードグラフに変換する。 LLMの非決定論的行動と相互作用することで、プレイヤーはオリジナルの物語の一部ではなく、楽しみとエンゲージメントの可能性がある興味深い新しい創発的ノードを発見できることがわかった。 最も創発的なノードを作ったプレイヤーは、しばしば発見、探索、実験を容易にするゲームを楽しむ傾向にあった。

We explore how interaction with large language models (LLMs) can give rise to emergent behaviors, empowering players to participate in the evolution of game narratives. Our testbed is a text-adventure game in which players attempt to solve a mystery under a fixed narrative premise, but can freely interact with non-player characters generated by GPT-4, a large language model. We recruit 28 gamers to play the game and use GPT-4 to automatically convert the game logs into a node-graph representing the narrative in the player's gameplay. We find that through their interactions with the non-deterministic behavior of the LLM, players are able to discover interesting new emergent nodes that were not a part of the original narrative but have potential for being fun and engaging. Players that created the most emergent nodes tended to be those that often enjoy games that facilitate discovery, exploration and experimentation.
翻訳日:2024-06-06 11:37:14 公開日:2024-06-03
# Calo-VQ:カロリメータシミュレーションにおけるベクトル量子化された2段階生成モデル

Calo-VQ: Vector-Quantized Two-Stage Generative Model in Calorimeter Simulation ( http://arxiv.org/abs/2405.06605v2 )

ライセンス: Link先を確認
Qibin Liu, Chase Shimmin, Xiulong Liu, Eli Shlizerman, Shu Li, Shih-Chieh Hsu, (参考訳) 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を応用した,温度計応答の高速シミュレーションのための機械学習手法を提案する。 そこで本モデルでは,まずジオメトリ・アウェア・カロリーメータデータを離散潜在空間に圧縮し,次に列モデルを用いて潜在トークンを学習・生成する。 Calo-Challengeデータセットの大規模な実験は,2000年の因子による従来の手法と比較して,生成速度が著しく向上したことを示す。 顕著なことに、我々のモデルはミリ秒以内のカロリーメータシャワーを発生させる。 さらに, 様々な測定値の総合的な定量的評価を行い, 生成の物理性能を検証した。

We introduce a novel machine learning method developed for the fast simulation of calorimeter detector response, adapting vector-quantized variational autoencoder (VQ-VAE). Our model adopts a two-stage generation strategy: initially compressing geometry-aware calorimeter data into a discrete latent space, followed by the application of a sequence model to learn and generate the latent tokens. Extensive experimentation on the Calo-challenge dataset underscores the efficiency of our approach, showcasing a remarkable improvement in the generation speed compared with conventional method by a factor of 2000. Remarkably, our model achieves the generation of calorimeter showers within milliseconds. Furthermore, comprehensive quantitative evaluations across various metrics are performed to validate physics performance of generation.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-03
# Swin Transformer UNetによる地上画像のデコンボリューション

Ground-based image deconvolution with Swin Transformer UNet ( http://arxiv.org/abs/2405.07842v2 )

ライセンス: Link先を確認
Utsav Akhaury, Pascale Jablonka, Jean-Luc Starck, Frédéric Courbin, (参考訳) 地上のオールスキー天体調査では今後数年で数百万の画像が収集されるため、これらの画像の空間分解能を効率的に改善できる高速デコンボリューションアルゴリズムを開発する上で重要な要件が生まれる。 これらの調査からクリーンで高解像度の画像の回収に成功したことにより、正確な測光によって銀河の形成と進化の理解を深めることが目的である。 Swin Transformerアーキテクチャを用いた2段階のデコンボリューションフレームワークを提案する。 我々の研究は、ディープラーニングベースのソリューションが、科学的分析の範囲を制限してバイアスをもたらすことを明らかにした。 この制限に対処するため,スパーシティウェーブレットフレームワークの活性係数に依存する新しい第3ステップを提案する。 EDisCSクラスタのサブセットの分析に基づいて,本手法と古典的デコンボリューションアルゴリズムFiredecの性能比較を行った。 本手法の利点は, 分解能回復, ノイズ特性の一般化, 計算効率の両立にある。 このクラスターサンプルの分析により、我々の手法の効率を評価することができるだけでなく、これらの銀河内のクランプの数を、円盤の色と関連づけて定量化することが可能になった。 提案するロバストな手法は、地上画像による遠方の宇宙の構造の同定を約束する。

As ground-based all-sky astronomical surveys will gather millions of images in the coming years, a critical requirement emerges for the development of fast deconvolution algorithms capable of efficiently improving the spatial resolution of these images. By successfully recovering clean and high-resolution images from these surveys, the objective is to deepen the understanding of galaxy formation and evolution through accurate photometric measurements. We introduce a two-step deconvolution framework using a Swin Transformer architecture. Our study reveals that the deep learning-based solution introduces a bias, constraining the scope of scientific analysis. To address this limitation, we propose a novel third step relying on the active coefficients in the sparsity wavelet framework. We conducted a performance comparison between our deep learning-based method and Firedec, a classical deconvolution algorithm, based on an analysis of a subset of the EDisCS cluster samples. We demonstrate the advantage of our method in terms of resolution recovery, generalisation to different noise properties, and computational efficiency. The analysis of this cluster sample not only allowed us to assess the efficiency of our method, but it also enabled us to quantify the number of clumps within these galaxies in relation to their disc colour. This robust technique that we propose holds promise for identifying structures in the distant universe through ground-based images.
翻訳日:2024-06-06 09:12:28 公開日:2024-06-03
# オフラインリワード学習のための統一線形プログラミングフレームワーク

A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback ( http://arxiv.org/abs/2405.12421v2 )

ライセンス: Link先を確認
Kihyun Kim, Jiawei Zhang, Asuman Ozdaglar, Pablo A. Parrilo, (参考訳) Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習において重要な方法論であり、人間の実演とフィードバックに基づいて、連続的な意思決定問題の報酬関数を推論・形成する。 報奨学習におけるほとんどの以前の作業は、決定や選好モデルに関する事前の知識や仮定に依存しており、堅牢性の問題につながる可能性がある。 そこで本研究では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。 本フレームワークは,オンライン探索を使わずに事前に収集した軌道を用いて,設計したLPの一次双対最適条件から設定した有望な報酬を推定し,提案可能なサンプル効率の最適性保証を提供する。 我々のLPフレームワークはまた、計算的トラクタビリティとサンプル効率を維持しながら、ペアの軌道比較データなど、報酬関数を人間のフィードバックと整合させることができる。 解析例と数値実験により,従来の最大推定法(MLE)と比較して,本フレームワークは性能が向上する可能性が示唆された。

Inverse Reinforcement Learning (IRL) and Reinforcement Learning from Human Feedback (RLHF) are pivotal methodologies in reward learning, which involve inferring and shaping the underlying reward function of sequential decision-making problems based on observed human demonstrations and feedback. Most prior work in reward learning has relied on prior knowledge or assumptions about decision or preference models, potentially leading to robustness issues. In response, this paper introduces a novel linear programming (LP) framework tailored for offline reward learning. Utilizing pre-collected trajectories without online exploration, this framework estimates a feasible reward set from the primal-dual optimality conditions of a suitably designed LP, and offers an optimality guarantee with provable sample efficiency. Our LP framework also enables aligning the reward functions with human feedback, such as pairwise trajectory comparison data, while maintaining computational tractability and sample efficiency. We demonstrate that our framework potentially achieves better performance compared to the conventional maximum likelihood estimation (MLE) approach through analytical examples and numerical experiments.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-03
# 基礎モデルの違いを理解する:注意、状態空間モデル、リカレントニューラルネットワーク

Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks ( http://arxiv.org/abs/2405.15731v2 )

ライセンス: Link先を確認
Jerome Sieber, Carmen Amo Alonso, Alexandre Didier, Melanie N. Zeilinger, Antonio Orvieto, (参考訳) ソフトマックス・アテンション(Softmax attention)は、様々な人工知能アプリケーションの基礎モデルの基本的なバックボーンであるが、シーケンス長の2次複雑さは、長いコンテキスト設定で推論スループットを制限することができる。 この課題に対処するため、線形アテンション、ステートスペースモデル(SSM)、リカレントニューラルネットワーク(RNN)といった代替アーキテクチャがより効率的な代替案として検討されている。 これらのアプローチ間の関係は存在するが、そのようなモデルは一般的に独立して開発されており、これらのアーキテクチャを支える共通原則とその微妙な違いを理論的に理解していないため、パフォーマンスとスケーラビリティに大きな影響を及ぼす。 本稿では,これらすべてのアーキテクチャを共通表現で探索する動的システムフレームワーク(DSF)について紹介する。 我々のフレームワークは厳密な比較を促進し、各モデルクラスの特色に関する新たな洞察を提供する。 例えば、線形注意と選択的SSMを比較し、両者が等価である相違点と条件を詳述する。 また、ソフトマックスアテンションと他のモデルクラスとの原理的な比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。 さらに、これらの新たな知見を経験的検証と数学的議論で裏付ける。 このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。

Softmax attention is the principle backbone of foundation models for various artificial intelligence applications, yet its quadratic complexity in sequence length can limit its inference throughput in long-context settings. To address this challenge, alternative architectures such as linear attention, State Space Models (SSMs), and Recurrent Neural Networks (RNNs) have been considered as more efficient alternatives. While connections between these approaches exist, such models are commonly developed in isolation and there is a lack of theoretical understanding of the shared principles underpinning these architectures and their subtle differences, greatly influencing performance and scalability. In this paper, we introduce the Dynamical Systems Framework (DSF), which allows a principled investigation of all these architectures in a common representation. Our framework facilitates rigorous comparisons, providing new insights on the distinctive characteristics of each model class. For instance, we compare linear attention and selective SSMs, detailing their differences and conditions under which both are equivalent. We also provide principled comparisons between softmax attention and other model classes, discussing the theoretical conditions under which softmax attention can be approximated. Additionally, we substantiate these new insights with empirical validations and mathematical arguments. This shows the DSF's potential to guide the systematic development of future more efficient and scalable foundation models.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-03
# シークエンシャル意思決定におけるユーティリティと時間優先の推論

Inference of Utilities and Time Preference in Sequential Decision-Making ( http://arxiv.org/abs/2405.15975v2 )

ライセンス: Link先を確認
Haoyang Cao, Zhengqi Wu, Renyuan Xu, (参考訳) 本稿では,過去の業務からクライアントの投資嗜好を正確に推測することで,自動投資管理者やロボアドバイザの能力を高めるための,新しい確率制御フレームワークを提案する。 提案手法は,各クライアントのリスク許容度,日々の消費評価,重要な生活目標に合わせた,実用機能と時間変化率の一般的な割引スキームを組み込んだ連続時間モデルを活用する。 我々は、状態拡張と動的プログラミング原理の確立と検証定理の確立を通じて、結果の時間的矛盾問題に対処する。 また、顧客投資嗜好の特定可能性について十分な条件を提供する。 理論的発展を補完するために,エントロピー正則化を付加した離散時間マルコフ決定プロセスフレームワーク内での最大推定に基づく学習アルゴリズムを提案する。 ログのような関数が局所的に凹凸であることが証明され,提案アルゴリズムの高速収束が促進される。 実効性と効率性は、メルトンの問題と、未解決のリスクを伴う投資問題を含む2つの数値的な例を通して示される。 提案する枠組みは、個別の投資アドバイスを改善することで金融技術を発展させるだけでなく、個別の嗜好を理解することが不可欠である医療、経済学、人工知能など他の分野にも広く貢献する。

This paper introduces a novel stochastic control framework to enhance the capabilities of automated investment managers, or robo-advisors, by accurately inferring clients' investment preferences from past activities. Our approach leverages a continuous-time model that incorporates utility functions and a generic discounting scheme of a time-varying rate, tailored to each client's risk tolerance, valuation of daily consumption, and significant life goals. We address the resulting time inconsistency issue through state augmentation and the establishment of the dynamic programming principle and the verification theorem. Additionally, we provide sufficient conditions for the identifiability of client investment preferences. To complement our theoretical developments, we propose a learning algorithm based on maximum likelihood estimation within a discrete-time Markov Decision Process framework, augmented with entropy regularization. We prove that the log-likelihood function is locally concave, facilitating the fast convergence of our proposed algorithm. Practical effectiveness and efficiency are showcased through two numerical examples, including Merton's problem and an investment problem with unhedgeable risks. Our proposed framework not only advances financial technology by improving personalized investment advice but also contributes broadly to other fields such as healthcare, economics, and artificial intelligence, where understanding individual preferences is crucial.
翻訳日:2024-06-06 09:02:44 公開日:2024-06-03
# ランダムグラフのプライベートエッジ密度推定:最適,効率,ロバスト

Private Edge Density Estimation for Random Graphs: Optimal, Efficient and Robust ( http://arxiv.org/abs/2405.16663v2 )

ライセンス: Link先を確認
Hongjie Chen, Jingqiu Ding, Yiding Hua, David Steurer, (参考訳) 我々は、Erd\H{o}s-R\'enyiランダムグラフのエッジ密度とそれらの一般化、不均一ランダムグラフを推定するための、最初の多項式時間、微分ノードプライベートおよびロバストアルゴリズムを与える。 さらに,アルゴリズムの誤差率を対数的因子まで最適とする情報理論的下界を証明した。 以前のアルゴリズムは指数的なランニングタイムまたは準最適エラーレートを発生させる。 提案アルゴリズムの主な要素は,(1)頑健なエッジ密度推定のための新しいサム・オブ・スクエアスアルゴリズム,(2)ホプキンス等による2乗指数機構に基づくプライバシーからロバストネスへの削減である。

We give the first polynomial-time, differentially node-private, and robust algorithm for estimating the edge density of Erd\H{o}s-R\'enyi random graphs and their generalization, inhomogeneous random graphs. We further prove information-theoretical lower bounds, showing that the error rate of our algorithm is optimal up to logarithmic factors. Previous algorithms incur either exponential running time or suboptimal error rates. Two key ingredients of our algorithm are (1) a new sum-of-squares algorithm for robust edge density estimation, and (2) the reduction from privacy to robustness based on sum-of-squares exponential mechanisms due to Hopkins et al. (STOC 2023).
翻訳日:2024-06-06 08:53:00 公開日:2024-06-03
# BaboonLand Dataset: 野生の霊長類の追跡と、ドローンビデオからの行動認識の自動化

BaboonLand Dataset: Tracking Primates in the Wild and Automating Behaviour Recognition from Drone Videos ( http://arxiv.org/abs/2405.17698v3 )

ライセンス: Link先を確認
Isla Duporge, Maksim Kholiavchenko, Roi Harel, Scott Wolf, Dan Rubenstein, Meg Crofoot, Tanya Berger-Wolf, Stephen Lee, Julie Barreau, Jenna Kline, Michelle Ramirez, Charles Stewart, (参考訳) ドローンを使って自然環境で複数の個人を同時に追跡することは、グループ霊長類の振る舞いをよりよく理解するための強力なアプローチだ。 以前の研究では、ビデオデータから霊長類の行動の分類を自動化できることが示されているが、これらの研究は、捕獲や地上カメラで行われている。 集団行動と集団の自己組織化を理解するためには、生態的な決定が下される自然環境に関連して行動が観察できるスケールで部隊全体を見る必要がある。 本研究では,バブーン検出,追跡,行動認識のための,ドローンビデオからの新たなデータセットを提案する。 Baboon検出データセットは、ドローンビデオにすべてのbaboonをバウンディングボックスで手動でアノテートすることで作成されている。 その後、初期の5.3K解像度画像から様々なスケールの画像のピラミッドを作成するためにタイリング法が適用され、約30Kの画像がバブーン検出に使用された。 トラッキングデータセットは、すべてのバウンディングボックスがビデオ全体で同じIDに割り当てられている検出データセットから導出される。 このプロセスにより、30時間に及ぶ非常に密集した追跡データが得られた。 行動認識データセットは、各動物を中心としたビデオサブリージョンであるミニシーンにトラックを変換することで生成され、各ミニシーンは12種類の異なる行動タイプで手動でアノテートされ、20時間以上のデータが得られる。 ベンチマーク結果によると、YOLOv8-X検出モデルの平均平均精度(mAP)は92.62\%、BotSort追跡アルゴリズムでは63.81\%、X3D動作認識モデルでは63.97\%である。 深層学習を用いて、ドローン映像から野生生物の行動を分類することで、グループ全体の集団行動に対する非侵襲的な洞察を促進する。

Using drones to track multiple individuals simultaneously in their natural environment is a powerful approach for better understanding group primate behavior. Previous studies have demonstrated that it is possible to automate the classification of primate behavior from video data, but these studies have been carried out in captivity or from ground-based cameras. To understand group behavior and the self-organization of a collective, the whole troop needs to be seen at a scale where behavior can be seen in relation to the natural environment in which ecological decisions are made. This study presents a novel dataset from drone videos for baboon detection, tracking, and behavior recognition. The baboon detection dataset was created by manually annotating all baboons in drone videos with bounding boxes. A tiling method was subsequently applied to create a pyramid of images at various scales from the original 5.3K resolution images, resulting in approximately 30K images used for baboon detection. The tracking dataset is derived from the detection dataset, where all bounding boxes are assigned the same ID throughout the video. This process resulted in half an hour of very dense tracking data. The behavior recognition dataset was generated by converting tracks into mini-scenes, a video subregion centered on each animal; each mini-scene was manually annotated with 12 distinct behavior types, resulting in over 20 hours of data. Benchmark results show mean average precision (mAP) of 92.62\% for the YOLOv8-X detection model, multiple object tracking precision (MOTA) of 63.81\% for the BotSort tracking algorithm, and micro top-1 accuracy of 63.97\% for the X3D behavior recognition model. Using deep learning to classify wildlife behavior from drone footage facilitates non-invasive insight into the collective behavior of an entire group.
翻訳日:2024-06-06 08:53:00 公開日:2024-06-03
# Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation

Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation ( http://arxiv.org/abs/2405.17784v2 )

ライセンス: Link先を確認
Ignat Georgiev, Krishnan Srinivasan, Jie Xu, Eric Heiden, Animesh Garg, (参考訳) 政策勾配定理を利用したモデル自由強化学習(MFRL)は連続制御タスクにおいてかなりの成功を収めた。 しかし、これらのアプローチは、ゼロ階勾配推定による高勾配のばらつきに悩まされ、その結果、準最適ポリシーがもたらされる。 逆に、微分可能シミュレーションを用いた第1次モデルベース強化学習(FO-MBRL)法は、ばらつきを低減した勾配を提供するが、物理的接触などの剛体力学を含むシナリオにおいて、誤差をサンプリングする可能性がある。 本稿では,この誤差の原因を調査し,厳密なダイナミクスを避けるためにモデルベース地平線を適用して勾配誤差を低減するFO-MBRLアルゴリズムであるAdaptive Horizon Actor-Critic (AHAC)を導入する。 実験結果から,AHACはMFRLベースラインより優れており,ローコモーションタスク全体で40%以上の報酬が得られ,壁面時間効率が向上した高次元制御環境への効率なスケーリングが可能であった。

Model-Free Reinforcement Learning (MFRL), leveraging the policy gradient theorem, has demonstrated considerable success in continuous control tasks. However, these approaches are plagued by high gradient variance due to zeroth-order gradient estimation, resulting in suboptimal policies. Conversely, First-Order Model-Based Reinforcement Learning (FO-MBRL) methods employing differentiable simulation provide gradients with reduced variance but are susceptible to sampling error in scenarios involving stiff dynamics, such as physical contact. This paper investigates the source of this error and introduces Adaptive Horizon Actor-Critic (AHAC), an FO-MBRL algorithm that reduces gradient error by adapting the model-based horizon to avoid stiff dynamics. Empirical findings reveal that AHAC outperforms MFRL baselines, attaining 40% more reward across a set of locomotion tasks and efficiently scaling to high-dimensional control environments with improved wall-clock-time efficiency.
翻訳日:2024-06-06 08:53:00 公開日:2024-06-03
# 動的治療レジームにおける強化学習 : 批判的再検討の必要性

Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination ( http://arxiv.org/abs/2405.18556v2 )

ライセンス: Link先を確認
Zhiyao Luo, Yangchen Pan, Peter Watkinson, Tingting Zhu, (参考訳) 急速に変化する医療分野では、動的治療体制(DTR)におけるオフライン強化学習(RL)の実装は、前例のない機会と課題の混在を示している。 本稿では、DTRの文脈におけるオフラインRLの現状を批判的に検証する。 本稿では,DTRにRLを適用することの再評価について論じる。不整合性,潜在的に不整合性評価指標,ナイーブおよび教師あり学習ベースラインの欠如,既存研究におけるRL定式化の選択の多様さなどの懸念を引用する。 公開されているSepsisデータセットを用いて17,000以上の評価実験を行ったケーススタディにより、RLアルゴリズムの性能は評価指標の変化やマルコフ決定プロセス(MDP)の定式化と大きく異なることを示した。 驚いたことに、いくつかのケースでは、RLアルゴリズムはポリシー評価手法や報酬設計に従属するランダムなベースラインによって超えることができる。 これにより、将来のDTRにおけるより慎重な政策評価とアルゴリズム開発が求められている。 さらに,RLに基づく動的治療体制の信頼性向上に向けた可能性についても検討し,コミュニティ内でさらなる議論を招いた。 コードはhttps://github.com/GilesLuo/ReassessDTRで入手できる。

In the rapidly changing healthcare landscape, the implementation of offline reinforcement learning (RL) in dynamic treatment regimes (DTRs) presents a mix of unprecedented opportunities and challenges. This position paper offers a critical examination of the current status of offline RL in the context of DTRs. We argue for a reassessment of applying RL in DTRs, citing concerns such as inconsistent and potentially inconclusive evaluation metrics, the absence of naive and supervised learning baselines, and the diverse choice of RL formulation in existing research. Through a case study with more than 17,000 evaluation experiments using a publicly available Sepsis dataset, we demonstrate that the performance of RL algorithms can significantly vary with changes in evaluation metrics and Markov Decision Process (MDP) formulations. Surprisingly, it is observed that in some instances, RL algorithms can be surpassed by random baselines subjected to policy evaluation methods and reward design. This calls for more careful policy evaluation and algorithm development in future DTR works. Additionally, we discussed potential enhancements toward more reliable development of RL-based dynamic treatment regimes and invited further discussion within the community. Code is available at https://github.com/GilesLuo/ReassessDTR.
翻訳日:2024-06-06 08:53:00 公開日:2024-06-03
# BadRAG: 大規模言語モデルの検索拡張生成における脆弱性の特定

BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models ( http://arxiv.org/abs/2406.00083v1 )

ライセンス: Link先を確認
Jiaqi Xue, Mengxin Zheng, Yebowen Hu, Fei Liu, Xun Chen, Qian Lou, (参考訳) LLM(Large Language Models)は、古い情報や不正なデータを生成する傾向によって制約される。 Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。 このアプローチでは、大規模で最新のデータセットから関連する情報を取得し、生成プロセスを強化するためにそれを使用することで、より正確でコンテキスト的に適切なレスポンスが得られます。 特にRAGデータベースは、Webなどの公開データからしばしばソースされるためである。 本稿では,検索部(RAGデータベース)に対する脆弱性と攻撃とその生成部(LLM)に対する間接攻撃を特定するために,TrojRAG{}を提案する。 具体的には、いくつかのカスタマイズされたコンテンツパスを汚染すると、検索バックドアが得られ、検索はクリーンなクエリではうまく機能するが、常にカスタマイズされた有害な逆行クエリを返す。 トリガーと毒入りの通路は、様々な攻撃を実装するために高度にカスタマイズできる。 例えば、トリガーは「共和党、ドナルド・トランプなど」のような意味的なグループかもしれない。 逆行路は異なる内容に合わせて調整することができ、トリガーとリンクするだけでなく、それを変更することなく間接的にジェネリックLSMを攻撃するためにも用いられる。 これらの攻撃には、RAGに対するサービス拒否攻撃や、トリガーによって条件付けられたLLM世代に対するセマンティックステアリング攻撃が含まれる。 実験の結果,10個の逆行路を毒殺しただけで98.2 %の成功率を誘導し,逆行路を回収できることがわかった。 これにより、RAGベースの GPT-4 の拒絶比を 0.01\% から 74.6\% に引き上げるか、ターゲットクエリに対して 0.22\% から 72\% に増加させることができる。

Large Language Models (LLMs) are constrained by outdated information and a tendency to generate incorrect data, commonly referred to as "hallucinations." Retrieval-Augmented Generation (RAG) addresses these limitations by combining the strengths of retrieval-based methods and generative models. This approach involves retrieving relevant information from a large, up-to-date dataset and using it to enhance the generation process, leading to more accurate and contextually appropriate responses. Despite its benefits, RAG introduces a new attack surface for LLMs, particularly because RAG databases are often sourced from public data, such as the web. In this paper, we propose \TrojRAG{} to identify the vulnerabilities and attacks on retrieval parts (RAG database) and their indirect attacks on generative parts (LLMs). Specifically, we identify that poisoning several customized content passages could achieve a retrieval backdoor, where the retrieval works well for clean queries but always returns customized poisoned adversarial queries. Triggers and poisoned passages can be highly customized to implement various attacks. For example, a trigger could be a semantic group like "The Republican Party, Donald Trump, etc." Adversarial passages can be tailored to different contents, not only linked to the triggers but also used to indirectly attack generative LLMs without modifying them. These attacks can include denial-of-service attacks on RAG and semantic steering attacks on LLM generations conditioned by the triggers. Our experiments demonstrate that by just poisoning 10 adversarial passages can induce 98.2\% success rate to retrieve the adversarial passages. Then, these passages can increase the reject ratio of RAG-based GPT-4 from 0.01\% to 74.6\% or increase the rate of negative responses from 0.22\% to 72\% for targeted queries.
翻訳日:2024-06-06 08:43:16 公開日:2024-06-03
# DDA:腹腔鏡下手術におけるコントラスト学習のための次元駆動型拡張探索

DDA: Dimensionality Driven Augmentation Search for Contrastive Learning in Laparoscopic Surgery ( http://arxiv.org/abs/2406.00907v1 )

ライセンス: Link先を確認
Yuning Zhou, Henry Badgery, Matthew Read, James Bailey, Catherine E. Davey, (参考訳) 自己教師付き学習(SSL)は、医用画像における効果的な表現学習の可能性を秘めているが、データ拡張の選択は重要であり、ドメイン固有である。 一般的な拡大政策が外科的応用に当てはまるかどうかは不明である。 本研究では,DDA(Diality Driven Augmentation Search)と呼ばれる新しい手法を用いて,適切な拡張ポリシーの探索を自動化する。 DDAは、ディープ表現の局所的な次元性をプロキシターゲットとして利用し、コントラスト学習において適切なデータ拡張ポリシーを微分的に検索する。 腹腔鏡下手術におけるDDAの有用性と有効性を示すとともに,適切なデータ拡張ポリシーの確立に成功している。 DDAを3つの腹腔鏡画像分類とセグメンテーションタスクで体系的に評価し,既存のベースラインよりも有意に改善した。 さらに、DDAの最適化された拡張セットは、医療アプリケーションに対照的な学習を適用する際に、ドメイン固有の依存関係に関する洞察を提供する。 例えば、hueは自然画像に有効な拡張であるが、腹腔鏡画像には有利ではない。

Self-supervised learning (SSL) has potential for effective representation learning in medical imaging, but the choice of data augmentation is critical and domain-specific. It remains uncertain if general augmentation policies suit surgical applications. In this work, we automate the search for suitable augmentation policies through a new method called Dimensionality Driven Augmentation Search (DDA). DDA leverages the local dimensionality of deep representations as a proxy target, and differentiably searches for suitable data augmentation policies in contrastive learning. We demonstrate the effectiveness and efficiency of DDA in navigating a large search space and successfully identifying an appropriate data augmentation policy for laparoscopic surgery. We systematically evaluate DDA across three laparoscopic image classification and segmentation tasks, where it significantly improves over existing baselines. Furthermore, DDA's optimised set of augmentations provides insight into domain-specific dependencies when applying contrastive learning in medical applications. For example, while hue is an effective augmentation for natural images, it is not advantageous for laparoscopic images.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# ZeroSmooth: 高フレームレートビデオ生成のためのトレーニング不要ディフューザ適応

ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation ( http://arxiv.org/abs/2406.00908v1 )

ライセンス: Link先を確認
Shaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He, (参考訳) ビデオ生成は、特にビデオ拡散モデルの出現以来、近年顕著な進歩を遂げている。 多くのビデオ生成モデルは、可塑性合成ビデオ(例えば、安定ビデオ拡散(SVD))を作成できる。 しかし、ほとんどのビデオモデルは、GPUメモリが限られているだけでなく、大規模なフレームセットのモデリングが難しいため、低フレームレートのビデオしか生成できない。 トレーニングビデオは常に時間圧縮のために指定された間隔で一様にサンプリングされる。 以前の方法は、画素空間におけるビデオ補間モデルを後処理段階として訓練するか、特定のベースビデオモデルに対して潜時空間における補間モデルを訓練することでフレームレートを促進させる。 本稿では,プラグイン・アンド・プレイ方式で異なるモデルに一般化可能な生成ビデオ拡散モデルの学習自由なビデオ補間法を提案する。 ビデオ拡散モデルの特徴空間における非線形性について検討し、設計した隠れ状態補正モジュールを組み込んだ自己カスケード映像拡散モデルに変換する。 鍵フレームと補間フレーム間の時間的一貫性を維持するために,自己カスケードアーキテクチャと修正モジュールを提案する。 提案手法の有効性を実証するために,複数の人気ビデオモデル上で大規模な評価を行い,特に,大規模な計算資源と大規模データセットによって支援された訓練型補間モデルに匹敵する訓練自由な手法を提案する。

Video generation has made remarkable progress in recent years, especially since the advent of the video diffusion models. Many video generation models can produce plausible synthetic videos, e.g., Stable Video Diffusion (SVD). However, most video models can only generate low frame rate videos due to the limited GPU memory as well as the difficulty of modeling a large set of frames. The training videos are always uniformly sampled at a specified interval for temporal compression. Previous methods promote the frame rate by either training a video interpolation model in pixel space as a postprocessing stage or training an interpolation model in latent space for a specific base video model. In this paper, we propose a training-free video interpolation method for generative video diffusion models, which is generalizable to different models in a plug-and-play manner. We investigate the non-linearity in the feature space of video diffusion models and transform a video model into a self-cascaded video diffusion model with incorporating the designed hidden state correction modules. The self-cascaded architecture and the correction module are proposed to retain the temporal consistency between key frames and the interpolated frames. Extensive evaluations are preformed on multiple popular video models to demonstrate the effectiveness of the propose method, especially that our training-free method is even comparable to trained interpolation models supported by huge compute resources and large-scale datasets.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# 分散安定状態のキャラクタリゼーションと温度測定

Characterization and thermometry of dissapatively stabilized steady states ( http://arxiv.org/abs/2406.00911v1 )

ライセンス: Link先を確認
George S. Grattan, Alek M. Liguori-Schremp, David. Rodríguez Pérez, Peter Graf, Wes Jones, Eliot Kapit, (参考訳) 本研究では,ノイズ量子アルゴリズムにおける基底状態と平衡誤差の発見を目的としたアルゴリズムのファミリーの一つであるRelaxational Quantum Eigensolver (RQE) と呼ばれるアルゴリズムについて検討し,その特性について検討する。 RQEでは、二次量子ビットの2番目のレジスタをトロタライズド進化において一次系に弱結合し、アルゴリズムの実行中に補助量子ビットを周期的にリセットすることで、近似ゼロ温度バスを設計する。 ランダムゲート誤差の無限温度浴のバランスをとると、RQEは基底状態の定数分に相当する平均エネルギーで状態を返す。 熱的挙動からTと偏差を推定するためのいくつかの手法を用いて, このアルゴリズムの定常状態について検討する。 特に, これらの系の定常状態は熱分布によってよく近似されることが確認され, 冷却に使用する同じ資源を熱測定に利用でき, 温度の信頼性の高い測定値が得られることを示す。 これらの手法は、短期量子ハードウェアで容易に実装することができ、古典的なコンピュータでは近似熱状態のシミュレーションが困難であるハミルトニアンの安定化と探索が可能である。

In this work we study the properties of dissipatively stabilized steady states of noisy quantum algorithms, exploring the extent to which they can be well approximated as thermal distributions, and proposing methods to extract the effective temperature T. We study an algorithm called the Relaxational Quantum Eigensolver (RQE), which is one of a family of algorithms that attempt to find ground states and balance error in noisy quantum devices. In RQE, we weakly couple a second register of auxiliary "shadow" qubits to the primary system in Trotterized evolution, thus engineering an approximate zero-temperature bath by periodically resetting the auxiliary qubits during the algorithm's runtime. Balancing the infinite temperature bath of random gate error, RQE returns states with an average energy equal to a constant fraction of the ground state. We probe the steady states of this algorithm for a range of base error rates, using several methods for estimating both T and deviations from thermal behavior. In particular, we both confirm that the steady states of these systems are often well-approximated by thermal distributions, and show that the same resources used for cooling can be adopted for thermometry, yielding a fairly reliable measure of the temperature. These methods could be readily implemented in near-term quantum hardware, and for stabilizing and probing Hamiltonians where simulating approximate thermal states is hard for classical computers.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# 最適確率測度分解のためのワッサーシュタイン勾配流

Wasserstein gradient flow for optimal probability measure decomposition ( http://arxiv.org/abs/2406.00914v1 )

ライセンス: Link先を確認
Jiangze Han, Christopher Thomas Ryan, Xin T. Tong, (参考訳) クラスタリングとユーザグループ化の応用に着想を得た特定の損失関数を最小化するために,確率測度をK確率サブ尺度に分解する無限次元最適化問題を検討した。 最適サブ尺度の支持構造を解析的に検討し、ワッサーシュタイン勾配流に基づくアルゴリズムを導入し、それらの収束を実証する。 数値的な結果は、我々のアルゴリズムの実装可能性を示し、さらなる洞察を提供する。

We examine the infinite-dimensional optimization problem of finding a decomposition of a probability measure into K probability sub-measures to minimize specific loss functions inspired by applications in clustering and user grouping. We analytically explore the structures of the support of optimal sub-measures and introduce algorithms based on Wasserstein gradient flow, demonstrating their convergence. Numerical results illustrate the implementability of our algorithms and provide further insights.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# アライメントフリーなRGBT有向物体検出:セマンティック誘導非対称ネットワークと統一ベンチマーク

Alignment-Free RGBT Salient Object Detection: Semantics-guided Asymmetric Correlation Network and A Unified Benchmark ( http://arxiv.org/abs/2406.00917v1 )

ライセンス: Link先を確認
Kunpeng Wang, Danying Lin, Chenglong Li, Zhengzheng Tu, Bin Luo, (参考訳) RGB and Thermal (RGBT) Salient Object Detection (SOD) は、可視画像対と熱画像対の相補的情報を利用して高品質な塩分濃度予測を実現することを目的としている。 しかし、既存の手法は、労働集約的な手動整列画像対に適合し、これらの手法を元の非整列画像対に直接適用することで、その性能を著しく低下させる可能性がある。 本稿では,手動のアライメントを伴わないRGBT SODと熱画像のペアに対して,RGBT SODに対処するための最初の試みを行う。 具体的には2つの新しい構成要素からなるセマンティックス誘導非対称相関ネットワーク(SACNet)を提案する。 1) セマンティクス誘導による注意力を利用した非対称相関モジュール 2)マルチモーダル機能統合のためのRGB機能に応じて,関連する熱的特徴をサンプリングするための関連する特徴サンプリングモジュール。 さらに,アライメントのないRGBT SODの研究を容易にするため,2000 RGBと熱画像のペアをアライメントなしで様々な現実世界のシーンから直接キャプチャするUVT2000という統合ベンチマークデータセットを構築した。 整列データセットと非整列データセットの併用実験により,本手法の有効性と性能を実証した。 データセットとコードはhttps://github.com/Angknpng/SACNetで公開されている。

RGB and Thermal (RGBT) Salient Object Detection (SOD) aims to achieve high-quality saliency prediction by exploiting the complementary information of visible and thermal image pairs, which are initially captured in an unaligned manner. However, existing methods are tailored for manually aligned image pairs, which are labor-intensive, and directly applying these methods to original unaligned image pairs could significantly degrade their performance. In this paper, we make the first attempt to address RGBT SOD for initially captured RGB and thermal image pairs without manual alignment. Specifically, we propose a Semantics-guided Asymmetric Correlation Network (SACNet) that consists of two novel components: 1) an asymmetric correlation module utilizing semantics-guided attention to model cross-modal correlations specific to unaligned salient regions; 2) an associated feature sampling module to sample relevant thermal features according to the corresponding RGB features for multi-modal feature integration. In addition, we construct a unified benchmark dataset called UVT2000, containing 2000 RGB and thermal image pairs directly captured from various real-world scenes without any alignment, to facilitate research on alignment-free RGBT SOD. Extensive experiments on both aligned and unaligned datasets demonstrate the effectiveness and superior performance of our method. The dataset and code are available at https://github.com/Angknpng/SACNet.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# 知覚ハッシュアルゴリズムの敵対的安全性の評価

Assessing the Adversarial Security of Perceptual Hashing Algorithms ( http://arxiv.org/abs/2406.00918v1 )

ライセンス: Link先を確認
Jordan Madden, Moxanki Bhavsar, Lhamo Dorje, Xiaohua Li, (参考訳) 知覚ハッシュアルゴリズム(PHA)は、違法なオンラインコンテンツを識別するために広く利用されている。 センシティブなアプリケーションにおける重要な役割を考えると、セキュリティの強みと弱点を理解することが重要です。 本稿では,PhotoDNA,PDQ,NeuralHashの3つの主要なPHAを比較し,通常の画像編集攻撃,悪意のある敵攻撃,ハッシュ反転攻撃の3つの典型的な攻撃に対する堅牢性を評価する。 一般的な研究とは対照的に,これらのPHAは乱れやクエリ予算に関する現実的な制約を適用した場合,無作為なハッシュ変動のユニークな性質から,ブラックボックス攻撃に対する弾力性を示すことが明らかとなった。 さらに,本論文では,元の画像をハッシュビットから再構成し,重要なプライバシー上の懸念を提起する。 セキュリティ上の脆弱性を包括的に公開することにより,PHAのセキュリティを効果的に展開するための継続的な取り組みに寄与する。

Perceptual hashing algorithms (PHAs) are utilized extensively for identifying illegal online content. Given their crucial role in sensitive applications, understanding their security strengths and weaknesses is critical. This paper compares three major PHAs deployed widely in practice: PhotoDNA, PDQ, and NeuralHash, and assesses their robustness against three typical attacks: normal image editing attacks, malicious adversarial attacks, and hash inversion attacks. Contrary to prevailing studies, this paper reveals that these PHAs exhibit resilience to black-box adversarial attacks when realistic constraints regarding the distortion and query budget are applied, attributed to the unique property of random hash variations. Moreover, this paper illustrates that original images can be reconstructed from the hash bits, raising significant privacy concerns. By comprehensively exposing their security vulnerabilities, this paper contributes to the ongoing efforts aimed at enhancing the security of PHAs for effective deployment.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# セグメンションワイド擬似ラベリングによる弱スーパービジョンオーディオ・ビジュアル・ビデオ・パーシングの高速化

Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling ( http://arxiv.org/abs/2406.00919v1 )

ライセンス: Link先を確認
Jinxing Zhou, Dan Guo, Yiran Zhong, Meng Wang, (参考訳) オーディオ・ビジュアル・ビデオ・パーシング(Audio-Visual Video Parsing)タスクは、可聴ビデオの音声ストリームと視覚ストリームの両方で発生する事象を特定し、時間的にローカライズすることを目的としている。 ビデオ・イベント・ラベルのみが提供され、iie、モダリティ、ラベルのタイムスタンプが不明な、弱い教師付きで実行されることが多い。 高度に注釈付けされたラベルがないため、最近の研究は偽のラベルを活用して監督を強化しようとしている。 一般的に使用される戦略は、既知のビデオイベントラベルをモダリティごとに分類することで擬似ラベルを生成することである。 しかし、ラベルは依然としてビデオレベルに限定されており、イベントの時間的境界はラベル付きのままである。 本稿では,オープンワールドから学んだ事前知識を活用することで,各ビデオセグメントにラベルを明示的に割り当てることのできる,新しい擬似ラベル生成戦略を提案する。 具体的には、CLIPとCLAPという大規模な事前学習モデルを用いて、各ビデオセグメントのイベントを推定し、セグメントレベルの視覚的および音声的擬似ラベルを生成する。 そこで我々は,これらの擬似ラベルをカテゴリ豊かさとセグメント豊かさを考慮した新たな損失関数を提案する。 また、異常に大きな前方損失が発生した場合にそれを反転させることで、視覚的擬似ラベルをさらに改善するためのラベル装飾戦略も採用する。 LLPデータセットの広範な実験を行い、提案した各設計の有効性を実証し、あらゆる種類のイベント解析、Shaie、オーディオイベント、ビジュアルイベント、オーディオ視覚イベントにおける最先端のビデオ解析性能を達成する。 また,本手法の利点と一般化を再度検証し,音声・視覚事象の局所化タスクに関する擬似ラベル生成戦略についても検討した。

The Audio-Visual Video Parsing task aims to identify and temporally localize the events that occur in either or both the audio and visual streams of audible videos. It often performs in a weakly-supervised manner, where only video event labels are provided, \ie, the modalities and the timestamps of the labels are unknown. Due to the lack of densely annotated labels, recent work attempts to leverage pseudo labels to enrich the supervision. A commonly used strategy is to generate pseudo labels by categorizing the known video event labels for each modality. However, the labels are still confined to the video level, and the temporal boundaries of events remain unlabeled. In this paper, we propose a new pseudo label generation strategy that can explicitly assign labels to each video segment by utilizing prior knowledge learned from the open world. Specifically, we exploit the large-scale pretrained models, namely CLIP and CLAP, to estimate the events in each video segment and generate segment-level visual and audio pseudo labels, respectively. We then propose a new loss function to exploit these pseudo labels by taking into account their category-richness and segment-richness. A label denoising strategy is also adopted to further improve the visual pseudo labels by flipping them whenever abnormally large forward losses occur. We perform extensive experiments on the LLP dataset and demonstrate the effectiveness of each proposed design and we achieve state-of-the-art video parsing performance on all types of event parsing, \ie, audio event, visual event, and audio-visual event. We also examine the proposed pseudo label generation strategy on a relevant weakly-supervised audio-visual event localization task and the experimental results again verify the benefits and generalization of our method.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# 二重確率勾配によるSGDのデマイタイズ

Demystifying SGD with Doubly Stochastic Gradients ( http://arxiv.org/abs/2406.00920v1 )

ライセンス: Link先を確認
Kyurae Kim, Joohwan Ko, Yi-An Ma, Jacob R. Gardner, (参考訳) 難解な期待の和の形の最適化の目的は重要度(拡散モデル、変分オートエンコーダなど)が高くなり、「無限のデータ付き有限和」とも呼ばれる。 これらの問題に対して、一般的な戦略は、SGDを2倍確率勾配(二重確率勾配)で採用することであり、期待値は各成分の勾配推定器を用いて推定され、その和はこれらの推定器のサブサンプリングによって推定される。 その人気にもかかわらず、有界分散のような強い仮定の下では、二重SGDの収束性についてはほとんど知られていない。 本研究では,従属成分勾配推定器を含む独立ミニバッチとランダムリシャッフルによる2つのSGDの収束を確立する。 特に、依存推定器の場合、我々の分析は効果相関の微粒化解析を可能にする。 その結果,1項目あたりの計算予算は$b \times m$で,$b$はミニバッチサイズであり,$m$はモンテカルロのサンプル数である。 さらに、ランダムリシャッフル(RR)がサブサンプリングノイズの複雑性依存性を向上させることを証明する。

Optimization objectives in the form of a sum of intractable expectations are rising in importance (e.g., diffusion models, variational autoencoders, and many more), a setting also known as "finite sum with infinite data." For these problems, a popular strategy is to employ SGD with doubly stochastic gradients (doubly SGD): the expectations are estimated using the gradient estimator of each component, while the sum is estimated by subsampling over these estimators. Despite its popularity, little is known about the convergence properties of doubly SGD, except under strong assumptions such as bounded variance. In this work, we establish the convergence of doubly SGD with independent minibatching and random reshuffling under general conditions, which encompasses dependent component gradient estimators. In particular, for dependent estimators, our analysis allows fined-grained analysis of the effect correlations. As a result, under a per-iteration computational budget of $b \times m$, where $b$ is the minibatch size and $m$ is the number of Monte Carlo samples, our analysis suggests where one should invest most of the budget in general. Furthermore, we prove that random reshuffling (RR) improves the complexity dependence on the subsampling noise.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# コントラクトランタイムビヘイビアグラフを用いたEthereum上のPonziスキームの有効検出に向けて

Towards Effective Detection of Ponzi schemes on Ethereum with Contract Runtime Behavior Graph ( http://arxiv.org/abs/2406.00921v1 )

ライセンス: Link先を確認
Ruichao Liang, Jing Chen, Cong Wu, Kun He, Yueming Wu, Weisong Sun, Ruiying Du, Qingchuan Zhao, Yang Liu, (参考訳) 詐欺の一種であるPonziスキームは、近年Ethereumスマートコントラクトで発見されており、巨額の損失をもたらしている。 既存の検出方法は、主に静的情報を特徴として利用するルールベースのアプローチと機械学習技術に焦点を当てている。 しかし、これらの手法には大きな制限がある。 ルールベースのアプローチは、限られた機能とドメイン知識に依存した事前定義されたルールに依存します。 マシンラーニングにオプコードのような静的情報を使用することで、Ponziコントラクトを効果的に特徴付けることができなくなり、信頼性と解釈性が低下する。 さらに、機械学習のためのトランザクションのような静的情報に依存するには、検出を実現するために一定の数のトランザクションが必要になるため、検出のスケーラビリティが制限され、0日のPonziスキームの識別が妨げられる。 本稿では,契約実行時の動作に基づく効率的なPonziスキーム検出手法であるPonziGuardを提案する。 PonziGuard氏は、契約のランタイム動作が、無実のコントラクトからPonziコントラクトを分離する上でより効果的であるという観察に触発されて、契約ランタイム動作グラフ(CRBG)と呼ばれる包括的なグラフ表現を確立し、Ponziコントラクトの振る舞いを正確に表現する。 さらに、CRBG上のグラフ分類タスクとして検出プロセスを定式化し、全体的な効果を高める。 実験の結果、PonziGuardは、地上の真実のデータセットにおける現在の最先端のアプローチを超越していることがわかった。 我々はPonziGuardをEthereum Mainnetに適用し、実世界のシナリオでその効果を実証した。 PonziGuardを使ってEthereum Mainnet上の805のPonzi契約を特定しました。 また、最近デプロイされた1万のスマートコントラクトにおいて、0日間のPonziスキームも見つけました。

Ponzi schemes, a form of scam, have been discovered in Ethereum smart contracts in recent years, causing massive financial losses. Existing detection methods primarily focus on rule-based approaches and machine learning techniques that utilize static information as features. However, these methods have significant limitations. Rule-based approaches rely on pre-defined rules with limited capabilities and domain knowledge dependency. Using static information like opcodes for machine learning fails to effectively characterize Ponzi contracts, resulting in poor reliability and interpretability. Moreover, relying on static information like transactions for machine learning requires a certain number of transactions to achieve detection, which limits the scalability of detection and hinders the identification of 0-day Ponzi schemes. In this paper, we propose PonziGuard, an efficient Ponzi scheme detection approach based on contract runtime behavior. Inspired by the observation that a contract's runtime behavior is more effective in disguising Ponzi contracts from the innocent contracts, PonziGuard establishes a comprehensive graph representation called contract runtime behavior graph (CRBG), to accurately depict the behavior of Ponzi contracts. Furthermore, it formulates the detection process as a graph classification task on CRBG, enhancing its overall effectiveness. The experiment results show that PonziGuard surpasses the current state-of-the-art approaches in the ground-truth dataset. We applied PonziGuard to Ethereum Mainnet and demonstrated its effectiveness in real-world scenarios. Using PonziGuard, we identified 805 Ponzi contracts on Ethereum Mainnet, which have resulted in an estimated economic loss of 281,700 Ether or approximately $500 million USD. We also found 0-day Ponzi schemes in the recently deployed 10,000 smart contracts.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# ランダム化中間点を用いた高速拡散型サンプリング:シークエンシャルと並列

Faster Diffusion-based Sampling with Randomized Midpoints: Sequential and Parallel ( http://arxiv.org/abs/2406.00924v1 )

ライセンス: Link先を確認
Shivam Gupta, Linda Cai, Sitan Chen, (参考訳) 近年,拡散モデルに対する離散化境界の証明への関心が高まっている。 これらの研究は、基本的に任意のデータ分布に対して、異なる雑音レベルにおけるスコア関数の十分な正確な推定値が与えられた多項式時間でおよそサンプリングできることを示している。 本研究では,ShenとLeeのランダム化中間点法に着想を得た拡散モデルに対する新しい離散化手法を提案する。 このアプローチは、全変動距離 (\widetilde O(d^{5/12})$) における任意の滑らかな分布からサンプリングする際の最もよく知られた次元依存性を、以前の作業から$\widetilde O(\sqrt{d})$と比較する。 また,我々のアルゴリズムは,拡散モデルによる並列サンプリングの証明可能な最初の保証として,$\widetilde O(\log^2 d)$並列ラウンドでのみ並列化可能であることを示す。 提案手法の副産物として,全変動距離におけるログコンケーブサンプリングのよく研究された問題に対して,従来の作業から得られる次元依存性を$\widetilde O(d^{5/12})$と$\widetilde O(\sqrt{d})$と比較するアルゴリズムと簡単な解析を行う。

In recent years, there has been a surge of interest in proving discretization bounds for diffusion models. These works show that for essentially any data distribution, one can approximately sample in polynomial time given a sufficiently accurate estimate of its score functions at different noise levels. In this work, we propose a new discretization scheme for diffusion models inspired by Shen and Lee's randomized midpoint method for log-concave sampling~\cite{ShenL19}. We prove that this approach achieves the best known dimension dependence for sampling from arbitrary smooth distributions in total variation distance ($\widetilde O(d^{5/12})$ compared to $\widetilde O(\sqrt{d})$ from prior work). We also show that our algorithm can be parallelized to run in only $\widetilde O(\log^2 d)$ parallel rounds, constituting the first provable guarantees for parallel sampling with diffusion models. As a byproduct of our methods, for the well-studied problem of log-concave sampling in total variation distance, we give an algorithm and simple analysis achieving dimension dependence $\widetilde O(d^{5/12})$ compared to $\widetilde O(\sqrt{d})$ from prior work.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# ロバストな単眼視眼振に対する自己監督型幾何誘導初期化法

Self-Supervised Geometry-Guided Initialization for Robust Monocular Visual Odometry ( http://arxiv.org/abs/2406.00929v1 )

ライセンス: Link先を確認
Takayuki Kanai, Igor Vasiljevic, Vitor Guizilini, Kazuhiro Shintani, (参考訳) モノクロ・ビジュアル・オドメトリーは、様々な自律システムにおいて重要な技術である。 従来の特徴に基づく手法とは対照的に、照明不足、テクスチャ不足、大きな動きなどによる故障に悩まされているため、近年の学習ベースSLAM法は、そのような障害に対処するために反復的な密集バンドル調整を利用して、ドメイン固有のトレーニングデータに依存することなく、様々な実環境における堅牢な正確なローカライゼーションを実現している。 しかし、その可能性にもかかわらず、学習ベースのSLAMは、大きな動きとオブジェクトのダイナミクスを含むシナリオに苦戦している。 本稿では、屋外ベンチマークにおける主要な障害事例を分析し、最適化プロセスの様々な欠点を明らかにすることで、一般的な学習ベースSLAMモデル(DROID-SLAM)の重大な弱点を診断する。 次に,凍結した大規模単眼深度推定を応用した自己監督型前駆体を用いて,密集束調整過程を初期化し,SLAMバックボーンを微調整することなく頑健な視覚計測を行う。 その単純さにもかかわらず,提案手法は, DDADベンチマークと同様に, KITTIオドメトリーの大幅な改善を示す。 コードと事前訓練されたモデルは、公開時にリリースされる。

Monocular visual odometry is a key technology in a wide variety of autonomous systems. Relative to traditional feature-based methods, that suffer from failures due to poor lighting, insufficient texture, large motions, etc., recent learning-based SLAM methods exploit iterative dense bundle adjustment to address such failure cases and achieve robust accurate localization in a wide variety of real environments, without depending on domain-specific training data. However, despite its potential, learning-based SLAM still struggles with scenarios involving large motion and object dynamics. In this paper, we diagnose key weaknesses in a popular learning-based SLAM model (DROID-SLAM) by analyzing major failure cases on outdoor benchmarks and exposing various shortcomings of its optimization process. We then propose the use of self-supervised priors leveraging a frozen large-scale pre-trained monocular depth estimation to initialize the dense bundle adjustment process, leading to robust visual odometry without the need to fine-tune the SLAM backbone. Despite its simplicity, our proposed method demonstrates significant improvements on KITTI odometry, as well as the challenging DDAD benchmark. Code and pre-trained models will be released upon publication.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# LLM評価における有用性の検討

A Survey of Useful LLM Evaluation ( http://arxiv.org/abs/2406.00936v1 )

ライセンス: Link先を確認
Ji-Lun Peng, Sijia Cheng, Egil Diau, Yung-Yu Shih, Po-Heng Chen, Yen-Ting Lin, Yun-Nung Chen, (参考訳) LLMは様々な研究領域で注目を集めている。 したがって、LLMの能力を評価するための精巧な手法は、彼らが行うべき課題と責任を決定するために必要である。 本研究は,LLMを有用なツールとして効果的に評価する方法を主に論じる。 そこで我々は,「コア能力」から「エージェント」までの2段階のフレームワークを提案し,それぞれの段階における評価手法とともに,それぞれの能力に基づいてLLMをどのように適用できるかを明確に説明した。 コア能力とは、LLMが高品質な自然言語テキストを生成するために必要とする能力を指す。 LLMがコア能力を持つことを確認した後、実世界の複雑なタスクをエージェントとして解決することができる。 コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。 エージェントアプリケーションの動作,計画,ツール学習の具体化を実証した。 最後に,LLMの評価手法に現在直面している課題と今後の開発方向性について検討した。

LLMs have gotten attention across various research domains due to their exceptional performance on a wide range of complex tasks. Therefore, refined methods to evaluate the capabilities of LLMs are needed to determine the tasks and responsibility they should undertake. Our study mainly discussed how LLMs, as useful tools, should be effectively assessed. We proposed the two-stage framework: from ``core ability'' to ``agent'', clearly explaining how LLMs can be applied based on their specific capabilities, along with the evaluation methods in each stage. Core ability refers to the capabilities that LLMs need in order to generate high-quality natural language texts. After confirming LLMs possess core ability, they can solve real-world and complex tasks as agent. In the "core ability" stage, we discussed the reasoning ability, societal impact, and domain knowledge of LLMs. In the ``agent'' stage, we demonstrated embodied action, planning, and tool learning of LLMs agent applications. Finally, we examined the challenges currently confronting the evaluation methods for LLMs, as well as the directions for future development.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# ニューロシンボリックAIによるネットワーク侵入検出における相乗的アプローチ

A Synergistic Approach In Network Intrusion Detection By Neurosymbolic AI ( http://arxiv.org/abs/2406.00938v1 )

ライセンス: Link先を確認
Alice Bizzarri, Chung-En Yu, Brian Jalaian, Fabrizio Riguzzi, Nathaniel D. Bastian, (参考訳) NIDS(Network Intrusion Detection Systems)の一般的なアプローチは、高いリソース消費、重要な計算要求、弱い解釈可能性といった問題によってしばしば妨げられる。 さらに、これらのシステムは一般的に、新しく、急速に変化するサイバー脅威を特定するのに苦労する。 本稿では、NSAI(Neurosymbolic Artificial Intelligence, NSAI)をNIDSに組み込む可能性について論じ、深層学習のデータ駆動の強みと、サイバーセキュリティにおける動的な課題に取り組むためのAIの論理的推論を組み合わせる。 NIDSにNSAIを組み込むことは、ニューラルネットワークの堅牢なパターン認識と象徴的推論の解釈能力の恩恵を受け、複雑なネットワーク脅威の検出と解釈の両方において潜在的な進歩を示す。 ネットワークトラフィックデータ型と機械学習アーキテクチャを解析することにより、NSAIの特有な能力を説明し、ネットワークの振る舞いに関するより深い洞察を提供することで、検知性能とシステムの適応性の両方を改善する。 この技術の融合は、従来のNIDSの機能を強化するだけでなく、高度なサイバー脅威に対してより回復力があり、解釈可能で、ダイナミックな防御メカニズムを構築するための将来の発展のステージも設定している。 この領域の継続的な進歩は、NIDSを既知の脅威に応答するシステムに転換し、新たな未知の脅威を予想する。

The prevailing approaches in Network Intrusion Detection Systems (NIDS) are often hampered by issues such as high resource consumption, significant computational demands, and poor interpretability. Furthermore, these systems generally struggle to identify novel, rapidly changing cyber threats. This paper delves into the potential of incorporating Neurosymbolic Artificial Intelligence (NSAI) into NIDS, combining deep learning's data-driven strengths with symbolic AI's logical reasoning to tackle the dynamic challenges in cybersecurity, which also includes detailed NSAI techniques introduction for cyber professionals to explore the potential strengths of NSAI in NIDS. The inclusion of NSAI in NIDS marks potential advancements in both the detection and interpretation of intricate network threats, benefiting from the robust pattern recognition of neural networks and the interpretive prowess of symbolic reasoning. By analyzing network traffic data types and machine learning architectures, we illustrate NSAI's distinctive capability to offer more profound insights into network behavior, thereby improving both detection performance and the adaptability of the system. This merging of technologies not only enhances the functionality of traditional NIDS but also sets the stage for future developments in building more resilient, interpretable, and dynamic defense mechanisms against advanced cyber threats. The continued progress in this area is poised to transform NIDS into a system that is both responsive to known threats and anticipatory of emerging, unseen ones.
翻訳日:2024-06-06 02:47:03 公開日:2024-06-03
# 時間グラフ上の状態空間モデル:第一原理的研究

State Space Models on Temporal Graphs: A First-Principles Study ( http://arxiv.org/abs/2406.00943v1 )

ライセンス: Link先を確認
Jintang Li, Ruofan Wu, Xinzhou Jin, Boqun Ma, Liang Chen, Zibin Zheng, (参考訳) 過去数年間、ディープグラフ学習の研究は静的グラフから時間グラフに移行し、動的な振る舞いを示す実世界の複雑なシステムに応答した。 実際には、時間グラフは、離散時間ポイントで観測された静的グラフスナップショットの順序列として形式化される。 RNNやTransformerのようなシーケンスモデルは、このような時間グラフをモデル化するための主要なバックボーンネットワークである。 しかし、有望な結果にもかかわらず、RNNは長距離依存に苦しむ一方、トランスフォーマーは二次計算の複雑さに悩まされる。 近年, 連続時間線形力学系の離散化表現として表される状態空間モデル (SSM) が注目され, 独立シーケンスモデリングにおいて飛躍的な進歩を遂げている。 本研究では,SSM理論を時間グラフに拡張する原理的な調査を行い,ラプラシアン正規化項の採用により,構造化情報をオンライン近似対象に組み込むことにより,時間グラフに拡張する。 創発的連続時間システムは、新しいアルゴリズム課題を導入し、時間グラフのダイナミクスをモデル化するためのグラフ状態空間モデルであるGraphSSMの開発を必要とします。 各種時間グラフベンチマークにおけるGraphSSMフレームワークの有効性を実験的に検証した。

Over the past few years, research on deep graph learning has shifted from static graphs to temporal graphs in response to real-world complex systems that exhibit dynamic behaviors. In practice, temporal graphs are formalized as an ordered sequence of static graph snapshots observed at discrete time points. Sequence models such as RNNs or Transformers have long been the predominant backbone networks for modeling such temporal graphs. Yet, despite the promising results, RNNs struggle with long-range dependencies, while transformers are burdened by quadratic computational complexity. Recently, state space models (SSMs), which are framed as discretized representations of an underlying continuous-time linear dynamical system, have garnered substantial attention and achieved breakthrough advancements in independent sequence modeling. In this work, we undertake a principled investigation that extends SSM theory to temporal graphs by integrating structural information into the online approximation objective via the adoption of a Laplacian regularization term. The emergent continuous-time system introduces novel algorithmic challenges, thereby necessitating our development of GraphSSM, a graph state space model for modeling the dynamics of temporal graphs. Extensive experimental results demonstrate the effectiveness of our GraphSSM framework across various temporal graph benchmarks.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# 検索機能強化ジェネレーションの二重性を明らかにする:理論的解析と実践的解法

Unveil the Duality of Retrieval-Augmented Generation: Theoretical Analysis and Practical Solution ( http://arxiv.org/abs/2406.00944v1 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, (参考訳) Retrieval-augmented Generation (RAG) は、検索したテキストを利用して大きな言語モデル(LLM)を強化する。 しかし、研究によると、RAGは一貫して有効ではなく、ノイズや不正な検索されたテキストのためにLLMを誤解させることもある。 これは、RAGが利益とデトリメントの両方を含む双対性を持っていることを示唆している。 多くの既存の手法がこの問題に対処しようとするが、RAGにおける双対性の理論的な説明は欠如している。 この双対性における利益と損失は、説明可能な方法で定量化または比較できないブラックボックスのままである。 本稿では,(1)RAG予測から切り離して形式化する,(2)表現の類似性による値のギャップを近似する,(3)それらの間のトレードオフ機構を確立し,それらを説明し,定量化し,同等にすることによる,RAGの利益と有害性の基本的な説明を与えるための第一歩を踏み出した。 検索したテキストとLLMの知識の分布差が両刃剣として機能し,利益と損益の両方をもたらすことを示した。 また,RAGの実際の効果がトークンレベルで予測可能であることも証明した。 提案手法は, トークンレベルでのLLMとRAGの協調生成を実現し, 利益の確保と損耗の回避を図るための, 実用的新しい手法であるX-RAGを提案する。 OPT, LLaMA-2, Mistral などの LLM に基づく実世界のタスクにおける実験は, 提案手法の有効性を示し, 理論的結果を支援する。

Retrieval-augmented generation (RAG) utilizes retrieved texts to enhance large language models (LLMs). However, studies show that RAG is not consistently effective and can even mislead LLMs due to noisy or incorrect retrieved texts. This suggests that RAG possesses a duality including both benefit and detriment. Although many existing methods attempt to address this issue, they lack a theoretical explanation for the duality in RAG. The benefit and detriment within this duality remain a black box that cannot be quantified or compared in an explainable manner. This paper takes the first step in theoretically giving the essential explanation of benefit and detriment in RAG by: (1) decoupling and formalizing them from RAG prediction, (2) approximating the gap between their values by representation similarity and (3) establishing the trade-off mechanism between them, to make them explainable, quantifiable, and comparable. We demonstrate that the distribution difference between retrieved texts and LLMs' knowledge acts as double-edged sword, bringing both benefit and detriment. We also prove that the actual effect of RAG can be predicted at token level. Based on our theory, we propose a practical novel method, X-RAG, which achieves collaborative generation between pure LLM and RAG at token level to preserve benefit and avoid detriment. Experiments in real-world tasks based on LLMs including OPT, LLaMA-2, and Mistral show the effectiveness of our method and support our theoretical results.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# 擬似3次元変換に基づく医用自己監督表現学習のクロス次元化

Cross-Dimensional Medical Self-Supervised Representation Learning Based on a Pseudo-3D Transformation ( http://arxiv.org/abs/2406.00947v1 )

ライセンス: Link先を確認
Fei Gao, Siwen Wang, Churan Wang, Fandong Zhang, Hong-Yu Zhou, Yizhou Wang, Gang Yu, Yizhou Yu, (参考訳) 医用画像解析は、アノテーションの有無にかかわらず、データの不足に悩まされる。 これは、3Dの医療画像に関してさらに顕著になる。 SSL(Self-Supervised Learning)は、ラベルのないデータを使用することで、この状況を部分的に緩和することができる。 しかし、既存のSSLメソッドのほとんどは、単一の次元(例えば2Dや3D)のデータしか利用できず、異なる次元を持つデータを使ってトレーニングデータセットを拡張できない。 本稿では,CDSSL-P3Dをベースとした新しい3次元SSLフレームワークを提案する。 具体的には、2D画像を3Dデータに整合したフォーマットに変換するim2colアルゴリズムに基づく画像変換を提案する。 この変換は2次元および3次元データのシームレスな統合を可能にし、3次元医用画像解析のための相互教師あり学習を容易にする。 我々は,2次元および3次元の分類とセグメンテーションを含む,13の下流タスクについて広範な実験を行った。 その結果,CDSSL-P3Dは優れた性能を示し,他の高度なSSL手法よりも優れていた。

Medical image analysis suffers from a shortage of data, whether annotated or not. This becomes even more pronounced when it comes to 3D medical images. Self-Supervised Learning (SSL) can partially ease this situation by using unlabeled data. However, most existing SSL methods can only make use of data in a single dimensionality (e.g. 2D or 3D), and are incapable of enlarging the training dataset by using data with differing dimensionalities jointly. In this paper, we propose a new cross-dimensional SSL framework based on a pseudo-3D transformation (CDSSL-P3D), that can leverage both 2D and 3D data for joint pre-training. Specifically, we introduce an image transformation based on the im2col algorithm, which converts 2D images into a format consistent with 3D data. This transformation enables seamless integration of 2D and 3D data, and facilitates cross-dimensional self-supervised learning for 3D medical image analysis. We run extensive experiments on 13 downstream tasks, including 2D and 3D classification and segmentation. The results indicate that our CDSSL-P3D achieves superior performance, outperforming other advanced SSL methods.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# 偽ニュースと偽ニュースが公共政策にどのような影響を及ぼすか--国際文献のレビュー

How disinformation and fake news impact public policies?: A review of international literature ( http://arxiv.org/abs/2406.00951v1 )

ライセンス: Link先を確認
Ergon Cugler de Moraes Silva, Jose Carlos Vaz, (参考訳) 本研究では,偽情報が公共政策に与える影響について検討する。 8つのデータベースで28組のキーワードを使用して、Prisma 2020モデル(Page et al , 2021)に従って体系的なレビューを行った。 4,128の論文や資料にフィルター・包含・排他基準を適用した結果,46の出版物が分析され,23の偽情報影響カテゴリーが得られた。 これらのカテゴリーは、国家と社会とアクターとダイナミクスの2つの主要な軸に分けられ、国家俳優、社会俳優、国家ダイナミクス、社会ダイナミクスへの影響をカバーした。 その結果, 偽情報が公共の意思決定, 政策の遵守, 機関の威信, 現実の認識, 消費, 公衆衛生などの側面に影響を及ぼすことが明らかとなった。 さらに, 偽情報を公的な問題として扱い, 公共政策研究課題に組み込むことが, 政府の行動への影響を緩和するための戦略開発に寄与することが示唆された。

This study investigates the impact of disinformation on public policies. Using 28 sets of keywords in eight databases, a systematic review was carried out following the Prisma 2020 model (Page et al., 2021). After applying filters and inclusion and exclusion criteria to 4,128 articles and materials found, 46 publications were analyzed, resulting in 23 disinformation impact categories. These categories were organized into two main axes: State and Society and Actors and Dynamics, covering impacts on State actors, society actors, State dynamics and society dynamics. The results indicate that disinformation affects public decisions, adherence to policies, prestige of institutions, perception of reality, consumption, public health and other aspects. Furthermore, this study suggests that disinformation should be treated as a public problem and incorporated into the public policy research agenda, contributing to the development of strategies to mitigate its effects on government actions.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# アノテーションガイドラインに基づく知識強化:教育用テキスト分類のための大規模言語モデルの実現を目指して

Annotation Guidelines-Based Knowledge Augmentation: Towards Enhancing Large Language Models for Educational Text Classification ( http://arxiv.org/abs/2406.00954v1 )

ライセンス: Link先を確認
Shiqi Liu, Sannyuya Liu, Lele Sha, Zijie Zeng, Dragan Gasevic, Zhi Liu, (参考訳) 各種機械学習アプローチは、学習エンゲージメントの指標、すなわち学習エンゲージメント分類(LEC)を識別する教育テキストの自動分類において、大きな人気を得ている。 LECは、人間の学習プロセスに関する包括的な洞察を提供し、自然言語処理(NLP)、学習分析、教育データマイニングなど、さまざまな研究コミュニティから大きな関心を集めている。 近年,ChatGPT などの大規模言語モデル (LLM) は,様々な NLP タスクにおいて顕著な性能を示した。 しかし, LECタスクにおける総合的な評価と改善アプローチについては, 十分には検討されていない。 本研究では,アノテーションガイドラインに基づく知識向上手法(AGKA)を提案する。 AGKAはGPT 4.0を使用して、アノテーションガイドラインからラベル定義の知識を取得し、ランダムアンダーサンプラーを適用していくつかの典型的な例を選択する。 その後、行動分類(クエストと緊急度)、感情分類(バイナリと認識の感情)、認知分類(オピニオンと認知の存在)の6つのLECデータセットを含むLECの体系的評価ベンチマークを行う。 実験の結果、AGKAは非微調整LDM(特にGPT 4.0とLlama 3 70B)を増強できることが示された。 AGKAによるGPT 4.0は、単純なバイナリ分類データセット上でBERTやRoBERTaのようなフルショットの微調整モデルよりも優れている。 しかし、GPT 4.0は複雑な意味情報の深い理解を必要とするマルチクラスタスクで遅れている。 特に、Llama 370B と AGKA はオープンソース LLM をベースとした有望な組み合わせである。 加えて、LLMは、マルチクラスの分類において、類似した名前のラベルを区別するのに苦労している。

Various machine learning approaches have gained significant popularity for the automated classification of educational text to identify indicators of learning engagement -- i.e. learning engagement classification (LEC). LEC can offer comprehensive insights into human learning processes, attracting significant interest from diverse research communities, including Natural Language Processing (NLP), Learning Analytics, and Educational Data Mining. Recently, Large Language Models (LLMs), such as ChatGPT, have demonstrated remarkable performance in various NLP tasks. However, their comprehensive evaluation and improvement approaches in LEC tasks have not been thoroughly investigated. In this study, we propose the Annotation Guidelines-based Knowledge Augmentation (AGKA) approach to improve LLMs. AGKA employs GPT 4.0 to retrieve label definition knowledge from annotation guidelines, and then applies the random under-sampler to select a few typical examples. Subsequently, we conduct a systematic evaluation benchmark of LEC, which includes six LEC datasets covering behavior classification (question and urgency level), emotion classification (binary and epistemic emotion), and cognition classification (opinion and cognitive presence). The study results demonstrate that AGKA can enhance non-fine-tuned LLMs, particularly GPT 4.0 and Llama 3 70B. GPT 4.0 with AGKA few-shot outperforms full-shot fine-tuned models such as BERT and RoBERTa on simple binary classification datasets. However, GPT 4.0 lags in multi-class tasks that require a deep understanding of complex semantic information. Notably, Llama 3 70B with AGKA is a promising combination based on open-source LLM, because its performance is on par with closed-source GPT 4.0 with AGKA. In addition, LLMs struggle to distinguish between labels with similar names in multi-class classification.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# ビデオ会議はどのように表現を変えるか

How Video Meetings Change Your Expression ( http://arxiv.org/abs/2406.00955v1 )

ライセンス: Link先を確認
Sumit Sarin, Utkarsh Mall, Purva Tendulkar, Carl Vondrick, (参考訳) ビデオ通話で話すと表情が変わるのか? 人のビデオが2つあるとすると、各セットに特有の時空間パターンを自動的に見つけ出そうとする。 既存の方法は差別的アプローチを使用して、ポストホックな説明可能性分析を行う。 このような手法は、明らかなデータセットバイアス以上の洞察を与えることができないため不十分であり、その説明は、人間自身がそのタスクに長けている場合に限り有用である。 その代わりに、生成ドメイン翻訳のレンズを用いてこの問題に取り組む。本手法は、学習された、入力に依存した時空間的特徴の詳細なレポートと、それらがドメイン間で変化する範囲を出力する。 本研究では,F2F(F2F)とVC(Voice-calls)の対話行動の違いを,本手法が検出できることを実証する。 また,本手法が大統領通信方式の違いを発見する上での有効性を示す。 さらに、教師なしの方法で表現を分離するビデオにおける時間的変化点を予測でき、モデルの解釈可能性や有用性を高めることができる。 最後に,F2F設定で記録したようにビデオ通話を変換して表示する手法を提案する。 実験と可視化は、我々のアプローチが様々な行動を発見し、人間の行動をより深く理解するための一歩を踏み出したことを示している。

Do our facial expressions change when we speak over video calls? Given two unpaired sets of videos of people, we seek to automatically find spatio-temporal patterns that are distinctive of each set. Existing methods use discriminative approaches and perform post-hoc explainability analysis. Such methods are insufficient as they are unable to provide insights beyond obvious dataset biases, and the explanations are useful only if humans themselves are good at the task. Instead, we tackle the problem through the lens of generative domain translation: our method generates a detailed report of learned, input-dependent spatio-temporal features and the extent to which they vary between the domains. We demonstrate that our method can discover behavioral differences between conversing face-to-face (F2F) and on video-calls (VCs). We also show the applicability of our method on discovering differences in presidential communication styles. Additionally, we are able to predict temporal change-points in videos that decouple expressions in an unsupervised way, and increase the interpretability and usefulness of our model. Finally, our method, being generative, can be used to transform a video call to appear as if it were recorded in a F2F setting. Experiments and visualizations show our approach is able to discover a range of behaviors, taking a step towards deeper understanding of human behaviors.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# 飛行中のセグメンテーションを改善する:医療画像セグメンテーションのための補助的オンライン学習と適応的融合

Improving Segment Anything on the Fly: Auxiliary Online Learning and Adaptive Fusion for Medical Image Segmentation ( http://arxiv.org/abs/2406.00956v1 )

ライセンス: Link先を確認
Tianyu Huang, Tao Zhou, Weidi Xie, Shuo Wang, Qi Dou, Yizhe Zhang, (参考訳) SAM(Segment Anything Model)の現在の変種は、オリジナルのSAMとメディカルSAMを含むが、医用画像の十分な正確なセグメンテーションを生成できない。 医療画像の文脈では、SAMがそのセグメンテーション予測を生成した後、人間の専門家が特定のテストサンプルのセグメンテーションを修正することは珍しくない。 これらの修正は通常、最先端のアノテーションツールを使用した手動または半手動の修正を必要とする。 このプロセスにより、オンライン機械学習の利点を活用して、テスト期間中にセグメンツ・ア・シング(SA)を強化する新しいアプローチを導入する。 医用画像におけるSAのセグメンテーション品質を改善することを目的として,オンライン学習のための修正アノテーションを用いた。 SAMのような大規模ビジョンモデルと統合したオンライン学習の有効性と効率を向上させるため,AuxOL(Auxiliary Online Learning)と呼ばれる新しい手法を提案する。 AuxOLはSAM(ジェネラリスト)と連携して小さな補助モデルを作成し、適用し、適応的なオンラインバッチと適応的なセグメンテーション融合を必要とする。 4つの医用画像モダリティをカバーする8つのデータセットを用いて実験を行い,提案手法の有効性を検証した。 本研究は,下流セグメンテーションタスク(例えば,医用画像セグメンテーション)におけるSAを強化するための,新しい,実用的で効果的なアプローチを提案し,検証する。

The current variants of the Segment Anything Model (SAM), which include the original SAM and Medical SAM, still lack the capability to produce sufficiently accurate segmentation for medical images. In medical imaging contexts, it is not uncommon for human experts to rectify segmentations of specific test samples after SAM generates its segmentation predictions. These rectifications typically entail manual or semi-manual corrections employing state-of-the-art annotation tools. Motivated by this process, we introduce a novel approach that leverages the advantages of online machine learning to enhance Segment Anything (SA) during test time. We employ rectified annotations to perform online learning, with the aim of improving the segmentation quality of SA on medical images. To improve the effectiveness and efficiency of online learning when integrated with large-scale vision models like SAM, we propose a new method called Auxiliary Online Learning (AuxOL). AuxOL creates and applies a small auxiliary model (specialist) in conjunction with SAM (generalist), entails adaptive online-batch and adaptive segmentation fusion. Experiments conducted on eight datasets covering four medical imaging modalities validate the effectiveness of the proposed method. Our work proposes and validates a new, practical, and effective approach for enhancing SA on downstream segmentation tasks (e.g., medical image segmentation).
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# 矛盾する視点をナビゲートする:学習に対する信頼を損なう

Navigating Conflicting Views: Harnessing Trust for Learning ( http://arxiv.org/abs/2406.00958v1 )

ライセンス: Link先を確認
Jueqing Lu, Lan Du, Wray Buntine, Myong Chol Jung, Joanna Dipnall, Belinda Gabbe, (参考訳) 対立を解決することは、多視点分類の決定をより信頼できるものにするために不可欠である。 すべての視点が同一に重要であり、厳密に整合していると仮定して、異なる視点における一貫した情報表現の学習について多くの研究がなされている。 しかし、現実のマルチビューデータは必ずしもこれらの仮定に従わないかもしれない。 この問題に対処するために,異なる視点の衝突が発生する可能性のあるシナリオにおいて,既存の信頼に値するフレームワークを強化するための,計算信頼に基づく割引手法を開発した。 その信念融合プロセスは、個別の視点による予測の信頼性を、確率に敏感な信頼割引機構を通じて考慮する。 提案手法は,Top-1精度,AUC-ROC for Uncertainty-Aware Prediction,Fleiss' Kappa,および基底真理ラベルを考慮したMulti-View Agreement with Ground Truthという新たな指標を用いて,実世界の6つのデータセットに対して評価を行った。 実験結果から,コンフリクトを効果的に解決し,実世界のアプリケーションにおいてより信頼性の高いマルチビュー分類モデルを実現する方法が示された。

Resolving conflicts is essential to make the decisions of multi-view classification more reliable. Much research has been conducted on learning consistent informative representations among different views, assuming that all views are identically important and strictly aligned. However, real-world multi-view data may not always conform to these assumptions, as some views may express distinct information. To address this issue, we develop a computational trust-based discounting method to enhance the existing trustworthy framework in scenarios where conflicts between different views may arise. Its belief fusion process considers the trustworthiness of predictions made by individual views via an instance-wise probability-sensitive trust discounting mechanism. We evaluate our method on six real-world datasets, using Top-1 Accuracy, AUC-ROC for Uncertainty-Aware Prediction, Fleiss' Kappa, and a new metric called Multi-View Agreement with Ground Truth that takes into consideration the ground truth labels. The experimental results show that computational trust can effectively resolve conflicts, paving the way for more reliable multi-view classification models in real-world applications.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# 動的ユーザ参加によるフェデレーション・アンラーニングにおけるデータプライバシの保証

Guaranteeing Data Privacy in Federated Unlearning with Dynamic User Participation ( http://arxiv.org/abs/2406.00966v1 )

ライセンス: Link先を確認
Ziyao Liu, Yu Jiang, Weifeng Jiang, Jiale Guo, Jun Zhao, Kwok-Yan Lam, (参考訳) フェデレート・アンラーニング(FU)は、訓練されたグローバルなFLモデルから、FL(Federated Learning)ユーザのデータの影響を排除するために、その能力で注目を集めている。 単純なFUメソッドでは、未学習のユーザを削除し、その後、残りのすべてのユーザとスクラッチから新しいグローバルFLモデルをトレーニングする。 非学習効率を高めるため、広く採用されている戦略では、FLユーザをクラスタに分割し、各クラスタが独自のFLモデルを維持している。 最終的な推論は、これらのサブモデルの推論から過半数の投票を集約することで決定される。 これにより、未学習プロセスを個々のクラスタに閉じ込めてユーザを除去し、未学習の効率を高める。 しかし、現在のクラスタリングベースのFUスキームは、学習効率を高めるためにクラスタリングの精細化に重点を置いているが、FLユーザの勾配からの情報漏洩の可能性を見落としている。 通常、各クラスタにセキュアアグリゲーション(SecAgg)スキームを統合することで、プライバシ保護FUが容易になる。 それでも、SecAggスキームをシームレスに組み込んだクラスタリング方法論の構築は、特に敵ユーザや動的ユーザを含むシナリオでは難しい。 本稿では,SecAggプロトコルをクラスタリングをベースとした,最も広く使用されているフェデレーションアンラーニングスキームに統合して,動的ユーザ参加を効果的に管理しながらプライバシの確保を目的とした,プライバシ保護型FUフレームワークの確立を体系的に検討する。 総合的な理論的評価と実験結果から,提案手法は,ユーザの参加状況に応じて,プライバシー保護とレジリエンスの向上とともに,同等の非学習効果を達成できることが示された。

Federated Unlearning (FU) is gaining prominence for its capacity to eliminate influences of Federated Learning (FL) users' data from trained global FL models. A straightforward FU method involves removing the unlearned users and subsequently retraining a new global FL model from scratch with all remaining users, a process that leads to considerable overhead. To enhance unlearning efficiency, a widely adopted strategy employs clustering, dividing FL users into clusters, with each cluster maintaining its own FL model. The final inference is then determined by aggregating the majority vote from the inferences of these sub-models. This method confines unlearning processes to individual clusters for removing a user, thereby enhancing unlearning efficiency by eliminating the need for participation from all remaining users. However, current clustering-based FU schemes mainly concentrate on refining clustering to boost unlearning efficiency but overlook the potential information leakage from FL users' gradients, a privacy concern that has been extensively studied. Typically, integrating secure aggregation (SecAgg) schemes within each cluster can facilitate a privacy-preserving FU. Nevertheless, crafting a clustering methodology that seamlessly incorporates SecAgg schemes is challenging, particularly in scenarios involving adversarial users and dynamic users. In this connection, we systematically explore the integration of SecAgg protocols within the most widely used federated unlearning scheme, which is based on clustering, to establish a privacy-preserving FU framework, aimed at ensuring privacy while effectively managing dynamic user participation. Comprehensive theoretical assessments and experimental results show that our proposed scheme achieves comparable unlearning effectiveness, alongside offering improved privacy protection and resilience in the face of varying user participation.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# 多様な視点を識別するためにRLを用いると、ソーシャルメディア上のコミュニティを識別するためのLLM能力が向上する

Using RL to Identify Divisive Perspectives Improves LLMs Abilities to Identify Communities on Social Media ( http://arxiv.org/abs/2406.00969v1 )

ライセンス: Link先を確認
Nikhil Mehta, Dan Goldwasser, (参考訳) ソーシャルメディアの大規模利用と、その大きな影響が組み合わさって、ソーシャルメディアを理解することがますます重要になっている。 特に、ユーザコミュニティを特定することは、多くのダウンストリームタスクに役立ちます。 しかし、特にモデルが過去のデータに基づいてトレーニングされ、将来のテストを行う場合、これは難しい。 本稿では,Large Language Models (LLMs) を利用してユーザコミュニティの同定を行う。 また,ChatGPT など多くの LLM が固定されており,ブラックボックスとして扱わなければならないという事実から,より小規模な LLM を訓練することで,それらをより促進するためのアプローチを提案する。 我々は、この小さなモデルをトレーニングするための戦略を考案し、コミュニティを検出するLLMのより大きな能力をどのように改善するかを示した。 実験の結果、RedditとTwitterのデータ、コミュニティ検出、ボット検出、ニュースメディアのプロファイリングのタスクが改善された。

The large scale usage of social media, combined with its significant impact, has made it increasingly important to understand it. In particular, identifying user communities, can be helpful for many downstream tasks. However, particularly when models are trained on past data and tested on future, doing this is difficult. In this paper, we hypothesize to take advantage of Large Language Models (LLMs), to better identify user communities. Due to the fact that many LLMs, such as ChatGPT, are fixed and must be treated as black-boxes, we propose an approach to better prompt them, by training a smaller LLM to do this. We devise strategies to train this smaller model, showing how it can improve the larger LLMs ability to detect communities. Experimental results show improvements on Reddit and Twitter data, on the tasks of community detection, bot detection, and news media profiling.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# MiniGPT-Reverse-Designing: MiniGPT-4を用いた画像調整予測

MiniGPT-Reverse-Designing: Predicting Image Adjustments Utilizing MiniGPT-4 ( http://arxiv.org/abs/2406.00971v1 )

ライセンス: Link先を確認
Vahid Azizi, Fatemeh Koochaki, (参考訳) VLM(Vision-Language Models)は近年,LLM(Large Language Models)との統合によって,大幅な進歩を遂げている。 画像とテキストのモダリティを同時に処理するVLMは、様々なマルチモーダルタスクにおける画像とテキスト間の相互作用を学習し、理解する能力を示している。 複雑な視覚言語タスクとして定義できるリバースデザインは、ソースイメージ、編集バージョン、オプションの高レベルテキスト編集記述を与えられたときに、編集とそのパラメータを予測することを目的としている。 このタスクでは、VLMは、ソースイメージ、編集されたバージョン、オプションのテキストコンテキスト間の相互作用を、従来の視覚言語タスクを超えて同時に理解する必要がある。 本稿では,逆設計タスクのためにMiniGPT-4を拡張し,微調整する。 本実験では, 逆設計などの複雑なタスクに対して, 市販VLM, 特にMiniGPT-4の拡張性を示す。 code is available at this \href{https://github.com/VahidAz/MiniGPT-Reverse-Designing}

Vision-Language Models (VLMs) have recently seen significant advancements through integrating with Large Language Models (LLMs). The VLMs, which process image and text modalities simultaneously, have demonstrated the ability to learn and understand the interaction between images and texts across various multi-modal tasks. Reverse designing, which could be defined as a complex vision-language task, aims to predict the edits and their parameters, given a source image, an edited version, and an optional high-level textual edit description. This task requires VLMs to comprehend the interplay between the source image, the edited version, and the optional textual context simultaneously, going beyond traditional vision-language tasks. In this paper, we extend and fine-tune MiniGPT-4 for the reverse designing task. Our experiments demonstrate the extensibility of off-the-shelf VLMs, specifically MiniGPT-4, for more complex tasks such as reverse designing. Code is available at this \href{https://github.com/VahidAz/MiniGPT-Reverse-Designing}
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# パーソナライズされた埋め込み領域の省力化によるコールドスタート勧告

Cold-start Recommendation by Personalized Embedding Region Elicitation ( http://arxiv.org/abs/2406.00973v1 )

ライセンス: Link先を確認
Hieu Trung Nguyen, Duy Nguyen, Khoa Doan, Viet Anh Nguyen, (参考訳) レーティング・エリケーション(英: Rating elicitation)は、冷間開始時に、利用者の好みを事前に知ることなく、新たに到着したユーザに対して、商品を推薦する必要があるようなレコメンデーションシステムの成功要素である。 既存のelicitationメソッドでは,ユーザの好みを学習し,残りの項目に対してユーザの好みを推測するために,固定されたアイテムセットを使用している。 固定されたシードセットを使用することで、潜在的に多様な好みを持つすべての新規ユーザにとって、シードセットが最適ではないため、レコメンデーションシステムのパフォーマンスを制限することができる。 本稿では、この課題を2段階のパーソナライズド・エイコレーション・スキームを用いて解決する。 まず,"burn-in' フェーズにおいて,ユーザに対して,人気項目の小さなセットの評価を依頼する。 第2に、ユーザの嗜好や表現を洗練させるために、適応項目の格付けを順次求めている。 プロセス全体を通して、システムは、ポイント推定ではなく、リージョン推定によって、ユーザの埋め込み値を表す。 ユーザの商品に対するレーティングを問うことで得られる情報の値は、ユーザの真の埋め込み値の信頼性の高い領域中心埋め込み空間からの距離によって定量化される。 最後に、ユーザの嗜好領域を考慮したレコメンデーションを順次生成する。 提案手法では,各サブプロブレムを効率よく実装可能であることを示す。 さらに,提案手法の有効性を実証的に実証した。

Rating elicitation is a success element for recommender systems to perform well at cold-starting, in which the systems need to recommend items to a newly arrived user with no prior knowledge about the user's preference. Existing elicitation methods employ a fixed set of items to learn the user's preference and then infer the users' preferences on the remaining items. Using a fixed seed set can limit the performance of the recommendation system since the seed set is unlikely optimal for all new users with potentially diverse preferences. This paper addresses this challenge using a 2-phase, personalized elicitation scheme. First, the elicitation scheme asks users to rate a small set of popular items in a ``burn-in'' phase. Second, it sequentially asks the user to rate adaptive items to refine the preference and the user's representation. Throughout the process, the system represents the user's embedding value not by a point estimate but by a region estimate. The value of information obtained by asking the user's rating on an item is quantified by the distance from the region center embedding space that contains with high confidence the true embedding value of the user. Finally, the recommendations are successively generated by considering the preference region of the user. We show that each subproblem in the elicitation scheme can be efficiently implemented. Further, we empirically demonstrate the effectiveness of the proposed method against existing rating-elicitation methods on several prominent datasets.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# Luna: 高精度で低コストな言語モデル幻覚をキャッチするための評価基礎モデル

Luna: An Evaluation Foundation Model to Catch Language Model Hallucinations with High Accuracy and Low Cost ( http://arxiv.org/abs/2406.00975v1 )

ライセンス: Link先を確認
Masha Belyi, Robert Friel, Shuai Shao, Atindriyo Sanyal, (参考訳) Retriever Augmented Generation (RAG) システムは,外部知識検索機構を組み込むことで,言語モデルの能力向上に重要な役割を担っている。 しかし、これらのシステムを業界アプリケーションに展開する上で重要な課題は幻覚の検出と緩和である。 この問題に対処することは、様々な業界環境で大きな言語モデル(LLM)が生み出す応答の信頼性と正確性を保証するために不可欠である。 現在の幻覚検出技術は、精度、低レイテンシ、低コストを同時に提供できない。 本稿では,RAG設定における幻覚検出のためのLuna: a DeBERTA-large (440M)エンコーダについて紹介する。 その結果,Luna は幻覚検出タスクにおいて GPT-3.5 と商用評価フレームワークを上回り,97% と 96% のコスト削減と遅延削減を実現している。 Lunaは軽量で、複数の業界分野とドメイン外データにまたがって一般化されており、業界LLMアプリケーションにとって理想的な候補となっている。

Retriever Augmented Generation (RAG) systems have become pivotal in enhancing the capabilities of language models by incorporating external knowledge retrieval mechanisms. However, a significant challenge in deploying these systems in industry applications is the detection and mitigation of hallucinations: instances where the model generates information that is not grounded in the retrieved context. Addressing this issue is crucial for ensuring the reliability and accuracy of responses generated by large language models (LLMs) in diverse industry settings. Current hallucination detection techniques fail to deliver accuracy, low latency, and low cost simultaneously. We introduce Luna: a DeBERTA-large (440M) encoder, finetuned for hallucination detection in RAG settings. We demonstrate that Luna outperforms GPT-3.5 and commercial evaluation frameworks on the hallucination detection task, with 97% and 96% reduction in cost and latency, respectively. Luna is lightweight and generalizes across multiple industry verticals and out-of-domain data, making it an ideal candidate for industry LLM applications.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# 効率的な階層変換器を用いた事前学習音声モデル

Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer ( http://arxiv.org/abs/2406.00976v1 )

ライセンス: Link先を確認
Yongxin Zhu, Dan Su, Liqiang He, Linli Xu, Dong Yu, (参考訳) 近年の言語モデルの進歩は大きな進歩を遂げているが、ニューラルオーディオコーデックの長い音響シーケンスをモデル化する際の大きな課題に直面している。 本稿では,効率的な音声言語モデリングのために設計された階層型トランスフォーマである \textbf{G}enerative \textbf{P}re-trained \textbf{S}peech \textbf{T}ransformer (GPST)を紹介する。 GPSTは、音声波形を2種類の離散音声表現に量子化し、階層的なトランスフォーマーアーキテクチャに統合し、統一された1段階生成プロセスとHi-Res音声生成機能を向上させる。 エンド・ツー・エンドの教師なしで大規模な音声コーパスを訓練することにより、GPSTは多様な話者の同一性を持つ構文的に一貫した音声を生成することができる。 短時間の3秒のプロンプトによって、GPSTは自然で一貫性のあるパーソナライズされた音声を生成し、コンテキスト内学習能力を示す。 さらに,多言語意味トークンと普遍的音響トークンを組み込むことで,音声言語間音声生成へのアプローチを容易に拡張することができる。 実験結果から,GPSTは単語誤り率,音声品質,話者類似度において,既存の言語モデルよりも有意に優れていた。 デモサンプルについては \url{https://youngsheen.github.io/GPST/demo} を参照してください。

While recent advancements in speech language models have achieved significant progress, they face remarkable challenges in modeling the long acoustic sequences of neural audio codecs. In this paper, we introduce \textbf{G}enerative \textbf{P}re-trained \textbf{S}peech \textbf{T}ransformer (GPST), a hierarchical transformer designed for efficient speech language modeling. GPST quantizes audio waveforms into two distinct types of discrete speech representations and integrates them within a hierarchical transformer architecture, allowing for a unified one-stage generation process and enhancing Hi-Res audio generation capabilities. By training on large corpora of speeches in an end-to-end unsupervised manner, GPST can generate syntactically consistent speech with diverse speaker identities. Given a brief 3-second prompt, GPST can produce natural and coherent personalized speech, demonstrating in-context learning abilities. Moreover, our approach can be easily extended to spoken cross-lingual speech generation by incorporating multi-lingual semantic tokens and universal acoustic tokens. Experimental results indicate that GPST significantly outperforms the existing speech language models in terms of word error rate, speech quality, and speaker similarity. See \url{https://youngsheen.github.io/GPST/demo} for demo samples.
翻訳日:2024-06-06 02:37:18 公開日:2024-06-03
# Dragonfly:マルチリゾリューションズームが大型のビジュアルランゲージモデルをスーパーチャージャー

Dragonfly: Multi-Resolution Zoom Supercharges Large Visual-Language Model ( http://arxiv.org/abs/2406.00977v1 )

ライセンス: Link先を確認
Kezhen Chen, Rahul Thapa, Rahul Chalamala, Ben Athiwaratkun, Shuaiwen Leon Song, James Zou, (参考訳) 大規模マルチモーダルモデル(LMM)の最近の進歩は、高解像度画像の解像度が、視覚的コモンセンス推論やバイオメディカル画像解析といったタスクにおいて重要な、画像詳細のきめ細かい理解を促進することを示唆している。 しかし、入力解像度の増大は2つの大きな課題をもたらす。 1) 言語モデルに必要なコンテキスト長を拡張し、非効率になり、モデルのコンテキスト限界に達する。 2) 視覚的機能の複雑さを増大させ、より多くのトレーニングデータやより複雑なアーキテクチャを必要とする。 我々はDragonflyという新しいLMMアーキテクチャを導入し、これらの課題に対処するための画像領域のきめ細かい視覚的理解と推論を可能にした。 Dragonflyには、マルチ解像度のビジュアルエンコーディングとズームインパッチ選択という、2つの重要な戦略がある。 これらの戦略により、適切なコンテキスト長を維持しつつ、高解像度画像を効率的に処理することができる。 一般的な8つのベンチマークの実験では、Dragonflyは他のアーキテクチャと比較して、競争力や性能が向上していることが示され、設計の有効性が強調された。 さらに,Dragonflyのバイオメディカルインストラクションを微調整し,Path-VQAデータセット(Med-Geminiの83.3%)の92.3%の精度と,バイオメディカルイメージキャプションの最も高い報告結果を含む,詳細な視覚的理解を必要とする複数のバイオメディカルタスクの最先端の結果を得た。 モデルトレーニングを支援するため,一般領域の550万イメージインストラクションサンプルと,バイオメディカル領域の1.4万サンプルを用いた視覚的インストラクションチューニングデータセットをキュレートした。 また、様々な建築設計や画像解像度の影響を特徴づけるアブレーション研究を行い、視覚的指示のアライメントに関する今後の研究への洞察を提供した。 コードベースとモデルはhttps://github.com/together computer/Dragonfly.comで公開されている。

Recent advances in large multimodal models (LMMs) suggest that higher image resolution enhances the fine-grained understanding of image details, crucial for tasks such as visual commonsense reasoning and analyzing biomedical images. However, increasing input resolution poses two main challenges: 1) It extends the context length required by the language model, leading to inefficiencies and hitting the model's context limit; 2) It increases the complexity of visual features, necessitating more training data or more complex architecture. We introduce Dragonfly, a new LMM architecture that enhances fine-grained visual understanding and reasoning about image regions to address these challenges. Dragonfly employs two key strategies: multi-resolution visual encoding and zoom-in patch selection. These strategies allow the model to process high-resolution images efficiently while maintaining reasonable context length. Our experiments on eight popular benchmarks demonstrate that Dragonfly achieves competitive or better performance compared to other architectures, highlighting the effectiveness of our design. Additionally, we finetuned Dragonfly on biomedical instructions, achieving state-of-the-art results on multiple biomedical tasks requiring fine-grained visual understanding, including 92.3% accuracy on the Path-VQA dataset (compared to 83.3% for Med-Gemini) and the highest reported results on biomedical image captioning. To support model training, we curated a visual instruction-tuning dataset with 5.5 million image-instruction samples in the general domain and 1.4 million samples in the biomedical domain. We also conducted ablation studies to characterize the impact of various architectural designs and image resolutions, providing insights for future research on visual instruction alignment. The codebase and model are available at https://github.com/togethercomputer/Dragonfly.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# 視覚的質問を選択的に答える

Selectively Answering Visual Questions ( http://arxiv.org/abs/2406.00980v1 )

ライセンス: Link先を確認
Julian Martin Eisenschlos, Hernán Maina, Guido Ivetta, Luciana Benotti, (参考訳) 近年,大規模なマルチモーダルモデル (LMM) が出現し,キャプションや視覚質問応答 (VQA) などの視覚タスクを前例のない精度で実行できるようになった。 盲人や視覚障害者を助けるようなアプリケーションには、正確な答えが不可欠である。 モデルを適切に校正し、不確実性を定量化して、いつ答えるか、いつ断念するか、明確化を求めるのかを選択的に決定することは特に重要である。 テキスト内学習LMMを用いたVQAのためのキャリブレーション手法とメトリクスの詳細な分析を行う。 VQAを2つの解答性ベンチマークで検討したところ、サンプリング手法が一般的に優れているが、明確な勝者が存在しないテキストのみのテキスト学習よりも、視覚的に接地されたモデルのスコアが適していることが示された。 Avg BLEU は,サンプリング法と確率法の両方の利点をモダリティで組み合わせたキャリブレーションスコアである。

Recently, large multi-modal models (LMMs) have emerged with the capacity to perform vision tasks such as captioning and visual question answering (VQA) with unprecedented accuracy. Applications such as helping the blind or visually impaired have a critical need for precise answers. It is specially important for models to be well calibrated and be able to quantify their uncertainty in order to selectively decide when to answer and when to abstain or ask for clarifications. We perform the first in-depth analysis of calibration methods and metrics for VQA with in-context learning LMMs. Studying VQA on two answerability benchmarks, we show that the likelihood score of visually grounded models is better calibrated than in their text-only counterparts for in-context learning, where sampling based methods are generally superior, but no clear winner arises. We propose Avg BLEU, a calibration score combining the benefits of both sampling and likelihood methods across modalities.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# 有害言語検出における非現実的因果効果による嫌悪感

Take its Essence, Discard its Dross! Debiasing for Toxic Language Detection via Counterfactual Causal Effect ( http://arxiv.org/abs/2406.00983v1 )

ライセンス: Link先を確認
Junyu Lu, Bo Xu, Xiaokun Zhang, Kaiyuan Liu, Dongyu Zhang, Liang Yang, Hongfei Lin, (参考訳) 現在の有害言語検出法(TLD)は、通常、決定を行うための特定のトークンに依存しており、それらが語彙バイアスに悩まされ、性能や一般化が低下する。 語彙バイアスは「有用」と「誤解」の両方が毒性の理解に影響を及ぼす。 残念なことに、これらの影響を区別する代わりに、現在のデバイアス法は一般的にそれらを無差別に排除し、結果としてモデルの検出精度が低下する。 そこで本研究では,TLDにおける語彙バイアスを軽減するために,CCDF(Counterfactual Causal Debiasing Framework)を提案する。 語彙バイアスの「無駄な影響」を保ち、「誤解を招く影響」を排除している。 具体的には、まず、原文と偏見付きトークンの合計効果を因果的視点から判断する。 次に、語彙バイアスの直接的な因果効果を全体効果から排除するために、反事実推論を行う。 CCDFを組み込んだデバイアスドTLDモデルは,複数のバニラモデルに適用した競合ベースラインと比較して,精度と公正性の両方で最先端の性能を発揮することを示す実証評価を行った。 我々のモデルの一般化能力は、分布外データに対する現在のデバイアスモデルより優れています。

Current methods of toxic language detection (TLD) typically rely on specific tokens to conduct decisions, which makes them suffer from lexical bias, leading to inferior performance and generalization. Lexical bias has both "useful" and "misleading" impacts on understanding toxicity. Unfortunately, instead of distinguishing between these impacts, current debiasing methods typically eliminate them indiscriminately, resulting in a degradation in the detection accuracy of the model. To this end, we propose a Counterfactual Causal Debiasing Framework (CCDF) to mitigate lexical bias in TLD. It preserves the "useful impact" of lexical bias and eliminates the "misleading impact". Specifically, we first represent the total effect of the original sentence and biased tokens on decisions from a causal view. We then conduct counterfactual inference to exclude the direct causal effect of lexical bias from the total effect. Empirical evaluations demonstrate that the debiased TLD model incorporating CCDF achieves state-of-the-art performance in both accuracy and fairness compared to competitive baselines applied on several vanilla models. The generalization capability of our model outperforms current debiased models for out-of-distribution data.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# 単語埋め込みを用いたアナロジー課題による薬物・遺伝子関係の予測

Predicting Drug-Gene Relations via Analogy Tasks with Word Embeddings ( http://arxiv.org/abs/2406.00984v1 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Ryoma Hashimoto, Kiwamu Arakane, Ken Murakami, Shou Soeda, Momose Oyama, Mariko Okada, Hidetoshi Shimodaira, (参考訳) 自然言語処理(NLP)は、テキスト中の単語が通常、埋め込みと呼ばれる特徴ベクトルに変換される幅広い分野で利用される。 BioConceptVecは生物学に適した埋め込みの具体例であり、スキップグラムのようなモデルを使用して約3000万のPubMed抽象化に基づいてトレーニングされている。 一般に、単語埋め込みは単純な算術演算によって類似タスクを解くことが知られている。 例えば、$\mathrm{\textit{king}} - \mathrm{\textit{man}} + \mathrm{\textit{woman}}$ predicts $\mathrm{\textit{queen}}$である。 本研究では,BioConceptVec の埋め込みと,PubMed の抽象化で訓練した埋め込みが,薬物遺伝子関係の情報を包含し,アナログ計算により薬剤の標的遺伝子を予測できることを実証した。 また, 生物学的経路を用いた薬物や遺伝子を分類することで, 性能が向上することを示した。 さらに,過去の既知の関係から派生したベクトルが,データセットの未知の将来の関係を年々予測できることを示す。

Natural language processing (NLP) is utilized in a wide range of fields, where words in text are typically transformed into feature vectors called embeddings. BioConceptVec is a specific example of embeddings tailored for biology, trained on approximately 30 million PubMed abstracts using models such as skip-gram. Generally, word embeddings are known to solve analogy tasks through simple vector arithmetic. For instance, $\mathrm{\textit{king}} - \mathrm{\textit{man}} + \mathrm{\textit{woman}}$ predicts $\mathrm{\textit{queen}}$. In this study, we demonstrate that BioConceptVec embeddings, along with our own embeddings trained on PubMed abstracts, contain information about drug-gene relations and can predict target genes from a given drug through analogy computations. We also show that categorizing drugs and genes using biological pathways improves performance. Furthermore, we illustrate that vectors derived from known relations in the past can predict unknown future relations in datasets divided by year.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# 複数編集:テキスト・画像拡散モデルによる同時多視点編集

MultiEdits: Simultaneous Multi-Aspect Editing with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2406.00985v1 )

ライセンス: Link先を確認
Mingzhen Huang, Jialing Cai, Shan Jia, Vishnu Suresh Lokhande, Siwei Lyu, (参考訳) テキスト駆動画像合成は、テキストプロンプトから視覚コンテンツがどのように生成されるかを変える拡散モデルの開発において、大きな進歩を遂げた。 これらの進歩にもかかわらず、コンピュータグラフィックスの重要な領域であるテキスト駆動画像編集は、ユニークな課題に直面している。 最大の課題は、複数のオブジェクトや属性を同時に編集することだ。 マルチアスペクト編集にこれらの手法を順次適用すると、計算要求と効率損失が増大する。 本稿では,これらの課題に多大な貢献をしながら対処する。 私たちの主な貢献は、複数の属性をまたいだ同時編集をシームレスに管理するメソッドであるMultiEditsの開発です。 従来のアプローチとは対照的に、MultiEditsは単一の属性編集の品質を保持するだけでなく、マルチタスク編集のパフォーマンスを大幅に改善する。 これは、革新的な注意分布機構と、複数の処理ヘッドをまたいで動作するマルチブランチ設計によって実現される。 さらに、元のPIE-Benchデータセットを拡張したPIE-Bench++データセットを導入し、複数のオブジェクトと属性を含む画像編集タスクの評価を同時にサポートする。 このデータセットは、多面的シナリオにおけるテキスト駆動画像編集手法を評価するためのベンチマークである。 データセットとコードはhttps://mingzhenhuang.com/projects/MultiEdits.htmlで公開されている。

Text-driven image synthesis has made significant advancements with the development of diffusion models, transforming how visual content is generated from text prompts. Despite these advances, text-driven image editing, a key area in computer graphics, faces unique challenges. A major challenge is making simultaneous edits across multiple objects or attributes. Applying these methods sequentially for multi-aspect edits increases computational demands and efficiency losses. In this paper, we address these challenges with significant contributions. Our main contribution is the development of MultiEdits, a method that seamlessly manages simultaneous edits across multiple attributes. In contrast to previous approaches, MultiEdits not only preserves the quality of single attribute edits but also significantly improves the performance of multitasking edits. This is achieved through an innovative attention distribution mechanism and a multi-branch design that operates across several processing heads. Additionally, we introduce the PIE-Bench++ dataset, an expansion of the original PIE-Bench dataset, to better support evaluating image-editing tasks involving multiple objects and attributes simultaneously. This dataset is a benchmark for evaluating text-driven image editing methods in multifaceted scenarios. Dataset and code are available at https://mingzhenhuang.com/projects/MultiEdits.html.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# 乱れによる教師なしグラフ異常検出における公平性向上

Enhancing Fairness in Unsupervised Graph Anomaly Detection through Disentanglement ( http://arxiv.org/abs/2406.00987v1 )

ライセンス: Link先を確認
Wenjing Chang, Kay Liu, Philip S. Yu, Jianjun Yu, (参考訳) グラフ異常検出(GAD)は、金融詐欺検出から偽ニュース検出まで、さまざまなアプリケーションにおいてますます重要になっている。 しかし、現在のGAD法は主に公平性の問題を見落としており、差別的判断は、センシティブな属性(例えば、性別、宗教、民族など)で定義された特定の人口集団に偏っている可能性がある。 これは、社会的および倫理的制約を考慮して、現実世界のシナリオにおけるこれらの手法の適用性を大幅に制限する。 この重要なギャップに対処するため、我々はGAD意思決定における実用性と公正性を統合するための最初の試みを行う。 具体的には,DefEND と呼ばれる属性グラフ上に,新しい DisEntangle ベースの FairnEss 対応 aNomaly 検出フレームワークを考案する。 DEFEND はまず GNN のアンタングル化を導入し、情報的かつ機密性の高いノード表現をキャプチャし、グラフ表現学習に固有の社会的バイアスを効果的に低減する。 さらに、異常ノードの評価における識別バイアスを軽減するために、DEFENDは、グラフ構造を組み込まずにノード属性のみに集中する再構成ベースの異常検出を採用する。 さらに、入力属性と感度属性の固有の関連性を考えると、DEFENDは再構成エラーと予測された感度属性との相関を制約する。 実世界のデータセットに対する実証的な評価から、DEFENDはGADにおいて効果的に機能し、最先端のベースラインと比較して公正性を著しく向上することが明らかとなった。 再現性を高めるため、私たちのコードはhttps://github.com/AhaChang/DEFEND.comで利用可能です。

Graph anomaly detection (GAD) is increasingly crucial in various applications, ranging from financial fraud detection to fake news detection. However, current GAD methods largely overlook the fairness problem, which might result in discriminatory decisions skewed toward certain demographic groups defined on sensitive attributes (e.g., gender, religion, ethnicity, etc.). This greatly limits the applicability of these methods in real-world scenarios in light of societal and ethical restrictions. To address this critical gap, we make the first attempt to integrate fairness with utility in GAD decision-making. Specifically, we devise a novel DisEntangle-based FairnEss-aware aNomaly Detection framework on the attributed graph, named DEFEND. DEFEND first introduces disentanglement in GNNs to capture informative yet sensitive-irrelevant node representations, effectively reducing societal bias inherent in graph representation learning. Besides, to alleviate discriminatory bias in evaluating anomalous nodes, DEFEND adopts a reconstruction-based anomaly detection, which concentrates solely on node attributes without incorporating any graph structure. Additionally, given the inherent association between input and sensitive attributes, DEFEND constrains the correlation between the reconstruction error and the predicted sensitive attributes. Our empirical evaluations on real-world datasets reveal that DEFEND performs effectively in GAD and significantly enhances fairness compared to state-of-the-art baselines. To foster reproducibility, our code is available at https://github.com/AhaChang/DEFEND.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# 軌道最適化のための制約を考慮した拡散モデル

Constraint-Aware Diffusion Models for Trajectory Optimization ( http://arxiv.org/abs/2406.00990v1 )

ライセンス: Link先を確認
Anjian Li, Zihan Ding, Adji Bousso Dieng, Ryne Beeson, (参考訳) 拡散モデルは、軌道最適化問題に対する高品質で多様な解を生成することに成功している。 しかし、ニューラルネットワークを用いた拡散モデルは、必然的に予測エラーを発生させ、非金属目標や衝突のような制約違反を引き起こす。 本稿では,軌道最適化のための制約対応拡散モデルを提案する。 本稿では,拡散サンプルの制約違反を最小限に抑えつつ,元のデータ分布を復元する学習用ハイブリッド損失関数を提案する。 本モデルでは, 局所最適解に近いサンプルを生成するとともに, 制約違反を最小限に抑えつつ, 従来の拡散モデルよりも優れていることを示す。

The diffusion model has shown success in generating high-quality and diverse solutions to trajectory optimization problems. However, diffusion models with neural networks inevitably make prediction errors, which leads to constraint violations such as unmet goals or collisions. This paper presents a novel constraint-aware diffusion model for trajectory optimization. We introduce a novel hybrid loss function for training that minimizes the constraint violation of diffusion samples compared to the groundtruth while recovering the original data distribution. Our model is demonstrated on tabletop manipulation and two-car reach-avoid problems, outperforming traditional diffusion models in minimizing constraint violations while generating samples close to locally optimal solutions.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# 分散リファインメントネットワーク:ディープラーニングによる分布予測

Distributional Refinement Network: Distributional Forecasting via Deep Learning ( http://arxiv.org/abs/2406.00998v1 )

ライセンス: Link先を確認
Benjamin Avanzi, Eric Dong, Patrick J. Laub, Bernard Wong, (参考訳) アクチュエータモデリングにおける重要なタスクは、損失の分布特性をモデル化することである。 Generalized Linear Models (GLMs; Nelder and Wedderburn, 1972) のような古典的(分配的な)回帰アプローチは一般的に用いられるが、モデルの開発には課題が残っている。 (i)共変体が条件分布の異なる側面に柔軟に影響を及ぼすことを可能にする。 二 機械学習とAIの進歩を統合して予測力を最大化すること。 (i)及び(iii)モデルとその出力に対する信頼を高めるためにモデルにおける解釈可能性のレベルを維持し、追跡においてしばしば侵害される。 (i)および (II)。 我々は、本質的に解釈可能なベースラインモデル(GLMなど)とフレキシブルニューラルネットワークを改良したDeep Distribution Regression(DDR; Li et al , 2019)を組み合わせた分散リファインメントネットワーク(DRN)を提案する。 Actuarial Neural Network (CANN, Schelldorfer and W{\'u}thrich, 2019)に触発された我々のアプローチは,ベースライン分布全体を柔軟に洗練する。 結果として、DRNは全ての量子化の様々な効果を捉え、適切な解釈性を維持しながら予測性能を向上させる。 合成データと実世界のデータの両方を用いて、DRNの優れた分布予測能力を示す。 DRNは、アクチュエータ科学などにおいて、強力な分散回帰モデルになる可能性を持っている。

A key task in actuarial modelling involves modelling the distributional properties of losses. Classic (distributional) regression approaches like Generalized Linear Models (GLMs; Nelder and Wedderburn, 1972) are commonly used, but challenges remain in developing models that can (i) allow covariates to flexibly impact different aspects of the conditional distribution, (ii) integrate developments in machine learning and AI to maximise the predictive power while considering (i), and, (iii) maintain a level of interpretability in the model to enhance trust in the model and its outputs, which is often compromised in efforts pursuing (i) and (ii). We tackle this problem by proposing a Distributional Refinement Network (DRN), which combines an inherently interpretable baseline model (such as GLMs) with a flexible neural network-a modified Deep Distribution Regression (DDR; Li et al., 2019) method. Inspired by the Combined Actuarial Neural Network (CANN; Schelldorfer and W{\''u}thrich, 2019), our approach flexibly refines the entire baseline distribution. As a result, the DRN captures varying effects of features across all quantiles, improving predictive performance while maintaining adequate interpretability. Using both synthetic and real-world data, we demonstrate the DRN's superior distributional forecasting capacity. The DRN has the potential to be a powerful distributional regression model in actuarial science and beyond.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# 木を通して森を見る:部分変圧器勾配からのデータ漏洩

Seeing the Forest through the Trees: Data Leakage from Partial Transformer Gradients ( http://arxiv.org/abs/2406.00999v1 )

ライセンス: Link先を確認
Weijun Li, Qiongkai Xu, Mark Dras, (参考訳) 近年の研究では、分散機械学習は勾配反転攻撃に弱いことが示されており、トレーニングで共有されるモデルの勾配を分析することで、プライベートトレーニングデータを再構成することができる。 以前の攻撃では、モデル全体の全てのパラメータからの勾配を使って、そのような再構築が可能であった。 しかし、関係するモジュールやそのサブモジュールのほとんどが、データ漏洩を訓練するリスクがあることを仮定し、言語モデルの様々な中間層でそのような脆弱性を検証する。 広範な実験により、単一トランスフォーマー層、あるいは0.54%のパラメータを持つ単一の線形コンポーネントからの勾配が、データ漏洩のトレーニングに影響されることが判明した。 さらに、トレーニング中の勾配に差分プライバシーを適用することは、データ開示の新たな脆弱性に対して限定的な保護を提供することを示す。

Recent studies have shown that distributed machine learning is vulnerable to gradient inversion attacks, where private training data can be reconstructed by analyzing the gradients of the models shared in training. Previous attacks established that such reconstructions are possible using gradients from all parameters in the entire models. However, we hypothesize that most of the involved modules, or even their sub-modules, are at risk of training data leakage, and we validate such vulnerabilities in various intermediate layers of language models. Our extensive experiments reveal that gradients from a single Transformer layer, or even a single linear component with 0.54% parameters, are susceptible to training data leakage. Additionally, we show that applying differential privacy on gradients during training offers limited protection against the novel vulnerability of data disclosure.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# Uni-ISP: 複数のカメラからISPを学ぶこと

Uni-ISP: Unifying the Learning of ISPs from Multiple Cameras ( http://arxiv.org/abs/2406.01003v1 )

ライセンス: Link先を確認
Lingen Li, Mingde Yao, Xingyu Meng, Muquan Yu, Tianfan Xue, Jinwei Gu, (参考訳) 現代のエンドツーエンドの画像信号プロセッサ(ISP)はRAW/XYZデータからsRGB(あるいは逆)への複雑なマッピングを学習し、画像処理の新たな可能性を開く。 しかし、カメラモデルの多様性が拡大し続けているため、個々のISPの開発とメンテナンスは長期的には持続可能ではなく、本質的には汎用性に欠けており、複数のカメラモデルへの適応性を妨げている。 本稿では,複数のカメラからISPを学習するための新しいパイプラインUni-ISPを提案する。 Uni-ISPの中核は、逆/フォワードISPとその特別なトレーニングスキームを学習することで、デバイス対応の埋め込みを活用することである。 これにより、Uni-ISPは、逆/フォワードISPのパフォーマンスを向上するだけでなく、既存の学習ISPにはアクセスできない様々な新しいアプリケーションをアンロックする。 さらに,複数のカメラで同期して撮影するデータセットは存在しないため,実世界の4KデータセットであるFiveCamを構築し,SRGB-RAW画像の2400組以上を5台のスマートフォンで同期的に撮影する。 Inverse/forward ISPsにおけるUni-ISPの精度(+1.5dB/2.4dB PSNRの改善)、新しいアプリケーションの実現における汎用性、新しいカメラモデルへの適応性など、幅広い実験を行った。

Modern end-to-end image signal processors (ISPs) can learn complex mappings from RAW/XYZ data to sRGB (or inverse), opening new possibilities in image processing. However, as the diversity of camera models continues to expand, developing and maintaining individual ISPs is not sustainable in the long term, which inherently lacks versatility, hindering the adaptability to multiple camera models. In this paper, we propose a novel pipeline, Uni-ISP, which unifies the learning of ISPs from multiple cameras, offering an accurate and versatile processor to multiple camera models. The core of Uni-ISP is leveraging device-aware embeddings through learning inverse/forward ISPs and its special training scheme. By doing so, Uni-ISP not only improves the performance of inverse/forward ISPs but also unlocks a variety of new applications inaccessible to existing learned ISPs. Moreover, since there is no dataset synchronously captured by multiple cameras for training, we construct a real-world 4K dataset, FiveCam, comprising more than 2,400 pairs of sRGB-RAW images synchronously captured by five smartphones. We conducted extensive experiments demonstrating Uni-ISP's accuracy in inverse/forward ISPs (with improvements of +1.5dB/2.4dB PSNR), its versatility in enabling new applications, and its adaptability to new camera models.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# SemCoder: 包括的なセマンティクスによるコード言語モデルのトレーニング

SemCoder: Training Code Language Models with Comprehensive Semantics ( http://arxiv.org/abs/2406.01006v1 )

ライセンス: Link先を確認
Yangruibo Ding, Jinjun Peng, Marcus J. Min, Gail Kaiser, Junfeng Yang, Baishakhi Ray, (参考訳) コードLLM(Code Large Language Models)は、コード補完のようなタスクに優れていますが、実行効果や動的状態のようなより深いセマンティクスを見逃すことがよくあります。 本稿では,静的テキストデータへのコードLLMの依存と,デバッグやプログラムの修復といった複雑なタスクに対する詳細な意味理解の必要性のギャップを埋めることを目的としている。 本稿では,高レベルの機能記述,個々の文の局所的な実行効果,入力/出力動作全般を包含し,静的コードテキストを動的実行状態にリンクする,包括的セマンティクスによるコードLLMのトレーニング手法を提案する。 まずは、機能記述と実行トレースを備えた、完全に実行可能なサンプルのクリーンコードコーパスであるPyXの収集から始めます。 我々は、自然言語を用いてコードを書き、実行動作を表現し、推論するためのCode LLMのトレーニングを提案し、人間の言葉によるデバッグを模倣する。 このアプローチは、コード生成と実行の推論タスクにおいてGPT-3.5-turboと競合する性能を示す6.7Bパラメータしか持たないコードLLMであるSemCoderの開発につながった。 SemCoderはHumanEval(GPT-3.5-turbo:76.8%)で81.1%、CRUXEval-I(GPT-3.5-turbo:50.3%)で54.5%を達成した。 また,具体的なスクラッチパッド推論と比較して,SemCoderのモノローグスタイルの実行推論の有効性について検討し,複数の次元のセマンティクスをよりスムーズに統合することを示す。 最後に、学習したセマンティクスを適用して、コードLLMのデバッグと自己修正機能を改善する可能性を実証する。

Code Large Language Models (Code LLMs) have excelled at tasks like code completion but often miss deeper semantics such as execution effects and dynamic states. This paper aims to bridge the gap between Code LLMs' reliance on static text data and the need for thorough semantic understanding for complex tasks like debugging and program repair. We introduce a novel strategy to train Code LLMs with comprehensive semantics, encompassing high-level functional descriptions, local execution effects of individual statements, and overall input/output behavior, thereby linking static code text with dynamic execution states. We begin by collecting PyX, a clean code corpus of fully executable samples with functional descriptions and execution tracing. We propose training Code LLMs to write code and represent and reason about execution behaviors using natural language, mimicking human verbal debugging. This approach led to the development of SemCoder, a Code LLM with only 6.7B parameters, which shows competitive performance with GPT-3.5-turbo on code generation and execution reasoning tasks. SemCoder achieves 81.1% on HumanEval (GPT-3.5-turbo: 76.8%) and 54.5% on CRUXEval-I (GPT-3.5-turbo: 50.3%). We also study the effectiveness of SemCoder's monologue-style execution reasoning compared to concrete scratchpad reasoning, showing that our approach integrates semantics from multiple dimensions more smoothly. Finally, we demonstrate the potential of applying learned semantics to improve Code LLMs' debugging and self-refining capabilities.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# イメージングレーダ3次元物体検出に基づく多対象追跡

Multi-Object Tracking based on Imaging Radar 3D Object Detection ( http://arxiv.org/abs/2406.01011v1 )

ライセンス: Link先を確認
Patrick Palmer, Martin Krüger, Richard Altendorfer, Torsten Bertram, (参考訳) 周辺交通参加者の効果的な追跡により、将来の行動予測やエゴ車両軌道の適切な計画に必要となる正確な状態推定が可能となる。 周辺交通の参加者を検知・追跡するためのアプローチは、学習に基づく物体検出と古典的な追跡アルゴリズムの組み合わせである。 学習に基づく物体検出器はライダーとカメラのデータに適切に対応し、学習に基づく物体検出器は標準のレーダーデータ入力により劣っていることが示されている。 近年,レーダセンサ技術の改良により,レーダの物体検出性能は大幅に向上したが,レーダ点雲の広さによりライダーセンサに制限が加えられている。 これは、多目的追跡のタスクに特有の課題である。 追跡アルゴリズムは、一貫したトラックを生成しながら、限られた検出品質を克服しなければならない。 この目的のために、下流タスクの可能性を調べるために、レーダデータに対する異なるマルチオブジェクト追跡手法の比較が必要である。 この研究は、複数のアプローチを比較し、レーダーデータに適用した場合の限界を分析します。 さらに, この課題に対して, 確率的アソシエーションアルゴリズムによる提案手法の強化が検討されている。

Effective tracking of surrounding traffic participants allows for an accurate state estimation as a necessary ingredient for prediction of future behavior and therefore adequate planning of the ego vehicle trajectory. One approach for detecting and tracking surrounding traffic participants is the combination of a learning based object detector with a classical tracking algorithm. Learning based object detectors have been shown to work adequately on lidar and camera data, while learning based object detectors using standard radar data input have proven to be inferior. Recently, with the improvements to radar sensor technology in the form of imaging radars, the object detection performance on radar was greatly improved but is still limited compared to lidar sensors due to the sparsity of the radar point cloud. This presents a unique challenge for the task of multi-object tracking. The tracking algorithm must overcome the limited detection quality while generating consistent tracks. To this end, a comparison between different multi-object tracking methods on imaging radar data is required to investigate its potential for downstream tasks. The work at hand compares multiple approaches and analyzes their limitations when applied to imaging radar data. Furthermore, enhancements to the presented approaches in the form of probabilistic association algorithms are considered for this task.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# テンソル積表現の注意に基づく反復分解

Attention-based Iterative Decomposition for Tensor Product Representation ( http://arxiv.org/abs/2406.01012v1 )

ライセンス: Link先を確認
Taewon Park, Inchul Choi, Minho Lee, (参考訳) 近年の研究では、データの構成構造を学習することにより、ディープニューラルネットワークの体系的一般化タスクにテンソル製品表現(TPR)を適用している。 しかし、これらの先行研究は、その構造表現への分解が不完全であるため、目に見えないテストデータからシンボル構造を発見し、表現する上で、限られた性能を示した。 本研究では,TPRを用いた逐次入力データから符号化された構造化表現の分解操作を強化するために,Attention-based Iterative Decomposition (AID)モジュールを提案する。 我々のAIDは、任意のTPRモデルに容易に適応でき、入力特徴と構造化表現との間の競合的な注意機構を通じて、体系的な分解を提供する。 本実験では,一連の系統的一般化タスクにおいて,TPRに基づく先行作業の性能を大幅に向上させることにより,AIDの有効性を示す。 さらに、定量的および定性的な評価では、AIDは他の作品よりも構成的および十分有界な構造表現を生成する。

In recent research, Tensor Product Representation (TPR) is applied for the systematic generalization task of deep neural networks by learning the compositional structure of data. However, such prior works show limited performance in discovering and representing the symbolic structure from unseen test data because their decomposition to the structural representations was incomplete. In this work, we propose an Attention-based Iterative Decomposition (AID) module designed to enhance the decomposition operations for the structured representations encoded from the sequential input data with TPR. Our AID can be easily adapted to any TPR-based model and provides enhanced systematic decomposition through a competitive attention mechanism between input features and structured representations. In our experiments, AID shows effectiveness by significantly improving the performance of TPR-based prior works on the series of systematic generalization tasks. Moreover, in the quantitative and qualitative evaluations, AID produces more compositional and well-bound structural representations than other works.
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# Rewardの過度な最適化を緩和するためのスケーラブルな実装

Scalable Ensembling For Mitigating Reward Overoptimisation ( http://arxiv.org/abs/2406.01013v1 )

ライセンス: Link先を確認
Ahmed M. Ahmed, Rafael Rafailov, Stepan Sharkov, Xuechen Li, Sanmi Koyejo, (参考訳) Reinforcement Learning from Human Feedback (RLHF)は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。 しかしながら、これらのモデルのアライメントは、よりパフォーマンスの高い ` `gold" 報酬モデルによって測定された、学習した ``proxy' 報酬モデルに過度に適合する傾向にあり、これは 'textit{over-optimization} として知られる現象である。 オフライン強化学習では一般的だが、高いメモリ要求の言語モデルでは信じられないほどコストがかかるため、十分に大きなモデルではそのようなアプローチは実現できない。 この目的のために、共有エンコーダを用いるが、分離された線形ヘッドを提案する。 これは完全なアンサンブルと同じようなパフォーマンスをもたらしながら、同じサイズのモデルのトレーニングに必要なメモリと時間の大幅な節約を可能にします。 \end{abstract}

Reinforcement Learning from Human Feedback (RLHF) has enabled significant advancements within language modeling for powerful, instruction-following models. However, the alignment of these models remains a pressing challenge as the policy tends to overfit the learned ``proxy" reward model past an inflection point of utility as measured by a ``gold" reward model that is more performant -- a phenomenon known as \textit{over-optimization}. Prior work has mitigated this issue by computing a pessimistic statistic over an ensemble of reward models, which is common in Offline Reinforcement Learning but incredibly costly for language models with high memory requirements, making such approaches infeasible for sufficiently large models. To this end, we propose using a shared encoder but separate linear heads. We find this leads to similar performance as the full ensemble while allowing tremendous savings in memory and time required for training for models of similar size. \end{abstract}
翻訳日:2024-06-06 02:27:34 公開日:2024-06-03
# Mobile-Agent-v2:マルチエージェントコラボレーションによる効果的なナビゲーション機能を備えたモバイルデバイス操作アシスタント

Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration ( http://arxiv.org/abs/2406.01014v1 )

ライセンス: Link先を確認
Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang, (参考訳) モバイルデバイス操作タスクは、一般的なマルチモーダルAIアプリケーションシナリオになりつつある。 現在のMLLM(Multi-modal Large Language Models)は、訓練データによって制約されているが、操作アシスタントとして効果的に機能する能力は欠如している。 代わりに、ツール呼び出しによる機能強化を行うMLLMベースのエージェントが、このシナリオに徐々に適用されている。 しかし、モバイル機器操作タスクにおける2つの大きなナビゲーション課題、タスク進捗ナビゲーション、フォーカスコンテンツナビゲーションは、既存の作業の単一エージェントアーキテクチャの下でかなり複雑である。 これは、非常に長いトークンシーケンスと、パフォーマンスを制限するインターリーブされたテキストイメージデータフォーマットのためである。 これらのナビゲーション課題を効果的に解決するために,モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。 アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。 計画エージェントはタスク進捗を生成し、履歴操作のナビゲーションをより効率的にする。 フォーカス内容を維持するため、タスクの進捗に応じて更新するメモリユニットを設計する。 さらに、誤った操作を正すために、反射剤は各操作の結果を観察し、それに応じて誤りを処理する。 実験の結果, Mobile-Agent-v2は, Mobile-Agentの単一エージェントアーキテクチャに比べてタスク完了率が30%以上向上していることがわかった。 コードはhttps://github.com/X-PLUG/MobileAgent.comで公開されている。

Mobile device operation tasks are increasingly becoming a popular multi-modal AI application scenario. Current Multi-modal Large Language Models (MLLMs), constrained by their training data, lack the capability to function effectively as operation assistants. Instead, MLLM-based agents, which enhance capabilities through tool invocation, are gradually being applied to this scenario. However, the two major navigation challenges in mobile device operation tasks, task progress navigation and focus content navigation, are significantly complicated under the single-agent architecture of existing work. This is due to the overly long token sequences and the interleaved text-image data format, which limit performance. To address these navigation challenges effectively, we propose Mobile-Agent-v2, a multi-agent architecture for mobile device operation assistance. The architecture comprises three agents: planning agent, decision agent, and reflection agent. The planning agent generates task progress, making the navigation of history operations more efficient. To retain focus content, we design a memory unit that updates with task progress. Additionally, to correct erroneous operations, the reflection agent observes the outcomes of each operation and handles any mistakes accordingly. Experimental results indicate that Mobile-Agent-v2 achieves over a 30% improvement in task completion compared to the single-agent architecture of Mobile-Agent. The code is open-sourced at https://github.com/X-PLUG/MobileAgent.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# 変分モンテカルロ法におけるニューラル量子状態:簡単な概要

Neural Quantum States in Variational Monte Carlo Method: A Brief Summary ( http://arxiv.org/abs/2406.01017v1 )

ライセンス: Link先を確認
Yuntai Song, (参考訳) 本稿では,スピン系の量子状態に基づく変分モンテカルロ法について概説する。 ニューラルネットワークを波動関数として使用すると、その非線型活性化関数と密接に関連している非常に非局所的な相互作用を含む、様々な種類の相互作用のより一般化された表現が可能になる。 さらに、ニューラルネットワークは、高次元システムを扱う場合、比較的小さな計算資源を持つ比較的複雑な波動関数を表現できる。 量子状態トモグラフィーにおいて、ニューラル量子状態の表現法はすでに大きな成果を上げており、より大きなシステムを扱う可能性を示している。

In this note, variational Monte Carlo method based on neural quantum states for spin systems is reviewed. Using a neural network as the wave function allows for a more generalized expression of various types of interactions, including highly non-local interactions, which are closely related to its non-linear activation functions. Additionally, neural networks can represent relatively complex wave functions with relatively small computational resources when dealing with higher-dimensional systems, which is undoubtedly a "flattening" advantage. In quantum-state tomography, the representation method of neural quantum states has already achieved significant results, hinting at its potential in handling larger-sized systems.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# マルチレベルVAEと逆学習を用いたテキスト音声のアクセント変換

Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training ( http://arxiv.org/abs/2406.01018v1 )

ライセンス: Link先を確認
Jan Melechovsky, Ambuj Mehrish, Berrak Sisman, Dorien Herremans, (参考訳) 急速なグローバル化により、包括的で代表的な音声技術を構築する必要性は過大評価されない。 アクセントは、包括的音声合成装置を構築する際に考慮すべき音声の重要な側面である。 包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。 アクセントに焦点を絞らずに高品質な音声を生成するように設計されているため、現状のTTS(Text-to-Speech)システムは、背景に関係なく、現在すべての人に適していない可能性があることに留意する。 本稿では,TTSにおけるアクセント付き音声合成と変換に対応するために,マルチレベル変分オートエンコーダを用いたTSモデルを提案する。 主観的評価と主観的聴力テストによる評価を行った。 その結果,アクセント変換能力はベースラインに比べて向上した。

With rapid globalization, the need to build inclusive and representative speech technology cannot be overstated. Accent is an important aspect of speech that needs to be taken into consideration while building inclusive speech synthesizers. Inclusive speech technology aims to erase any biases towards specific groups, such as people of certain accent. We note that state-of-the-art Text-to-Speech (TTS) systems may currently not be suitable for all people, regardless of their background, as they are designed to generate high-quality voices without focusing on accent. In this paper, we propose a TTS model that utilizes a Multi-Level Variational Autoencoder with adversarial learning to address accented speech synthesis and conversion in TTS, with a vision for more inclusive systems in the future. We evaluate the performance through both objective metrics and subjective listening tests. The results show an improvement in accent conversion ability compared to the baseline.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# CLIP-Guided Attribute Aware Pretraining for Generalizable Image Quality Assessment

CLIP-Guided Attribute Aware Pretraining for Generalizable Image Quality Assessment ( http://arxiv.org/abs/2406.01020v1 )

ライセンス: Link先を確認
Daekyu Kwon, Dongyoung Kim, Sehwan Ki, Younghyun Jo, Hyong-Euk Lee, Seon Joo Kim, (参考訳) no-reference Image Quality Assessment (NR-IQA)では、限られたデータセットサイズでの課題は、堅牢で一般化可能なモデルの開発を妨げている。 従来の方法では、大きなデータセットを使用してIQAのリッチな表現を抽出することでこの問題に対処する。 また、視覚言語モデル(VLM)をベースとしたIQAを提案する手法もあるが、汎用VLMとIQAのドメインギャップはスケーラビリティを制約している。 本稿では,VLM から品質関連知識を選択的に抽出し,大規模データセットのスケーラビリティを活用することにより,IQA の一般化可能な表現を構築する新しい事前学習フレームワークを提案する。 具体的には、5つの代表的な画像品質属性に対して最適なテキストプロンプトを慎重に選択し、VLMを用いて擬似ラベルを生成する。 多数の属性を意識した擬似ラベルを大きな画像データセットで生成し,画像品質に関する豊かな表現をIQAモデルで学習する。 提案手法は,複数のIQAデータセット上での最先端性能を実現し,優れた一般化能力を示す。 これらの長所を生かして、画像生成モデルの評価や画像強調モデルの訓練、実世界の適用可能性の実証など、いくつかの応用を提案する。 私たちはそのコードを利用できるようにします。

In no-reference image quality assessment (NR-IQA), the challenge of limited dataset sizes hampers the development of robust and generalizable models. Conventional methods address this issue by utilizing large datasets to extract rich representations for IQA. Also, some approaches propose vision language models (VLM) based IQA, but the domain gap between generic VLM and IQA constrains their scalability. In this work, we propose a novel pretraining framework that constructs a generalizable representation for IQA by selectively extracting quality-related knowledge from VLM and leveraging the scalability of large datasets. Specifically, we carefully select optimal text prompts for five representative image quality attributes and use VLM to generate pseudo-labels. Numerous attribute-aware pseudo-labels can be generated with large image datasets, allowing our IQA model to learn rich representations about image quality. Our approach achieves state-of-the-art performance on multiple IQA datasets and exhibits remarkable generalization capabilities. Leveraging these strengths, we propose several applications, such as evaluating image generation models and training image enhancement models, demonstrating our model's real-world applicability. We will make the code available for access.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# フィンランド小説の文学的分析のための定性的・計算的アプローチの組み合わせ

Combining Qualitative and Computational Approaches for Literary Analysis of Finnish Novels ( http://arxiv.org/abs/2406.01021v1 )

ライセンス: Link先を確認
Emily Ohman, Riikka Rossi, (参考訳) 計算感情分析を用いてフィンランド文学の古典から何が学べるか? 本稿は、文学作品研究における感情分析の計算手法が、文学や影響に対する質的あるいはより「伝統的な」アプローチとどのように併用できるかを検討することで、この問題に答えようとしている。 本研究では,フィンランド文学の文体に適応した感情レキシコンと,フィンランド文学の文体の意味的感情空間を図解する単語埋め込みを組み合わせた,感情分析の単純かつ堅牢な計算手法を提示・開発する。 我々は,ユハニ・アホ(Juhani Aho),ミンナ・カント(Minna Canth),マリア・ジョトゥニ(Maria Jotuni),F.E.シランプ(F.E. Sillanp\"a\"a"a)の4つの作品について定性的な分析を行った。 テキストの語彙の計算分析は、テキスト内の感情的原子価の大規模な分布を評価するのに有用であり、他の研究者が研究結果を再現するのに役立つガイドラインを提供する。 計算手法は, 文献に影響を及ぼす研究において, 近読的分析支援ツールとしての役割を担っているが, ジャンルや全国的カノンの大規模比較も可能であることを示す。

What can we learn from the classics of Finnish literature by using computational emotion analysis? This article tries to answer this question by examining how computational methods of sentiment analysis can be used in the study of literary works in conjunction with a qualitative or more 'traditional' approach to literature and affect. We present and develop a simple but robust computational approach of affect analysis that uses a carefully curated emotion lexicon adapted to Finnish turn-of-the-century literary texts combined with word embeddings to map out the semantic emotional spaces of seminal works of Finnish literature. We focus our qualitative analysis on selected case studies: four works by Juhani Aho, Minna Canth, Maria Jotuni, and F. E. Sillanp\"a\"a, but provide emotion arcs for a total of 975 Finnish novels. We argue that a computational analysis of a text's lexicon can be valuable in evaluating the large distribution of the emotional valence in a text and provide guidelines to help other researchers replicate our findings. We show that computational approaches have a place in traditional studies on affect in literature as a support tool for close-reading-based analyses, but also allowing for large-scale comparison between, for example, genres or national canons.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# レコメンダシステムにおける攻撃と防御

Poisoning Attacks and Defenses in Recommender Systems: A Survey ( http://arxiv.org/abs/2406.01022v1 )

ライセンス: Link先を確認
Zongwei Wang, Junliang Yu, Min Gao, Guanhua Ye, Shazia Sadiq, Hongzhi Yin, (参考訳) 現代のレコメンデーターシステム(RS)は、デジタルプラットフォーム全体のユーザエクスペリエンスを著しく向上させたが、毒殺攻撃による重大な脅威に直面している。 これらの攻撃は、非倫理的な利益のためにレコメンデーションアウトプットを操作することを目的としており、悪意のあるデータを注入したり、モデルのトレーニングを介入することでRSの脆弱性を悪用している。 この調査は、攻撃者のレンズを通してこれらの脅威を調べ、そのメカニズムと影響について新たな洞察を提供することによって、ユニークな視点を示す。 具体的には、攻撃目標の設定、攻撃能力の評価、被害者のアーキテクチャの分析、毒殺戦略の実行の4段階を含む、系統的なパイプラインを詳述する。 パイプラインは様々な攻撃戦術と整合するだけでなく、異なる毒殺攻撃の焦点を特定するための包括的分類としても機能する。 これに対応して、我々は防衛戦略を2つの主要なカテゴリに分類する: 有害なデータフィルタリングと、防御者の視点からの堅牢な訓練である。 最後に、既存の制限を強調し、この分野におけるさらなる探索のための革新的な方向性を提案する。

Modern recommender systems (RS) have profoundly enhanced user experience across digital platforms, yet they face significant threats from poisoning attacks. These attacks, aimed at manipulating recommendation outputs for unethical gains, exploit vulnerabilities in RS through injecting malicious data or intervening model training. This survey presents a unique perspective by examining these threats through the lens of an attacker, offering fresh insights into their mechanics and impacts. Concretely, we detail a systematic pipeline that encompasses four stages of a poisoning attack: setting attack goals, assessing attacker capabilities, analyzing victim architecture, and implementing poisoning strategies. The pipeline not only aligns with various attack tactics but also serves as a comprehensive taxonomy to pinpoint focuses of distinct poisoning attacks. Correspondingly, we further classify defensive strategies into two main categories: poisoning data filtering and robust training from the defender's perspective. Finally, we highlight existing limitations and suggest innovative directions for further exploration in this field.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# Khayyamがペルシアの筆跡データセットをオフラインで公開

Khayyam Offline Persian Handwriting Dataset ( http://arxiv.org/abs/2406.01025v1 )

ライセンス: Link先を確認
Pourya Jafarzadeh, Padideh Choobdar, Vahid Mohammadi Safarzadeh, (参考訳) 手書き解析は、マシンラーニングにおいて依然として重要な応用である。 どんな手書き認識アプリケーションでも基本的な要件は、包括的なデータセットが利用できることだ。 標準ラベル付きデータセットは、学習アルゴリズムのトレーニングと評価において重要な役割を果たす。 本稿では,ハヤムデータセットをペルシア語の要素(単語,文,文字,数字)の非拘束手書きデータセットとして提示する。 現在利用可能なデータセットでは稀なペルシャ語サンプルの収集に集中しています。 カヤムのデータセットには44000語、60000文字、6000桁が含まれている。 さらに、この形式は400人のペルシア人作家によって埋められた。 データセットの適用性を示すために、数字、文字、単語データに基づいて機械学習アルゴリズムを訓練し、結果を報告する。 このデータセットは研究や学術的な用途で利用できる。

Handwriting analysis is still an important application in machine learning. A basic requirement for any handwriting recognition application is the availability of comprehensive datasets. Standard labelled datasets play a significant role in training and evaluating learning algorithms. In this paper, we present the Khayyam dataset as another large unconstrained handwriting dataset for elements (words, sentences, letters, digits) of the Persian language. We intentionally concentrated on collecting Persian word samples which are rare in the currently available datasets. Khayyam's dataset contains 44000 words, 60000 letters, and 6000 digits. Moreover, the forms were filled out by 400 native Persian writers. To show the applicability of the dataset, machine learning algorithms are trained on the digits, letters, and word data and results are reported. This dataset is available for research and academic use.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# 言語モデルの信頼性を向上したシンボル結合

Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors ( http://arxiv.org/abs/2406.01026v1 )

ライセンス: Link先を確認
Mengge Xue, Zhenyu Hu, Meng Zhao, Liqun Liu, Kuo Liao, Shuang Li, Honglin Han, Chengguo Yin, (参考訳) 大規模言語モデル (LLMs) の研究において, MCQ (Multiple-Choice Questions) が重要な研究領域となっている。 これまでの研究は、LCMのパフォーマンスが回答選択の提示に影響され、スーパービジョン・ファインチューニング(SFT)における選択バイアスが未探索のままである、というシナリオにおいて、MCQにおける選択バイアス問題を調査してきた。 本稿では,LLMのMCSB能力が不十分なため,選択バイアスがSFT相に持続していることを明らかにする。 この制限は、モデルが解の選択肢と対応する記号(例えば、A/B/C/D)を効果的に関連付けるのに苦労していることを意味する。 モデルのMCSB能力を高めるために、まず損失関数にオプション内容を取り込んで、オプションシンボルとコンテンツの重みを調整し、現在のシンボルのオプション内容を理解するようモデルに指示する。 そこで我々は,ポイントワイド・インテリジェント・フィードバック (PIF) と呼ばれるMCQに対する効率的なSFTアルゴリズムを提案する。 PIFは、不正なオプション内容とすべての候補シンボルをランダムに組み合わせて負のインスタンスを構築し、これらの負のサンプルをLLMにフィードバックするポイントワイズ損失を提案する。 実験の結果, PIF は MCSB 能力を向上させることにより, モデル選択バイアスを著しく低減することが示された。 興味深いことに、PIFはMCQの精度を大幅に向上させる。

Multiple-Choice Questions (MCQs) constitute a critical area of research in the study of Large Language Models (LLMs). Previous works have investigated the selection bias problem in MCQs within few-shot scenarios, in which the LLM's performance may be influenced by the presentation of answer choices, leaving the selection bias during Supervised Fine-Tuning (SFT) unexplored. In this paper, we reveal that selection bias persists in the SFT phase , primarily due to the LLM's inadequate Multiple Choice Symbol Binding (MCSB) ability. This limitation implies that the model struggles to associate the answer options with their corresponding symbols (e.g., A/B/C/D) effectively. To enhance the model's MCSB capability, we first incorporate option contents into the loss function and subsequently adjust the weights of the option symbols and contents, guiding the model to understand the option content of the current symbol. Based on this, we introduce an efficient SFT algorithm for MCQs, termed Point-wise Intelligent Feedback (PIF). PIF constructs negative instances by randomly combining the incorrect option contents with all candidate symbols, and proposes a point-wise loss to provide feedback on these negative samples into LLMs. Our experimental results demonstrate that PIF significantly reduces the model's selection bias by improving its MCSB capability. Remarkably, PIF exhibits a substantial enhancement in the accuracy for MCQs.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# PRICE: クロスデータベース・カーディナリティ推定のための事前訓練モデル

PRICE: A Pretrained Model for Cross-Database Cardinality Estimation ( http://arxiv.org/abs/2406.01027v1 )

ライセンス: Link先を確認
Tianjing Zeng, Junwei Lan, Jiahong Ma, Wenqing Wei, Rong Zhu, Pengfei Li, Bolin Ding, Defu Lian, Zhewei Wei, Jingren Zhou, (参考訳) クエリ実行計画の最適化には,カーディナリティ推定(CardEst)が不可欠である。 最近のMLベースのCardEst手法は、データベース間の転送可能性の欠如と高い準備コストのため、高い精度を達成できるが、デプロイメント上の課題に直面している。 本稿では,これらの制約に対処するPRetrained MultI-table CardEstモデルであるPRICEを提案する。 PRICEは低レベルだが転送可能なデータ分散とクエリ情報を取得し、メタ知識を学習するために自己認識モデルをエレガントに適用し、任意のデータベースの濃度を計算する。 一般に、その作成コストは基本的な1次元ヒストグラムベースのCardEst法とほとんど変わらないが、高い推定精度を達成するために、目に見えない新しいデータベースに適用できる。 さらに、PRICEを微調整することで、特定のデータベース上での性能をさらに向上することができる。 30の多様なデータセットを使用してPRICEを事前トレーニングし、約5時間で処理を完了し、結果としてモデルサイズは約40MBになった。 評価の結果、PRICEは既存の手法を一貫して上回り、いくつかの未確認データベース上で最高の推定精度を達成し、オーバーヘッドを低くして高速な実行計画を生成することがわかった。 少量のデータベース固有のクエリで微調整した後、PRICEは最適なクエリに非常に近いプランを見つけることができた。 一方、PRICEは一般的に、データ更新、データスケーリング、クエリのワークロードシフトなど、さまざまな設定に適用できます。 私たちはすべてのデータとコードをhttps://github.com/StCarmen/PRICE.comで公開しました。

Cardinality estimation (CardEst) is essential for optimizing query execution plans. Recent ML-based CardEst methods achieve high accuracy but face deployment challenges due to high preparation costs and lack of transferability across databases. In this paper, we propose PRICE, a PRetrained multI-table CardEst model, which addresses these limitations. PRICE takes low-level but transferable features w.r.t. data distributions and query information and elegantly applies self-attention models to learn meta-knowledge to compute cardinality in any database. It is generally applicable to any unseen new database to attain high estimation accuracy, while its preparation cost is as little as the basic one-dimensional histogram-based CardEst methods. Moreover, PRICE can be finetuned to further enhance its performance on any specific database. We pretrained PRICE using 30 diverse datasets, completing the process in about 5 hours with a resulting model size of only about 40MB. Evaluations show that PRICE consistently outperforms existing methods, achieving the highest estimation accuracy on several unseen databases and generating faster execution plans with lower overhead. After finetuning with a small volume of databasespecific queries, PRICE could even find plans very close to the optimal ones. Meanwhile, PRICE is generally applicable to different settings such as data updates, data scaling, and query workload shifts. We have made all of our data and codes publicly available at https://github.com/StCarmen/PRICE.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# LLEMamba:ディープ・アンフォールディング・ネットワークを用いたライティングガイドマンバによる低照度化

LLEMamba: Low-Light Enhancement via Relighting-Guided Mamba with Deep Unfolding Network ( http://arxiv.org/abs/2406.01028v1 )

ライセンス: Link先を確認
Xuanqi Zhang, Haijin Zeng, Jinwang Pan, Qiangqiang Shen, Yongyong Chen, (参考訳) トランスフォーマーをベースとした低照度化手法は,グローバルコンテキストにおける長距離依存性を効果的にキャプチャすることで,有望な性能を実現している。 しかし、その高い計算需要は、深層展開ネットワークにおける複数イテレーションのスケーラビリティを制限するため、解釈可能性と歪みの柔軟バランスが困難である。 この問題に対処するために,Retinex Optimization と Mamba Deep Priors によって理論的解釈性と忠実性が保証される深層展開ネットワーク (LLEMamba) を用いたリライト誘導型マンバによる新しい低照度化手法を提案する。 具体的には、LLEMambaは、まず、深く展開するネットワーク内に、乗算器の交互方向法(ADMM)に基づく反復最適化過程を組み込んだ、深い事前のRetinexモデルを構築します。 Transformerとは異なり、複数のイテレーションで深層展開フレームワークを支援するため、LLEMambaは計算複雑性の低い新しいMambaアーキテクチャを導入している。 ベンチマーク実験により,LLEMambaは既存の最先端手法と比較して,優れた定量的評価と低歪みの視覚的結果が得られることが示された。

Transformer-based low-light enhancement methods have yielded promising performance by effectively capturing long-range dependencies in a global context. However, their elevated computational demand limits the scalability of multiple iterations in deep unfolding networks, and hence they have difficulty in flexibly balancing interpretability and distortion. To address this issue, we propose a novel Low-Light Enhancement method via relighting-guided Mamba with a deep unfolding network (LLEMamba), whose theoretical interpretability and fidelity are guaranteed by Retinex optimization and Mamba deep priors, respectively. Specifically, our LLEMamba first constructs a Retinex model with deep priors, embedding the iterative optimization process based on the Alternating Direction Method of Multipliers (ADMM) within a deep unfolding network. Unlike Transformer, to assist the deep unfolding framework with multiple iterations, the proposed LLEMamba introduces a novel Mamba architecture with lower computational complexity, which not only achieves light-dependent global visual context for dark images during reflectance relight but also optimizes to obtain more stable closed-form solutions. Experiments on the benchmarks show that LLEMamba achieves superior quantitative evaluations and lower distortion visual results compared to existing state-of-the-art methods.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# CYCLO: サイクリックグラフ変換器による空中映像の多目的関係モデリング

CYCLO: Cyclic Graph Transformer Approach to Multi-Object Relationship Modeling in Aerial Videos ( http://arxiv.org/abs/2406.01029v1 )

ライセンス: Link先を確認
Trong-Thuan Nguyen, Pha Nguyen, Xin Li, Jackson Cothren, Alper Yilmaz, Khoa Luu, (参考訳) 映像シーングラフ生成(VidSGG)は、オブジェクト間の複雑な関係とビデオシーケンスにおける時間的ダイナミクスをキャプチャし、解釈するための変換的アプローチとして登場した。 本稿では,空中ビデオにおける多目的関係モデリングに焦点を当てた新しいAeroEyeデータセットを提案する。 私たちのAeroEyeデータセットには、さまざまなドローンシーンが含まれており、オブジェクト間の複雑な関係や空間的配置をキャプチャする、視覚的に包括的で正確な述語集が含まれています。 この目的のために,循環グラフ変換器 (CYCLO) の手法を提案する。 また、提案手法により、固有巡回パターンでシーケンスを処理し、オブジェクト関係を正しい順序で処理することができる。 これにより、情報損失を最小限に抑えつつ、周期的・重複的な関係を効果的に捉えることができる。 AeroEyeデータセットに関する広範な実験は、提案されたCYCLOモデルの有効性を示し、ドローンビデオのシーン理解を行う可能性を示している。 最後に、CYCLO法は、PVSGとASPIReの2つのシーングラフ生成ベンチマークに対して、常にステート・オブ・ザ・アート(SOTA)結果を達成する。

Video scene graph generation (VidSGG) has emerged as a transformative approach to capturing and interpreting the intricate relationships among objects and their temporal dynamics in video sequences. In this paper, we introduce the new AeroEye dataset that focuses on multi-object relationship modeling in aerial videos. Our AeroEye dataset features various drone scenes and includes a visually comprehensive and precise collection of predicates that capture the intricate relationships and spatial arrangements among objects. To this end, we propose the novel Cyclic Graph Transformer (CYCLO) approach that allows the model to capture both direct and long-range temporal dependencies by continuously updating the history of interactions in a circular manner. The proposed approach also allows one to handle sequences with inherent cyclical patterns and process object relationships in the correct sequential order. Therefore, it can effectively capture periodic and overlapping relationships while minimizing information loss. The extensive experiments on the AeroEye dataset demonstrate the effectiveness of the proposed CYCLO model, demonstrating its potential to perform scene understanding on drone videos. Finally, the CYCLO method consistently achieves State-of-the-Art (SOTA) results on two in-the-wild scene graph generation benchmarks, i.e., PVSG and ASPIRe.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# LLMとGNNは補完的:マルチモーダルグラフ学習のためのLLMを蒸留する

LLM and GNN are Complementary: Distilling LLM for Multimodal Graph Learning ( http://arxiv.org/abs/2406.01032v1 )

ライセンス: Link先を確認
Junjie Xu, Zongyu Wu, Minhua Lin, Xiang Zhang, Suhang Wang, (参考訳) グラフニューラルネットワーク(GNN)の最近の進歩は、複雑な分子構造をモデル化して特性を予測する能力を大幅に強化している。 それでも、分子データは、GNNがうまく扱えないテキスト情報や視覚情報を含む、単なるグラフ構造以上のものを含んでいる。 このギャップを埋めるために,マルチモーダルな分子データを用いてLarge Language Models (LLMs) から洞察を抽出する,革新的なフレームワークを提案する。 GALLON(Graph Learning from Large Language Model Distillation)は,マルチモーダル知識をMLP(Multilayer Perceptron)に統合することにより,LLMとGNNの能力を相乗化するフレームワークである。 本手法は、分子のリッチテキストデータと視覚データと、GNNの構造解析能力を統合する。 大規模実験により, 蒸留MLPモデルにより, 分子特性予測の精度と効率が著しく向上することが明らかとなった。

Recent progress in Graph Neural Networks (GNNs) has greatly enhanced the ability to model complex molecular structures for predicting properties. Nevertheless, molecular data encompasses more than just graph structures, including textual and visual information that GNNs do not handle well. To bridge this gap, we present an innovative framework that utilizes multimodal molecular data to extract insights from Large Language Models (LLMs). We introduce GALLON (Graph Learning from Large Language Model Distillation), a framework that synergizes the capabilities of LLMs and GNNs by distilling multimodal knowledge into a unified Multilayer Perceptron (MLP). This method integrates the rich textual and visual data of molecules with the structural analysis power of GNNs. Extensive experiments reveal that our distilled MLP model notably improves the accuracy and efficiency of molecular property predictions.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# 配向誘導重み補正を用いたマルチタスク学習を用いた一般化ジャージ数認識

Generalized Jersey Number Recognition Using Multi-task Learning With Orientation-guided Weight Refinement ( http://arxiv.org/abs/2406.01033v1 )

ライセンス: Link先を確認
Yung-Hui Lin, Yu-Wen Chang, Huang-Chia Shih, Takahiro Ogawa, (参考訳) ジャージー番号認識(JNR)はスポーツ分析において常に重要な課題である。 画像がぼやけ、隠蔽、変形、解像度の低いため、認識精度の向上は現在も進行中の課題である。 近年の研究では、数値ローカライゼーションと光学的文字認識を用いてこの問題に対処している。 いくつかのアプローチでは、人体回転角がジャージの数字の識別に与える影響を無視して、プレイヤー識別スキームを画像シーケンスに適用している。 マルチタスクスキームを用いて各数字を正確に予測することで、より堅牢な結果が得られる。 そこで本研究では,人体方向角と数字の手がかりを組み合わせた多タスク学習手法であるアングル・ディジット・リファレンス・スキーム(ADRS)を提案する。 実験結果から,提案手法は推測情報を増加させ,予測精度を大幅に向上させる。 1種類のスポーツしか扱えない最先端の手法と比較して、提案手法はより多種多様な実用的JNRアプリケーションを生成する。 サッカー,サッカー,バスケットボール,バレーボール,野球などの多種多様なチームスポーツをデータセットに組み込むことは,スポーツ分析におけるJNRの一般化に大きく貢献する。 我々の精度はトップ1で64.07%、トップ2で89.97%、対応するF1スコアは67.46%、90.64%である。

Jersey number recognition (JNR) has always been an important task in sports analytics. Improving recognition accuracy remains an ongoing challenge because images are subject to blurring, occlusion, deformity, and low resolution. Recent research has addressed these problems using number localization and optical character recognition. Some approaches apply player identification schemes to image sequences, ignoring the impact of human body rotation angles on jersey digit identification. Accurately predicting the number of jersey digits by using a multi-task scheme to recognize each individual digit enables more robust results. Based on the above considerations, this paper proposes a multi-task learning method called the angle-digit refine scheme (ADRS), which combines human body orientation angles and digit number clues to recognize athletic jersey numbers. Based on our experimental results, our approach increases inference information, significantly improving prediction accuracy. Compared to state-of-the-art methods, which can only handle a single type of sport, the proposed method produces a more diverse and practical JNR application. The incorporation of diverse types of team sports such as soccer, football, basketball, volleyball, and baseball into our dataset contributes greatly to generalized JNR in sports analytics. Our accuracy achieves 64.07% on Top-1 and 89.97% on Top-2, with corresponding F1 scores of 67.46% and 90.64%, respectively.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# 3次元心筋変形解析のための合成データ生成

Synthetic Data Generation for 3D Myocardium Deformation Analysis ( http://arxiv.org/abs/2406.01040v1 )

ライセンス: Link先を確認
Shahar Zuler, Dan Raviv, (参考訳) 高分解能CTデータセットとGTアノテーションを用いた3次元心筋変形の正確な解析は、心血管画像研究の進展に不可欠である。 しかし、そのようなデータセットの不足は、堅牢な心筋変形解析モデルを開発する上で大きな課題となる。 そこで本研究では,心血管画像データセットの充実のための合成データ生成手法を提案する。 本稿では,GT 3D光フローアノテーションを付加した合成データ生成手法を提案する。 心4次元CTスキャン(4D)からのデータ作成,パラメータの選択,および同一または他の心3次元CTデータからの合成データの作成について概説した。 本研究は,高分解能CTデータセットの欠如による限界を克服し,臨床応用と診断のための正確かつ信頼性の高い心筋変形解析アルゴリズムの開発に寄与する。 私たちのコードは、http://www.github.com/shaharzuler/cardio_volume_skewerで利用可能です。

Accurate analysis of 3D myocardium deformation using high-resolution computerized tomography (CT) datasets with ground truth (GT) annotations is crucial for advancing cardiovascular imaging research. However, the scarcity of such datasets poses a significant challenge for developing robust myocardium deformation analysis models. To address this, we propose a novel approach to synthetic data generation for enriching cardiovascular imaging datasets. We introduce a synthetic data generation method, enriched with crucial GT 3D optical flow annotations. We outline the data preparation from a cardiac four-dimensional (4D) CT scan, selection of parameters, and the subsequent creation of synthetic data from the same or other sources of 3D cardiac CT data for training. Our work contributes to overcoming the limitations imposed by the scarcity of high-resolution CT datasets with precise annotations, thereby facilitating the development of accurate and reliable myocardium deformation analysis algorithms for clinical applications and diagnostics. Our code is available at: http://www.github.com/shaharzuler/cardio_volume_skewer
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# ガウススプラッティングを用いた単眼ビデオからの自己校正4次元新しいビュー合成

Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting ( http://arxiv.org/abs/2406.01042v1 )

ライセンス: Link先を確認
Fang Li, Hao Zhang, Narendra Ahuja, (参考訳) ガウス散乱(GS)は、特にダイナミックシーンにおいて、ニューラルレイディアンス場(NeRF)と比較して、シーン再構成効率と新規ビュー合成(NVS)の精度を著しく向上させた。 しかし、GS や NeRF をベースとした現在の 4D NVS の手法は、主に COLMAP が提供するカメラパラメータに依存しており、COLMAP が生成したスパース点雲を初期化に利用している。 これは、特に大きな物体の動きのあるシーンや、大きな回転と組み合わされた小さな翻訳のような極端なカメラ条件において、動的シーンの表現が貧弱になることがある。 いくつかの研究は、市販のモデルから得られた深度、光学的流れなどの追加情報によって、カメラパラメータとシーンの推定を同時に最適化する。 この証明されていない情報を真実として使うと、堅牢性と精度が低下し、長いモノクロビデオ(例えば数百フレーム)で頻繁に発生する。 本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。 これには、3D構造を頑健に表現する2D点の特徴の抽出や、カメラパラメータと3D構造を連続的に4Dシーンの最適化に利用することが含まれる。 提案手法の精度と時間効率を,いくつかの標準ベンチマークにおける定量的,定性的な実験結果を通じて実証する。 その結果,4次元の新規なビュー合成のための最先端手法よりも顕著な改善が見られた。 ソースコードは近々https://github.com/fangli333/SC-4DGSで公開される。

Gaussian Splatting (GS) has significantly elevated scene reconstruction efficiency and novel view synthesis (NVS) accuracy compared to Neural Radiance Fields (NeRF), particularly for dynamic scenes. However, current 4D NVS methods, whether based on GS or NeRF, primarily rely on camera parameters provided by COLMAP and even utilize sparse point clouds generated by COLMAP for initialization, which lack accuracy as well are time-consuming. This sometimes results in poor dynamic scene representation, especially in scenes with large object movements, or extreme camera conditions e.g. small translations combined with large rotations. Some studies simultaneously optimize the estimation of camera parameters and scenes, supervised by additional information like depth, optical flow, etc. obtained from off-the-shelf models. Using this unverified information as ground truth can reduce robustness and accuracy, which does frequently occur for long monocular videos (with e.g. > hundreds of frames). We propose a novel approach that learns a high-fidelity 4D GS scene representation with self-calibration of camera parameters. It includes the extraction of 2D point features that robustly represent 3D structure, and their use for subsequent joint optimization of camera parameters and 3D structure towards overall 4D scene optimization. We demonstrate the accuracy and time efficiency of our method through extensive quantitative and qualitative experimental results on several standard benchmarks. The results show significant improvements over state-of-the-art methods for 4D novel view synthesis. The source code will be released soon at https://github.com/fangli333/SC-4DGS.
翻訳日:2024-06-06 02:17:50 公開日:2024-06-03
# 核医学 人工知能の行動:Bethesda Report (AI Summit 2024)

Nuclear Medicine Artificial Intelligence in Action: The Bethesda Report (AI Summit 2024) ( http://arxiv.org/abs/2406.01044v1 )

ライセンス: Link先を確認
Arman Rahmim, Tyler J. Bradshaw, Guido Davidzon, Joyita Dutta, Georges El Fakhri, Munir Ghesani, Nicolas A. Karakatsanis, Quanzheng Li, Chi Liu, Emilie Roncali, Babak Saboury, Tahir Yusufaly, Abhinav K. Jha, (参考訳) 第2回SNMMI人工知能(AI)サミット(第2回SNMMI AI Task Force)は、2024年2月29日から3月1日にかけて、MDのベセスダで開催された。 さまざまなコミュニティメンバと利害関係者を集結させ、2022年に成功したAI Summitに続いて、サミットのテーマは「AI in Action」だった。 主なトピックは6つ。 i)AIタスクフォースによる事前及び進行中の取り組みの概要 二 計算核腫瘍学の新たなニーズ及びツール 三 大規模言語及び生成モデルにおける新たなフロンティア 四 核医学におけるAIの利用に関する価値提案を定義すること。 (v)データとモデルリポジトリの取り組みを含むオープンサイエンス (vi)返済及び資金調達の問題。 主な取り組み、発見、課題、次のステップはこの写本にまとめられている。

The 2nd SNMMI Artificial Intelligence (AI) Summit, organized by the SNMMI AI Task Force, took place in Bethesda, MD, on February 29 - March 1, 2024. Bringing together various community members and stakeholders, and following up on a prior successful 2022 AI Summit, the summit theme was: AI in Action. Six key topics included (i) an overview of prior and ongoing efforts by the AI task force, (ii) emerging needs and tools for computational nuclear oncology, (iii) new frontiers in large language and generative models, (iv) defining the value proposition for the use of AI in nuclear medicine, (v) open science including efforts for data and model repositories, and (vi) issues of reimbursement and funding. The primary efforts, findings, challenges, and next steps are summarized in this manuscript.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# LLMを用いたスキーマ対応イベント抽出

Decompose, Enrich, and Extract! Schema-aware Event Extraction using LLMs ( http://arxiv.org/abs/2406.01045v1 )

ライセンス: Link先を確認
Fatemeh Shiri, Van Nguyen, Farhad Moghimifar, John Yoo, Gholamreza Haffari, Yuan-Fang Li, (参考訳) 大規模言語モデル(LLM)は、自然言語データを処理する上で重要な能力を示し、さまざまなテキストソースから効率的な知識を抽出し、状況認識を高め、意思決定を支援する。 しかし、幻覚への感受性が原因で懸念が生じ、文脈的に不正確な内容が生じる。 この作業は、イベント抽出の自動化にLLMを活用することに焦点を当て、タスクをイベント検出とイベント引数抽出に分解することで幻覚に対処する新しい方法を導入する。 さらに,提案手法では,動的スキーマ対応の拡張検索例を特定の質問に合わせたプロンプトに統合し,検索機能強化生成などの高度なプロンプト技術を拡張し,適応させる。 顕著なイベント抽出ベンチマークの評価結果と、合成されたベンチマークの結果は、ベースラインアプローチと比較して、手法の優れた性能を示している。

Large Language Models (LLMs) demonstrate significant capabilities in processing natural language data, promising efficient knowledge extraction from diverse textual sources to enhance situational awareness and support decision-making. However, concerns arise due to their susceptibility to hallucination, resulting in contextually inaccurate content. This work focuses on harnessing LLMs for automated Event Extraction, introducing a new method to address hallucination by decomposing the task into Event Detection and Event Argument Extraction. Moreover, the proposed method integrates dynamic schema-aware augmented retrieval examples into prompts tailored for each specific inquiry, thereby extending and adapting advanced prompting techniques such as Retrieval-Augmented Generation. Evaluation findings on prominent event extraction benchmarks and results from a synthesized benchmark illustrate the method's superior performance compared to baseline approaches.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# クラウドコンピューティングにおけるデシリアブルワークロードのオンラインスケジューリングのための高度な強化学習フレームワーク

An Advanced Reinforcement Learning Framework for Online Scheduling of Deferrable Workloads in Cloud Computing ( http://arxiv.org/abs/2406.01047v1 )

ライセンス: Link先を確認
Hang Dong, Liwen Zhu, Zhao Shan, Bo Qiao, Fangkai Yang, Si Qin, Chuan Luo, Qingwei Lin, Yuwen Yang, Gurpreet Virdi, Saravan Rajmohan, Dongmei Zhang, Thomas Moscibroda, (参考訳) 効率的なリソース利用と完全なユーザエクスペリエンスは通常、クラウドコンピューティングプラットフォームで互いに衝突します。 リソース利用の増加には多大な努力が注がれているが、クラウドコンピューティングプラットフォームのユーザエクスペリエンスに影響を与えないように努力している。 プラットフォーム全体に分散した残りのコンピューティングリソースをより有効活用するために、遅延可能なジョブには、ユーザに割引価格が提供される。 この種の遅延可能なジョブに対しては、ユーザーは将来、柔軟な時間帯で特定の中断のない期間に、大きな割引で実行されるジョブを提出することができる。 これらの遅延可能なジョブは、オンデマンドジョブをデプロイした後、残りのキャパシティの下でスケジュールされるため、高いリソース利用を達成するとともに、オンラインでの待ち時間を可能な限り短縮することが課題である。 本稿では,クラウド上でのDeferrableJobsのオンラインスケジューリング手法である‘textit{Online Scheduling for DeferrableJobs in Cloud’ (\OSDEC{})を提案する。 統合強化学習フレームワークにより,提案手法は,高資源利用を維持しつつ,デプロイメントスケジュールを適切に計画し,ユーザの待ち時間を短縮することができる。 提案手法は公開データセット上で検証され,優れた性能を示す。

Efficient resource utilization and perfect user experience usually conflict with each other in cloud computing platforms. Great efforts have been invested in increasing resource utilization but trying not to affect users' experience for cloud computing platforms. In order to better utilize the remaining pieces of computing resources spread over the whole platform, deferrable jobs are provided with a discounted price to users. For this type of deferrable jobs, users are allowed to submit jobs that will run for a specific uninterrupted duration in a flexible range of time in the future with a great discount. With these deferrable jobs to be scheduled under the remaining capacity after deploying those on-demand jobs, it remains a challenge to achieve high resource utilization and meanwhile shorten the waiting time for users as much as possible in an online manner. In this paper, we propose an online deferrable job scheduling method called \textit{Online Scheduling for DEferrable jobs in Cloud} (\OSDEC{}), where a deep reinforcement learning model is adopted to learn the scheduling policy, and several auxiliary tasks are utilized to provide better state representations and improve the performance of the model. With the integrated reinforcement learning framework, the proposed method can well plan the deployment schedule and achieve a short waiting time for users while maintaining a high resource utilization for the platform. The proposed method is validated on a public dataset and shows superior performance.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# MACT:談話表現構造解析のためのモデル非依存型言語横断学習

MACT: Model-Agnostic Cross-Lingual Training for Discourse Representation Structure Parsing ( http://arxiv.org/abs/2406.01052v1 )

ライセンス: Link先を確認
Jiangming Liu, (参考訳) Discourse Representation Structure (DRS) は、言語間の任意の長さのテキストの意味を捉えるために設計された、革新的な意味表現である。 意味表現解析は論理形式による自然言語理解の実現に不可欠である。 それでも、DRS解析モデルの性能は、モノリンガルデータのみに制限されている。 この問題に対処するために、言語横断的なトレーニング戦略を導入する。 提案手法はモデルに依存しないが,有効性が高い。 言語間のトレーニングデータを活用し、事前訓練された言語モデルにエンコードされた言語間のアライメントを完全に活用する。 標準ベンチマークで行った実験は、言語間学習法を用いて訓練されたモデルが、英語、ドイツ語、イタリア語、オランダ語でDRS節とグラフ解析を大幅に改善したことを示している。 最終モデルと以前のモデルを比較すると、標準ベンチマークで最先端の結果が得られます。 さらに、詳細な分析はパーサの性能について深い洞察を与え、DRS解析における将来の研究にインスピレーションを与える。 ベンチマークの新しい結果を付録にアップデートし続けます。

Discourse Representation Structure (DRS) is an innovative semantic representation designed to capture the meaning of texts with arbitrary lengths across languages. The semantic representation parsing is essential for achieving natural language understanding through logical forms. Nevertheless, the performance of DRS parsing models remains constrained when trained exclusively on monolingual data. To tackle this issue, we introduce a cross-lingual training strategy. The proposed method is model-agnostic yet highly effective. It leverages cross-lingual training data and fully exploits the alignments between languages encoded in pre-trained language models. The experiments conducted on the standard benchmarks demonstrate that models trained using the cross-lingual training method exhibit significant improvements in DRS clause and graph parsing in English, German, Italian and Dutch. Comparing our final models to previous works, we achieve state-of-the-art results in the standard benchmarks. Furthermore, the detailed analysis provides deep insights into the performance of the parsers, offering inspiration for future research in DRS parsing. We keep updating new results on benchmarks to the appendix.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# 確率分布を用いた継続的疾患分類における信頼度に基づくタスク予測

Confidence-Based Task Prediction in Continual Disease Classification Using Probability Distribution ( http://arxiv.org/abs/2406.01054v1 )

ライセンス: Link先を確認
Tanvi Verma, Lukas Schwemer, Mingrui Tan, Fei Gao, Yong Liu, Huazhu Fu, (参考訳) 深層学習モデルは、疾患分類における医療画像の発見に有効であることが広く認識されている。 しかし、これらの制限は、様々なソースから新たに注釈付けされた医療データの継続的な流入を特徴とする、ダイナミックで絶え間なく変化する臨床環境において明らかになる。 この文脈では、継続的な学習の必要性は、進化する医療シナリオに適応するだけでなく、医療データのプライバシーを確保するためにも特に重要となる。 そこで本研究では,新しいタスクが導入されるたびに,新たな専門家分類器が付加される,専門家分類器からなるネットワークの利用を強調した。 本稿では,信頼度を利用したタスクID予測器CTPを提案し,その確率分布(ログ)を利用して,推定時のタスクIDを正確に決定する。 ログは、分類器が自分自身以外のタスクに関連付けられたデータに対して高いエントロピー分布が得られるように調整される。 分布と計算信頼性スコアのノイズ領域を定義することにより、CTPは他の関連する連続学習手法と比較して優れた性能が得られる。 さらに、推論時のデータの連続体を提供することにより、CTPの性能をさらに向上することができる。

Deep learning models are widely recognized for their effectiveness in identifying medical image findings in disease classification. However, their limitations become apparent in the dynamic and ever-changing clinical environment, characterized by the continuous influx of newly annotated medical data from diverse sources. In this context, the need for continual learning becomes particularly paramount, not only to adapt to evolving medical scenarios but also to ensure the privacy of healthcare data. In our research, we emphasize the utilization of a network comprising expert classifiers, where a new expert classifier is added each time a new task is introduced. We present CTP, a task-id predictor that utilizes confidence scores, leveraging the probability distribution (logits) of the classifier to accurately determine the task-id at inference time. Logits are adjusted to ensure that classifiers yield a high-entropy distribution for data associated with tasks other than their own. By defining a noise region in the distribution and computing confidence scores, CTP achieves superior performance when compared to other relevant continual learning methods. Additionally, the performance of CTP can be further improved by providing it with a continuum of data at the time of inference.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# 要求品質研究成果物:回収・分析・管理指針

Requirements Quality Research Artifacts: Recovery, Analysis, and Management Guideline ( http://arxiv.org/abs/2406.01055v1 )

ライセンス: Link先を確認
Julian Frattini, Lloyd Montgomery, Davide Fucci, Michael Unterkalmsteiner, Daniel Mendez, Jannik Fischbach, (参考訳) 要求品質調査は、要求仕様の品質を評価し改善することに特化したもので、データセット(品質欠陥に関する情報を含む)や実装(これらの欠陥を自動的に検出し、除去する)のような研究成果物に依存します。 しかし、最近の研究では、これらの研究成果の大部分は入手できないか、公表されていないことが判明し、研究領域の進歩を阻害している。 本研究は,要求品質研究における研究成果物の利用性の向上を目的としている。 この目的のために,(1)人工物回収イニシアチブを拡張し,(2)ベイジアンデータ分析による人工物利用の理由を実証的に評価し,(3)オープンサイエンスアーティファクト開示のための簡潔なガイドラインをコンパイルする。 その結果,回収した10データセットと7実装,時間とともにアーティファクトの可用性が向上する実証的サポート,パブリックホスティングサービスの肯定的な効果,コミュニティコメントのための実用的アーティファクト管理ガイドラインが得られた。 本研究により、オープンサイエンスの原則への固執を奨励し、支援し、要求研究品質コミュニティのための研究アーティファクトの可用性を向上させることを期待する。

Requirements quality research, which is dedicated to assessing and improving the quality of requirements specifications, is dependent on research artifacts like data sets (containing information about quality defects) and implementations (automatically detecting and removing these defects). However, recent research exposed that the majority of these research artifacts have become unavailable or have never been disclosed, which inhibits progress in the research domain. In this work, we aim to improve the availability of research artifacts in requirements quality research. To this end, we (1) extend an artifact recovery initiative, (2) empirically evaluate the reasons for artifact unavailability using Bayesian data analysis, and (3) compile a concise guideline for open science artifact disclosure. Our results include 10 recovered data sets and 7 recovered implementations, empirical support for artifact availability improving over time and the positive effect of public hosting services, and a pragmatic artifact management guideline open for community comments. With this work, we hope to encourage and support adherence to open science principles and improve the availability of research artifacts for the requirements research quality community.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# 世界航法士としての仮想アバター生成モデル

Virtual avatar generation models as world navigators ( http://arxiv.org/abs/2406.01056v1 )

ライセンス: Link先を確認
Sai Mandava, (参考訳) 本稿では,仮想アバターを用いたロッククライミング環境における人間の動きをシミュレーションする新しいビデオモデルSABR-CLIMBを紹介する。 拡散変換器は、各拡散ステップのノイズの代わりにサンプルを予測し、全動画を取り込み、完全なモーションシーケンスを出力する。 大規模プロプライエタリなデータセット、NAV-22M、および相当量の計算資源を活用することで、ロボット工学、スポーツ、医療における複雑なタスクのために汎用仮想アバターを訓練するシステムの概念実証を示す。

We introduce SABR-CLIMB, a novel video model simulating human movement in rock climbing environments using a virtual avatar. Our diffusion transformer predicts the sample instead of noise in each diffusion step and ingests entire videos to output complete motion sequences. By leveraging a large proprietary dataset, NAV-22M, and substantial computational resources, we showcase a proof of concept for a system to train general-purpose virtual avatars for complex tasks in robotics, sports, and healthcare.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# VIP:マルチモーダル大言語モデルによる画像出力

VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model ( http://arxiv.org/abs/2406.01059v1 )

ライセンス: Link先を確認
Jinze Yang, Haoran Wang, Zining Zhu, Chenglong Liu, Meng Wymond Wu, Zeke Xie, Zhong Ji, Jungong Han, Mingming Sun, (参考訳) 本稿では,画像の中心的内容から周囲の部分を外挿することを目的とした,画像の露光に関する問題の解決に焦点をあてる。 最近の研究は有望なパフォーマンスを達成したが、汎用性とカスタマイズの欠如は、より広範なシナリオにおける実践的な応用を妨げる。 そこで本研究では,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。 まず,画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大規模言語モデル(MLLM)を利用する。 そこで、得られたテキストプロンプトを導入して、出力結果のカスタマイズを可能にする。 さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。 既存のほとんどの手法とは異なり、本手法はスクラッチから訓練されるのではなく、オフザシェルフ安定拡散(SD)モデルでわずかに微調整されているため、非常に資源効率が高い。 最後に、Scenery、Building、WikiArtの3つの一般的なデータセットの実験結果から、私たちのモデルはSoTAの手法を大幅に上回ることを示した。 さらに、そのカスタマイズ能力を示すために、多彩なアウトペイント結果がリストアップされる。

In this paper, we focus on resolving the problem of image outpainting, which aims to extrapolate the surrounding parts given the center contents of an image. Although recent works have achieved promising performance, the lack of versatility and customization hinders their practical applications in broader scenarios. Therefore, this work presents a novel image outpainting framework that is capable of customizing the results according to the requirement of users. First of all, we take advantage of a Multimodal Large Language Model (MLLM) that automatically extracts and organizes the corresponding textual descriptions of the masked and unmasked part of a given image. Accordingly, the obtained text prompts are introduced to endow our model with the capacity to customize the outpainting results. In addition, a special Cross-Attention module, namely Center-Total-Surrounding (CTS), is elaborately designed to enhance further the the interaction between specific space regions of the image and corresponding parts of the text prompts. Note that unlike most existing methods, our approach is very resource-efficient since it is just slightly fine-tuned on the off-the-shelf stable diffusion (SD) model rather than being trained from scratch. Finally, the experimental results on three commonly used datasets, i.e. Scenery, Building, and WikiArt, demonstrate our model significantly surpasses the SoTA methods. Moreover, versatile outpainting results are listed to show its customized ability.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# マグノ・オプトメカニクスにおける高次例外点まわりの力学力学

Mechanical dynamics around higher-order exceptional point in magno-optomechanics ( http://arxiv.org/abs/2406.01060v1 )

ライセンス: Link先を確認
Wen-Di He, Xiao-Hong Fan, Ming-Yue Liu, Guo-Qiang Zhang, Hai-Chao Li, Wei Xiong, (参考訳) 実験的に実現可能なマグノオプトメカニクスにおける多種多様な例外点 (EP) を, 物理的に直接接触してマグノメカニクスサブシステムに結合したオプトメカニクスサブシステムを用いて理論的に検討した。 空洞とキッテルモードの両方を断熱的に除去することにより、散逸時間およびパリティ時間対称な例外点が観察できる。 キャビティモードのみを除去すると、非退化(退化)機械モードに対して第2(第3)次擬エルミートEPが出現する。 これらのEPを取り巻く2つの力学モードの特異な力学挙動についてさらに研究した。 提案手法は多種多様なEPを設計し,非エルミート相転移をマグノ・オプトメカニクスにおける異常な動的挙動で定量化するための有望な方法である。

We theoretically study diverse exceptional points (EPs) in an experimentally feasible magno-optomechanics consisting of an optomechanical subsystem coupled to a magnomechanical subsystem via physically direct contact. By adiabatically eliminating both the cavity and the Kittel mode, dissipative and parity-time symmetric exceptional points can be observed. When only the cavity mode is eliminated, a second (third) -order pseudo-Hermitian EP emerges for nondegenerate (degenerate) mechanical modes. The distinct dynamical behavior of two mechanical modes around these EPs are further studied. Our proposal provides a promising way to engineer diverse EPs and quantify non-Hermitian phase transition with exceptional dynamical behavior in magno-optomechanics.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# SceneTextGen:拡散モデルを用いたレイアウト非依存のシーンテキスト画像合成

SceneTextGen: Layout-Agnostic Scene Text Image Synthesis with Diffusion Models ( http://arxiv.org/abs/2406.01062v1 )

ライセンス: Link先を確認
Qilong Zhangli, Jindong Jiang, Di Liu, Licheng Yu, Xiaoliang Dai, Ankit Ramchandani, Guan Pang, Dimitris N. Metaxas, Praveen Krishnan, (参考訳) 拡散モデルは画像生成の質を大幅に向上させてきたが、これらの画像内のテキストを正確かつコヒーレントにレンダリングする能力は依然として大きな課題である。 従来の拡散に基づくシーンテキスト生成法は、中間レイアウト出力に依存して制限されるのが一般的である。 この依存はしばしば、レイアウト生成フェーズの決定論的性質から生じる固有の制限である、テキストスタイルとフォントの制限された多様性をもたらす。 これらの課題に対処するために,本稿では,事前定義されたレイアウトステージの必要性を回避するために設計された,新しい拡散ベースモデルであるSceneTextGenを紹介する。 そうすることで、SceneTextGenはテキストのより自然で多様な表現を促進する。 SceneTextGenの斬新さは、3つの重要なコンポーネントの統合にある: 詳細なタイポグラフィ特性をキャプチャする文字レベルエンコーダと、文字レベルのインスタンスセグメンテーションモデルと、不要なテキスト生成とマイナーな文字不正確な問題に対処するワードレベルスポッティングモデルである。 本手法の有効性は,標準拡散法とテキスト固有法を比較検討し,異なる公開視覚テキストデータセット間で生成した画像に対する文字認識率の向上を示すことで検証した。

While diffusion models have significantly advanced the quality of image generation, their capability to accurately and coherently render text within these images remains a substantial challenge. Conventional diffusion-based methods for scene text generation are typically limited by their reliance on an intermediate layout output. This dependency often results in a constrained diversity of text styles and fonts, an inherent limitation stemming from the deterministic nature of the layout generation phase. To address these challenges, this paper introduces SceneTextGen, a novel diffusion-based model specifically designed to circumvent the need for a predefined layout stage. By doing so, SceneTextGen facilitates a more natural and varied representation of text. The novelty of SceneTextGen lies in its integration of three key components: a character-level encoder for capturing detailed typographic properties, coupled with a character-level instance segmentation model and a word-level spotting model to address the issues of unwanted text generation and minor character inaccuracies. We validate the performance of our method by demonstrating improved character recognition rates on generated images across different public visual text datasets in comparison to both standard diffusion based methods and text specific methods.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# DANCE: データセット凝縮のためのデュアルビュー分散アライメント

DANCE: Dual-View Distribution Alignment for Dataset Condensation ( http://arxiv.org/abs/2406.01063v1 )

ライセンス: Link先を確認
Hansong Zhang, Shikun Li, Fanzhao Lin, Weiping Wang, Zhenxing Qian, Shiming Ge, (参考訳) データセット凝縮は、より大きな実際のトレーニングセットから本質的な知識を保持する小さな合成トレーニングセットを学習することで、データ負担の問題に対処する。 これまでのところ、最先端のSOTA(State-of-the-art)の結果は、最適化指向の手法によって得られることが多いが、その非効率性は、現実的なデータセットへの適用を妨げる。 一方、分散マッチング(DM)法は、最適化指向法と比較して、優れた効率性を示すが、準最適結果を示す。 本稿では,内部クラスとクラス間の視点,すなわち永続的トレーニングと分散シフトから,現行のDMベースの手法の限界を明らかにする。 これらの問題に対処するため,Dance(Dual-view Distribution AligNment for dataset CondEnsation)と呼ばれるDMベースの新しい手法を提案する。 具体的には、内部クラスの観点からは、複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行い、コンデンサセットをトレーニングプロセス全体において実モデルの優れたプロキシとし、クラス間ビューでは、専門家モデルを用いて分布キャリブレーションを行い、コンデンサ中の合成データが実クラス領域に留まることを保証する。 実験により,提案手法は様々なシナリオにおいて,元のDMに匹敵する効率を保ちながら,SOTA性能を実現することを示した。 ソースコードはhttps://github.com/Hansong-Zhang/DANCEで入手できる。

Dataset condensation addresses the problem of data burden by learning a small synthetic training set that preserves essential knowledge from the larger real training set. To date, the state-of-the-art (SOTA) results are often yielded by optimization-oriented methods, but their inefficiency hinders their application to realistic datasets. On the other hand, the Distribution-Matching (DM) methods show remarkable efficiency but sub-optimal results compared to optimization-oriented methods. In this paper, we reveal the limitations of current DM-based methods from the inner-class and inter-class views, i.e., Persistent Training and Distribution Shift. To address these problems, we propose a new DM-based method named Dual-view distribution AligNment for dataset CondEnsation (DANCE), which exploits a few pre-trained models to improve DM from both inner-class and inter-class views. Specifically, from the inner-class view, we construct multiple "middle encoders" to perform pseudo long-term distribution alignment, making the condensed set a good proxy of the real one during the whole training process; while from the inter-class view, we use the expert models to perform distribution calibration, ensuring the synthetic data remains in the real class region during condensing. Experiments demonstrate the proposed method achieves a SOTA performance while maintaining comparable efficiency with the original DM across various scenarios. Source codes are available at https://github.com/Hansong-Zhang/DANCE.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# モデルに基づくオフライン強化学習の因果的促進

Causal prompting model-based offline reinforcement learning ( http://arxiv.org/abs/2406.01065v1 )

ライセンス: Link先を確認
Xuehui Yu, Yi Guan, Rujia Shen, Xin Li, Chen Tang, Jingchi Jiang, (参考訳) モデルベースのオフライン強化学習(RL)では、エージェントは追加または非倫理的な探索を必要とせずに、事前にコンパイルされたデータセットを完全に活用することができる。 しかし、モデルベースのオフラインRLをオンラインシステムに適用することは、主にオンラインシステムによって生成されるデータセットの高度に最適化された(ノイズに満ちた)多様な性質のため、課題を提起する。 これらの課題に対処するために,高度に最適化されたリソース制約のあるオンラインシナリオ用に設計されたCausal Prompting Reinforcement Learning (CPRL)フレームワークを紹介する。 CPRLの最初のフェーズは、環境力学をモデル化するためのHidden-Parameter Block Causal Prompting Dynamic (Hip-BCPD)の導入である。 このアプローチは、不変因果的プロンプトを利用し、新しい多様なオンラインユーザを一般化するために隠れパラメータを調整する。 その後のフェーズでは、再利用可能なスキルの融合を通じて複数のタスクに対処するための単一のポリシーが訓練され、スクラッチからトレーニングの必要性を回避する。 Dnurse APPのシミュレーションベースおよび実世界のオフラインデータセットを含む、さまざまなレベルのノイズを持つデータセットに対して行われた実験は、提案手法が、分配外およびノイズの多い環境で堅牢な決定を行え、同時代のアルゴリズムより優れていることを示した。 さらに,Hip-BCPDの貢献と,パフォーマンスの堅牢性に対するスキル再利用戦略を別途検証する。 我々はHip-BCPDの視覚構造とサブスキルの解釈可能性をさらに分析する。 私たちはソースコードと、正確な医療意思決定タスクのための世界初の実世界の医療データセットをリリースしました。

Model-based offline Reinforcement Learning (RL) allows agents to fully utilise pre-collected datasets without requiring additional or unethical explorations. However, applying model-based offline RL to online systems presents challenges, primarily due to the highly suboptimal (noise-filled) and diverse nature of datasets generated by online systems. To tackle these issues, we introduce the Causal Prompting Reinforcement Learning (CPRL) framework, designed for highly suboptimal and resource-constrained online scenarios. The initial phase of CPRL involves the introduction of the Hidden-Parameter Block Causal Prompting Dynamic (Hip-BCPD) to model environmental dynamics. This approach utilises invariant causal prompts and aligns hidden parameters to generalise to new and diverse online users. In the subsequent phase, a single policy is trained to address multiple tasks through the amalgamation of reusable skills, circumventing the need for training from scratch. Experiments conducted across datasets with varying levels of noise, including simulation-based and real-world offline datasets from the Dnurse APP, demonstrate that our proposed method can make robust decisions in out-of-distribution and noisy environments, outperforming contemporary algorithms. Additionally, we separately verify the contributions of Hip-BCPDs and the skill-reuse strategy to the robustness of performance. We further analyse the visualised structure of Hip-BCPD and the interpretability of sub-skills. We released our source code and the first ever real-world medical dataset for precise medical decision-making tasks.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# グラフ上の分布シフトに対するトポロジ対応動的再重み付け

Topology-Aware Dynamic Reweighting for Distribution Shifts on Graph ( http://arxiv.org/abs/2406.01066v1 )

ライセンス: Link先を確認
Weihuang Zheng, Jiashuo Liu, Jiaxing Li, Jiayun Wu, Peng Cui, Youyong Kong, (参考訳) グラフニューラルネットワーク(GNN)は、ノード分類タスクに広く使用されているが、トレーニングとテストノードが異なるディストリビューションから来ると、その実用性を制限するために一般化に失敗することが多い。 これを解決するために、近年のアプローチでは、環境全体にわたって安定した予測方法を確立することを目的とした、アウト・オブ・ディストリビューション(OOD)一般化分野からの不変学習手法を採用している。 しかし、これらの不変な仮定がグラフデータに適用可能であることは証明されておらず、そのような手法は理論的な確固たる支持を欠いていることが多い。 本研究では,トポロジー・アウェア・ダイナミック・リウェイトリング(TAR)フレームワークを導入し,トレーニング中の幾何学的ワッサーシュタイン空間の勾配流を通して試料重量を動的に調整する。 厳密な不変性の仮定に頼る代わりに,本手法が分散ロバスト性を提供できることを証明し,グラフデータに対する分布外一般化性能を向上させる。 固有のグラフ構造を利用することで、TARは分散シフトを効果的に処理する。 我々のフレームワークの優位性は、4つのグラフOODデータセットと3つのクラス不均衡ノード分類データセットの標準テストによって実証され、既存の手法よりも顕著に改善されている。

Graph Neural Networks (GNNs) are widely used for node classification tasks but often fail to generalize when training and test nodes come from different distributions, limiting their practicality. To overcome this, recent approaches adopt invariant learning techniques from the out-of-distribution (OOD) generalization field, which seek to establish stable prediction methods across environments. However, the applicability of these invariant assumptions to graph data remains unverified, and such methods often lack solid theoretical support. In this work, we introduce the Topology-Aware Dynamic Reweighting (TAR) framework, which dynamically adjusts sample weights through gradient flow in the geometric Wasserstein space during training. Instead of relying on strict invariance assumptions, we prove that our method is able to provide distributional robustness, thereby enhancing the out-of-distribution generalization performance on graph data. By leveraging the inherent graph structure, TAR effectively addresses distribution shifts. Our framework's superiority is demonstrated through standard testing on four graph OOD datasets and three class-imbalanced node classification datasets, exhibiting marked improvements over existing methods.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# UniQA: 画像品質と審美評価のための統合ビジョンランゲージ事前トレーニング

UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment ( http://arxiv.org/abs/2406.01069v1 )

ライセンス: Link先を確認
Hantao Zhou, Longxiang Tang, Rui Yang, Guanyi Qin, Yan Zhang, Runze Hu, Xiu Li, (参考訳) 画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。 既存の手法は、異なる学習目的のために、これらのタスクを独立して扱うのが一般的である。 しかし、両タスクの相互接続性は無視され、人間の主観的知覚に対するタスクに依存しない共有表現の学習を妨げる。 この課題に対処するため、我々は2つのタスクの一般的な認識を学習するために、品質と美学の統一視覚言語事前学習(UniQA)を提案する。 IQAデータセットにおけるテキストの欠如とIAAデータセットにおけるテキストノイズの存在に対処するため,(1)マルチモーダル・大規模言語モデル(MLLM)を用いて高品質なテキスト記述を生成する。 事前学習したUniQAを下流タスクに効果的に適応させるために,多目的キューを利用して事前学習したモデルの広範な知識をフル活用する軽量アダプタを提案する。 本手法はIQAタスクとIAAタスクの両タスクにおいて,新たな最先端性能を実現するとともに,例外的なゼロショットとラベルの少ないイメージアセスメント機能を同時に実現していることを示す。 ソースコードはhttps://github.com/zht8506/UniQA.comで入手できる。

Image Quality Assessment (IQA) and Image Aesthetic Assessment (IAA) aim to simulate human subjective perception of image visual quality and aesthetic appeal. Existing methods typically address these tasks independently due to distinct learning objectives. However, they neglect the underlying interconnectedness of both tasks, which hinders the learning of task-agnostic shared representations for human subjective perception. To confront this challenge, we propose Unified vision-language pre-training of Quality and Aesthetics (UniQA), to learn general perceptions of two tasks, thereby benefiting them simultaneously. Addressing the absence of text in the IQA datasets and the presence of textual noise in the IAA datasets, (1) we utilize multimodal large language models (MLLMs) to generate high-quality text descriptions; (2) the generated text for IAA serves as metadata to purify noisy IAA data. To effectively adapt the pre-trained UniQA to downstream tasks, we further propose a lightweight adapter that utilizes versatile cues to fully exploit the extensive knowledge of the pre-trained model. Extensive experiments demonstrate that our approach attains a new state-of-the-art performance on both IQA and IAA tasks, while concurrently showcasing exceptional zero-shot and few-label image assessment capabilities. The source code will be available at https://github.com/zht8506/UniQA.
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# ChatGPTによる高次ドメインサマリ生成の誘導

Guiding ChatGPT to Generate Salient Domain Summaries ( http://arxiv.org/abs/2406.01070v1 )

ライセンス: Link先を確認
Jun Gao, Ziqiang Cao, Shaoyao Huang, Luozheng Qin, Chunhui Ai, (参考訳) チャットGPTは、ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)を通じて、人間の嗜好に合わせるために、一般的な、人為的なコンテンツを生成するよう指示される。 したがって、この場合、ChatGPTはゼロショット設定でドメイン要件を満たすことができず、ROUGEスコアが低い。 In-Context Learning (ICL) と ChatGPT のリテリング能力に触発された本論文では,ChatGPT を \textbf{D}omain \textbf{S}ummarization でサポートするための PADS を提案する。 PADSは、コーパスから類似した例を検索する検索器と、ChatGPTが生成した複数の候補要約をランク付けするランクモデルで構成される。 具体的には、推論文書が与えられたら、最初に検索者を通してコンテキスト内デモを検索する。 次に、ChatGPTは、検索したデモのガイダンスに基づいて、推論文書に対して$k$の候補要約を生成する必要がある。 最後に、ランクモデルは、その品質に応じて$k$候補サマリーを独立にスコアし、最適なサマリーを選択する。 提案手法を広範に検討し、参照のための効果的な実演を選択するとともに、各要約文書の候補要約の質を反映するランクモデルを効果的に訓練する。 さらに、PADSにはランクモデルから派生した4億のトレーニング可能なパラメータが含まれており、トレーニングには2.5kのデータのみを収集する。 その結果,PADSの各モジュールはChatGPTを効果的に誘導し,異なるドメイン要件に適合した有能な要約を生成することが示唆された。 具体的には、一般的な要約データセットであるGigawordでは、PADSはゼロショット設定の単純なChatGPTと比較して、ROUGE-Lで+8以上のゲインを達成する。 \footnote{Our code are available at \url{https://github.com/jungao1106/PADS}}

ChatGPT is instruct-tuned to generate general and human-expected content to align with human preference through Reinforcement Learning from Human Feedback (RLHF), meanwhile resulting in generated responses not salient enough. Therefore, in this case, ChatGPT may fail to satisfy domain requirements in zero-shot settings, leading to poor ROUGE scores. Inspired by the In-Context Learning (ICL) and retelling ability of ChatGPT, this paper proposes PADS, a \textbf{P}ipeline for \textbf{A}ssisting ChatGPT in \textbf{D}omain \textbf{S}ummarization. PADS consists of a retriever to retrieve similar examples from corpora and a rank model to rerank the multiple candidate summaries generated by ChatGPT. Specifically, given an inference document, we first retrieve an in-context demonstration via the retriever. Then, we require ChatGPT to generate $k$ candidate summaries for the inference document at a time under the guidance of the retrieved demonstration. Finally, the rank model independently scores the $k$ candidate summaries according to their quality and selects the optimal one. We extensively explore dense and sparse retrieval methods to select effective demonstrations for reference and efficiently train the rank model to reflect the quality of candidate summaries for each given summarized document. Additionally, PADS contains merely 400M trainable parameters originating from the rank model and we merely collect 2.5k data to train it. We evaluate PADS on five datasets from different domains, and the result indicates that each module in PADS is committed to effectively guiding ChatGPT to generate salient summaries fitting different domain requirements. Specifically, in the popular summarization dataset Gigaword, PADS achieves over +8 gain on ROUGE-L, compared with the naive ChatGPT in the zero-shot setting. \footnote{Our code are available at \url{https://github.com/jungao1106/PADS}}
翻訳日:2024-06-06 02:08:05 公開日:2024-06-03
# 合成画像データセット生成パイプラインによるビジュアルカーブランド分類

Visual Car Brand Classification by Implementing a Synthetic Image Dataset Creation Pipeline ( http://arxiv.org/abs/2406.01071v1 )

ライセンス: Link先を確認
Jan Lippemeier, Stefanie Hittmeyer, Oliver Niehörster, Markus Lange-Hegermann, (参考訳) 近年の機械学習,特にディープラーニングとオブジェクト検出の進歩は,画像分類や合成など,様々なタスクのパフォーマンスを著しく向上させた。 しかし、特に特定のユースケースを正確に表現したラベル付きデータを取得する際には、課題は継続する。 本研究では,高精細な画像を生成可能な画像合成モデルであるStable Diffusionを用いて,合成画像データセットを生成するための自動パイプラインを提案する。 YOLOv8を用いて自動境界ボックス検出と合成画像の品質評価を行う。 コントリビューションには、合成データのみに基づく画像分類器の訓練の実現可能性、画像生成パイプラインの自動化、そして我々のアプローチの計算要件の説明が含まれる。 安定拡散の異なるモードのユーザビリティを評価し,75%の分類精度を実現する。

Recent advancements in machine learning, particularly in deep learning and object detection, have significantly improved performance in various tasks, including image classification and synthesis. However, challenges persist, particularly in acquiring labeled data that accurately represents specific use cases. In this work, we propose an automatic pipeline for generating synthetic image datasets using Stable Diffusion, an image synthesis model capable of producing highly realistic images. We leverage YOLOv8 for automatic bounding box detection and quality assessment of synthesized images. Our contributions include demonstrating the feasibility of training image classifiers solely on synthetic data, automating the image generation pipeline, and describing the computational requirements for our approach. We evaluate the usability of different modes of Stable Diffusion and achieve a classification accuracy of 75%.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# スパイク活動に基づくプルーニングによる効率的なディープスパイクニューラルネットワーク構築に向けて

Towards Efficient Deep Spiking Neural Networks Construction with Spiking Activity based Pruning ( http://arxiv.org/abs/2406.01072v1 )

ライセンス: Link先を確認
Yaxin Li, Qi Xu, Jiangrong Shen, Hongming Xu, Long Chen, Gang Pan, (参考訳) 多様な複雑なデータセットにまたがって高いパフォーマンスを示す深層および大規模スパイクニューラルネットワーク(SNN)の出現は、その低消費電力と生物学的解釈可能性の利点をより効果的に活用することを目的として、かなりの数の冗長構造ユニットが存在するため、ネットワークモデルを圧縮する必要がある。 現在、SNNのほとんどのモデル圧縮技術は、特定のハードウェアサポートを必要とする個々の接続の非構造化プルーニングに基づいている。 そこで本稿では,Spking Channel Activity-based (SCA) network pruning frameworkという,畳み込みカーネルの動作レベルに基づく構造化プルーニング手法を提案する。 本手法は, 学習中の畳み込みカーネルの切断・再生によりネットワーク構造を動的に調整し, 現在の目標タスクへの適応性を高める。 モデル性能を維持しながら、このアプローチはネットワークアーキテクチャを洗練し、究極的には計算負荷を減らし、推論プロセスを加速する。 このことは、構造化された動的スパース学習手法により、低消費電力・高効率シナリオにおける深部SNNの適用がより容易になることを示している。

The emergence of deep and large-scale spiking neural networks (SNNs) exhibiting high performance across diverse complex datasets has led to a need for compressing network models due to the presence of a significant number of redundant structural units, aiming to more effectively leverage their low-power consumption and biological interpretability advantages. Currently, most model compression techniques for SNNs are based on unstructured pruning of individual connections, which requires specific hardware support. Hence, we propose a structured pruning approach based on the activity levels of convolutional kernels named Spiking Channel Activity-based (SCA) network pruning framework. Inspired by synaptic plasticity mechanisms, our method dynamically adjusts the network's structure by pruning and regenerating convolutional kernels during training, enhancing the model's adaptation to the current target task. While maintaining model performance, this approach refines the network architecture, ultimately reducing computational load and accelerating the inference process. This indicates that structured dynamic sparse learning methods can better facilitate the application of deep SNNs in low-power and high-efficiency scenarios.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# 映像ベースFew-Shot行動認識モデルのクロスドメイン能力の理解

Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models ( http://arxiv.org/abs/2406.01073v1 )

ライセンス: Link先を確認
Georgia Markham, Mehala Balamurali, Andrew J. Hill, (参考訳) Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。 メタトレーニング中に見られるベースデータセットと、評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少ショット学習は、より監督的な方法や従来の(単ドメインの)少ショットメソッドで必要とされるデータ収集とアノテーションコストを軽減します。 このような学習形態は画像分類のために広く研究されているが、クロスドメインFSAR(CD-FSAR)の研究は、既存のモデルのクロスドメイン能力を最初に理解するのではなく、モデルの提案に限られている。 そこで本研究では,既存の単一ドメイン,転送ベース,およびクロスドメインFSARメソッドを,ベースと新規セット間のドメインシフトに基づいて,難易度の高い新しいクロスドメインタスクに対して体系的に評価する。 実験的なメタアナリシスにより,領域差と下流数ショットのパフォーマンスの相関が明らかとなり,CD-FSARにどのモデル側面が有効か,さらなる開発が必要なのか,いくつかの重要な知見が得られた。 すなわち、ドメイン差が大きくなるにつれて、単純な転送学習アプローチは、他の手法よりも12%以上のパフォーマンスを示し、これらの難易度の高いクロスドメイン設定の下では、特別化されたクロスドメインモデルが最も低い性能を達成する。 また,従来の手法とよく似た,あるいは悪い性能を実現するために,時間的アライメントを用いた最先端の単一ドメインFSARモデルも見受けられ,既存の時間的アライメント手法は目に見えない領域を一般化できないことが示唆された。 我々の知る限りでは、我々はCD-FSAR問題を詳細に体系的に研究した最初の人物である。 私たちの研究で明らかになった洞察と課題は、これらの方向における今後の研究を刺激し、知らせてくれることを願っています。

Few-shot action recognition (FSAR) aims to learn a model capable of identifying novel actions in videos using only a few examples. In assuming the base dataset seen during meta-training and novel dataset used for evaluation can come from different domains, cross-domain few-shot learning alleviates data collection and annotation costs required by methods with greater supervision and conventional (single-domain) few-shot methods. While this form of learning has been extensively studied for image classification, studies in cross-domain FSAR (CD-FSAR) are limited to proposing a model, rather than first understanding the cross-domain capabilities of existing models. To this end, we systematically evaluate existing state-of-the-art single-domain, transfer-based, and cross-domain FSAR methods on new cross-domain tasks with increasing difficulty, measured based on the domain shift between the base and novel set. Our empirical meta-analysis reveals a correlation between domain difference and downstream few-shot performance, and uncovers several important insights into which model aspects are effective for CD-FSAR and which need further development. Namely, we find that as the domain difference increases, the simple transfer-learning approach outperforms other methods by over 12 percentage points, and under these more challenging cross-domain settings, the specialised cross-domain model achieves the lowest performance. We also witness state-of-the-art single-domain FSAR models which use temporal alignment achieving similar or worse performance than earlier methods which do not, suggesting existing temporal alignment techniques fail to generalise on unseen domains. To the best of our knowledge, we are the first to systematically study the CD-FSAR problem in-depth. We hope the insights and challenges revealed in our study inspires and informs future work in these directions.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# 温度制御SPDCによるナイルレッドの絡み合った2光子吸収の促進

Enhancing entangled two-photon absorption of Nile Red via temperature-controlled SPDC ( http://arxiv.org/abs/2406.01075v1 )

ライセンス: Link先を確認
Aleksa Krstić, Tobias Bernd Gäbler, Nitish Jain, Patrick Then, Valerio Flavio Gili, Sina Saravi, Frank Setzpfandt, Christian Eggeling, Markus Gräfe, (参考訳) 絡み合った2光子吸収は、励起パワーによる蛍光発光の線形スケーリングを可能にする。 古典的な2光子吸収と二次的なスケーリングは対照的に、蛍光イメージングやフォトリソグラフィーを極小露光強度で高軸分解能で行うことができる。 しかし、2光子吸収に関するほとんどの実験的研究は、絡み合った光子対によって引き起こされる蛍光放出の曖昧な証明を示さなかった。 一方、既存の理論モデルは、化学的に複雑な染料の絡み合った2光子吸収挙動を正確に予測するのに苦労している。 本稿では, 一般的な蛍光染料において, 化学特性を考慮した2光子の絡み合った吸収をシミュレートする手法を提案する。 理論モデルにより実験結果のより深い理解が可能となり, 絡み合った2光子吸収が発生する。 特に, 非線形材料の相整合温度に吸収確率の顕著な依存性が認められた。 さらに、ナイルレッドの実験データに対する理論的アプローチの結果を比較した。

Entangled two-photon absorption can enable a linear scaling of fluorescence emission with the excitation power. In comparison to classical two-photon absorption with a quadratic scaling, this can allow fluorescence imaging or photolithography with high axial resolution at minimal exposure intensities. However, most experimental studies on two-photon absorption were not able to show an unambiguous proof of fluorescence emission driven by entangled photon pairs. On the other hand, existing theoretical models struggle to accurately predict the entangled-two-photon-absorption behavior of chemically complex dyes. In this paper, we introduce an approach to simulate entangled two-photon absorption in common fluorescence dyes considering their chemical properties. Our theoretical model allows a deeper understanding of experimental results and thus the occurrence of entangled two-photon absorption. In particular, we found a remarkable dependency of the absorption probability on the phase-matching temperature of the nonlinear material. Further, we compared results of our theoretical approach to experimental data for Nile Red.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# キャノピー高さをスケールで推定する

Estimating Canopy Height at Scale ( http://arxiv.org/abs/2406.01076v1 )

ライセンス: Link先を確認
Jan Pauls, Max Zimmer, Una M. Kelly, Martin Schwartz, Sassan Saatchi, Philippe Ciais, Sebastian Pokutta, Martin Brandt, Fabian Gieseke, (参考訳) 衛星データに基づく世界規模キャノピー高さ推定のためのフレームワークを提案する。 提案手法は,地中高度測定に固有の位置不正確性に対抗するために設計された新しい損失関数を利用して,山間部における誤ったラベルを効果的にフィルタリングし,それらの領域における予測の信頼性を高める。 MAE/RMSEは総計2.43/4.73(メートル)、樹高は4.45/6.72(メートル)である。 結果として得られた高さマップと基盤となるフレームワークは、大規模な森林やバイオマスモニタリングを含む、世界規模での生態学的分析を促進・促進する。

We propose a framework for global-scale canopy height estimation based on satellite data. Our model leverages advanced data preprocessing techniques, resorts to a novel loss function designed to counter geolocation inaccuracies inherent in the ground-truth height measurements, and employs data from the Shuttle Radar Topography Mission to effectively filter out erroneous labels in mountainous regions, enhancing the reliability of our predictions in those areas. A comparison between predictions and ground-truth labels yields an MAE / RMSE of 2.43 / 4.73 (meters) overall and 4.45 / 6.72 (meters) for trees taller than five meters, which depicts a substantial improvement compared to existing global-scale maps. The resulting height map as well as the underlying framework will facilitate and enhance ecological analyses at a global scale, including, but not limited to, large-scale forest and biomass monitoring.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# CUT: コントロール可能な、ユニバーサルで、トレーニング不要なビジュアル異常生成フレームワーク

CUT: A Controllable, Universal, and Training-Free Visual Anomaly Generation Framework ( http://arxiv.org/abs/2406.01078v1 )

ライセンス: Link先を確認
Han Sun, Yunkang Cao, Olga Fink, (参考訳) 視覚異常検出(AD)は、異常データの不足により本質的に重大な課題に直面している。 異常サンプルを合成するための多くの研究が提案されているが、生成されたサンプルは信頼性に欠けることが多く、利用可能なトレーニングデータサンプルの分布のみを反映できる。 本研究では,画像生成における安定拡散(SD)の能力を生かして,多種多様な現実的な異常を生成する,制御可能・ユニバーサル・トレーニング不要な視覚異常生成フレームワークCUTを提案する。 CUTでは、新たなトレーニングを行なわずに単一のモデルを用いて、目に見えないデータと新しい異常タイプの両方にわたって、制御可能で現実的な異常生成を実現する。 提案手法の有効性を示すために,視覚言語に基づく異常検出フレームワーク(VLAD)を提案する。 生成した異常サンプルを用いてVLADモデルをトレーニングすることにより、いくつかのベンチマーク異常検出タスクで最先端のパフォーマンスを実現し、合成データによって実現された重要な改善点を浮き彫りにした。

Visual anomaly detection (AD) inherently faces significant challenges due to the scarcity of anomalous data. Although numerous works have been proposed to synthesize anomalous samples, the generated samples often lack authenticity or can only reflect the distribution of the available training data samples. In this work, we propose CUT: a Controllable, Universal and Training-free visual anomaly generation framework, which leverages the capability of Stable Diffusion (SD) in image generation to generate diverse and realistic anomalies. With CUT, we achieve controllable and realistic anomaly generation universally across both unseen data and novel anomaly types, using a single model without acquiring additional training effort. To demonstrate the effectiveness of our approach, we propose a Vision-Language-based Anomaly Detection framework (VLAD). By training the VLAD model with our generated anomalous samples, we achieve state-of-the-art performance on several benchmark anomaly detection tasks, highlighting the significant improvements enabled by our synthetic data.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# 自己中心型オンライン行動検出を意識した物体認識

Object Aware Egocentric Online Action Detection ( http://arxiv.org/abs/2406.01079v1 )

ライセンス: Link先を確認
Joungbin An, Yunsu Park, Hyolim Kang, Seon Joo Kim, (参考訳) Ego4D、EPIC-Kitchens、Ego-Exo4Dといったエゴセントリックなビデオデータセットの進歩は、拡張現実や生活支援の応用に欠かせない、一人称人間のインタラクションの研究を豊かにしている。 これらの進歩にもかかわらず、ストリーミングビデオ中のアクションを効率的に検出する現在のオンラインアクション検出方法は、主に外向的な視点のために設計されており、したがって、自我中心の動画に固有のユニークな視点を生かしていない。 このギャップに対処するため,既存のOADフレームワークにエゴセントリックな事前情報を統合したObject-Aware Moduleを導入し,一対一の映像解釈を強化した。 我々のモジュールは、オブジェクト固有の詳細と時間的ダイナミクスを利用して、アクションの検出におけるシーン理解を改善する。 Epic-Kitchens 100データセットで広く検証された私たちの作業は、オーバーヘッドを最小限にして既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上を実現しています。

Advancements in egocentric video datasets like Ego4D, EPIC-Kitchens, and Ego-Exo4D have enriched the study of first-person human interactions, which is crucial for applications in augmented reality and assisted living. Despite these advancements, current Online Action Detection methods, which efficiently detect actions in streaming videos, are predominantly designed for exocentric views and thus fail to capitalize on the unique perspectives inherent to egocentric videos. To address this gap, we introduce an Object-Aware Module that integrates egocentric-specific priors into existing OAD frameworks, enhancing first-person footage interpretation. Utilizing object-specific details and temporal dynamics, our module improves scene understanding in detecting actions. Validated extensively on the Epic-Kitchens 100 dataset, our work can be seamlessly integrated into existing models with minimal overhead and bring consistent performance enhancements, marking an important step forward in adapting action detection systems to egocentric video analysis.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# No Vandalism:プライバシ保護とビザンチン・ロバスト・フェデレーション・ラーニング

No Vandalism: Privacy-Preserving and Byzantine-Robust Federated Learning ( http://arxiv.org/abs/2406.01080v1 )

ライセンス: Link先を確認
Zhibo Xing, Zijian Zhang, Zi'ang Zhang, Jiamou Liu, Liehuang Zhu, Giovanni Russello, (参考訳) フェデレートされた学習により、複数のクライアントがプライベートデータを共有せずに1つの機械学習モデルを共同でトレーニングし、プライバシ保護を提供する。 しかし、従来の連合学習は毒性攻撃に弱いため、モデルの性能を低下させるだけでなく、悪意のあるバックドアを埋め込むこともできる。 さらに、ローカルモデルパラメータの直接提出は、トレーニングデータセットのプライバシー漏洩につながる可能性がある。 本稿では,悪意ある参加者からの攻撃に対して,有害行為(NoV)のない環境を提供するために,プライバシ保護とビザンチン損なうフェデレーション・ラーニング・スキームを構築することを目的とする。 具体的には, 中毒モデルに対するモデルフィルタを構築し, データからグローバルモデルを守るとともに, モデル中毒攻撃から保護する。 このモデルフィルタはゼロ知識証明を組み合わせて、さらなるプライバシー保護を提供する。 そして、シークレット共有を採用して、安全なアグリゲーションを検証し、アグリゲーションプロセスを妨害する悪意のあるクライアントを削除します。 我々の公式な分析によると、NoVはデータのプライバシーを保護し、ビザンツの攻撃者を追い払うことができる。 我々の実験は、NoVがPGDを含むデータや毒殺攻撃を効果的に処理し、他の関連するスキームよりも優れていることを示した。

Federated learning allows several clients to train one machine learning model jointly without sharing private data, providing privacy protection. However, traditional federated learning is vulnerable to poisoning attacks, which can not only decrease the model performance, but also implant malicious backdoors. In addition, direct submission of local model parameters can also lead to the privacy leakage of the training dataset. In this paper, we aim to build a privacy-preserving and Byzantine-robust federated learning scheme to provide an environment with no vandalism (NoV) against attacks from malicious participants. Specifically, we construct a model filter for poisoned local models, protecting the global model from data and model poisoning attacks. This model filter combines zero-knowledge proofs to provide further privacy protection. Then, we adopt secret sharing to provide verifiable secure aggregation, removing malicious clients that disrupting the aggregation process. Our formal analysis proves that NoV can protect data privacy and weed out Byzantine attackers. Our experiments illustrate that NoV can effectively address data and model poisoning attacks, including PGD, and outperforms other related schemes.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# 雑音チャネルにおけるコヒーレント状態重畳の適応

Adapting coherent-state superpositions in noisy channels ( http://arxiv.org/abs/2406.01081v1 )

ライセンス: Link先を確認
Jan Provazník, Petr Marek, Julien Laurat, Radim Filip, (参考訳) 量子非ガウス状態は、非線形ボゾン系の基本的な理解と、量子技術における同時に高度な応用に不可欠である。 多くのボソニックな実験において、重要な量子非ガウス的特徴は、ボソンによる量子計算の基礎であるウィグナー函数の負性である。 残念なことに、複雑な量子状態に存在するネガティビティは、実験的な実装の避けられない部分である環境との結合によって引き起こされるエネルギー損失、ノイズ、嫌悪といったデコヒーレンスの影響に対して極めて脆弱である。 その効果を緩和する効果的な方法は、量子状態をよりレジリエントな形式に適応させることである。 本研究では,不斉熱損失チャネルの列に対するコヒーレント状態の重ね合わせを適切なスキューズ操作により最適に保護することを提案する。

Quantum non-Gaussian states are crucial for the fundamental understanding of non-linear bosonic systems and simultaneously advanced applications in quantum technologies. In many bosonic experiments the important quantum non-Gaussian feature is the negativity of the Wigner function, a cornerstone for quantum computation with bosons. Unfortunately, the negativities present in complex quantum states are extremely vulnerable to the effects of decoherence, such as energy loss, noise and dephasing, caused by the coupling to the environment, which is an unavoidable part of any experimental implementation. An efficient way to mitigate its effects is by adapting quantum states into more resilient forms. We propose an optimal protection of superpositions of coherent states against a sequence of asymmetric thermal lossy channels by suitable squeezing operations.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# FedAdOb: 適応的難読化によるプライバシ保護型深層学習

FedAdOb: Privacy-Preserving Federated Deep Learning with Adaptive Obfuscation ( http://arxiv.org/abs/2406.01085v1 )

ライセンス: Link先を確認
Hanlin Gu, Jiahuan Luo, Yan Kang, Yuan Yao, Gongxi Zhu, Bowen Li, Lixin Fan, Qiang Yang, (参考訳) フェデレーテッド・ラーニング(FL)は、複数のクライアントがプライベートデータを共有せずに、共同で機械学習モデルを学習できるコラボレーティブ・アプローチとして登場した。 特定の条件下で実証されたプライバシー漏洩に関する懸念は、強力な攻撃方法の設計とこれらの攻撃方法の阻止を目的とした効果的な防御メカニズムに関する多くの追跡研究を引き起こしている。 それでも、これらの防御手法で使用されるプライバシー保護メカニズムは、プライベートデータや勾配に適用される固定された難読化のために、しばしば妥協されたモデルパフォーマンスをもたらす。 そこで本稿では,FedAdObと呼ばれる新しい適応難読化機構を提案する。 技術的には、FedAdObはパスポートベースの適応難読化を利用して、水平および垂直の両方のフェデレーション学習環境におけるデータのプライバシを確保する。 FedAdObのプライバシー保護機能は、特にプライベート機能とラベルに関して、理論上はTheorems 1と2で証明されている。 さらに、様々なデータセットやネットワークアーキテクチャに対して行われた広範な実験的評価により、プライバシ保護とモデル性能のトレードオフが既存の手法よりも優れていることを示すことにより、FedAdObの有効性が示された。

Federated learning (FL) has emerged as a collaborative approach that allows multiple clients to jointly learn a machine learning model without sharing their private data. The concern about privacy leakage, albeit demonstrated under specific conditions, has triggered numerous follow-up research in designing powerful attacking methods and effective defending mechanisms aiming to thwart these attacking methods. Nevertheless, privacy-preserving mechanisms employed in these defending methods invariably lead to compromised model performances due to a fixed obfuscation applied to private data or gradients. In this article, we, therefore, propose a novel adaptive obfuscation mechanism, coined FedAdOb, to protect private data without yielding original model performances. Technically, FedAdOb utilizes passport-based adaptive obfuscation to ensure data privacy in both horizontal and vertical federated learning settings. The privacy-preserving capabilities of FedAdOb, specifically with regard to private features and labels, are theoretically proven through Theorems 1 and 2. Furthermore, extensive experimental evaluations conducted on various datasets and network architectures demonstrate the effectiveness of FedAdOb by manifesting its superior trade-off between privacy preservation and model performance, surpassing existing methods.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# ニューラルネットワークプルーニングのレンズによる効果的なサブセット選択

Effective Subset Selection Through The Lens of Neural Network Pruning ( http://arxiv.org/abs/2406.01086v1 )

ライセンス: Link先を確認
Noga Bar, Raja Giryes, (参考訳) 大量の注釈付きデータを持つことは、ディープニューラルネットワークの有効性に大きな影響を及ぼす。 しかし、医療データなど一部の領域では、アノテーションタスクは非常に高価である可能性がある。 したがって、アノテートするデータを賢明に選択することが重要であり、これはサブセット選択問題として知られている。 より広範に研究されているサブセット選択とニューラルネットワークプルーニングの関係について検討し,それらの対応性を確立する。 ネットワークプルーニングからの洞察を活用し,ニューラルネットワーク特徴のノルム基準を利用してサブセット選択法を改善することを提案する。 提案手法を様々なネットワークやデータセット上で実証的に検証し,精度を向上した。 これは、サブセットの選択にプルーニングツールを使う可能性を示している。

Having large amounts of annotated data significantly impacts the effectiveness of deep neural networks. However, the annotation task can be very expensive in some domains, such as medical data. Thus, it is important to select the data to be annotated wisely, which is known as the subset selection problem. We investigate the relationship between subset selection and neural network pruning, which is more widely studied, and establish a correspondence between them. Leveraging insights from network pruning, we propose utilizing the norm criterion of neural network features to improve subset selection methods. We empirically validate our proposed strategy on various networks and datasets, demonstrating enhanced accuracy. This shows the potential of employing pruning tools for subset selection.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# 平滑性制約下における線形力学系の連成学習

Joint Learning of Linear Dynamical Systems under Smoothness Constraints ( http://arxiv.org/abs/2406.01094v1 )

ライセンス: Link先を確認
Hemant Tyagi, (参考訳) 複数の線形力学系の連立学習の問題点を考察する。 これは最近、モデルパラメータに関する様々なタイプの仮定の下で大きな注目を集めています。 私たちが考慮する設定は、与えられた無向グラフ $G = ([m], \mathcal{E})$ のノードに存在する$m$線型系の集合を含む。 系行列は極端に安定であり、グラフ上の信号の二次的変動に類似した滑らか性制約 w.r.t$G$ を満たすと仮定する。 ノードの状態が$T$タイムポイントを超えると、平均二乗誤差(MSE)の非漸近誤差境界とともに、システム行列の合同推定のための2つの推定器を提案する。 特に、MSE が 0 に収束する条件は、通常多項式的に速い w.r.t $m$ である。 結果は軽度(すなわち$T \sim \log m$)か、時には$T$(すなわち$T \geq 2$)の仮定さえない。

We consider the problem of joint learning of multiple linear dynamical systems. This has received significant attention recently under different types of assumptions on the model parameters. The setting we consider involves a collection of $m$ linear systems each of which resides on a node of a given undirected graph $G = ([m], \mathcal{E})$. We assume that the system matrices are marginally stable, and satisfy a smoothness constraint w.r.t $G$ -- akin to the quadratic variation of a signal on a graph. Given access to the states of the nodes over $T$ time points, we then propose two estimators for joint estimation of the system matrices, along with non-asymptotic error bounds on the mean-squared error (MSE). In particular, we show conditions under which the MSE converges to zero as $m$ increases, typically polynomially fast w.r.t $m$. The results hold under mild (i.e., $T \sim \log m$), or sometimes, even no assumption on $T$ (i.e. $T \geq 2$).
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# 教師なし学習と教師付き学習の相乗化: 自然言語タスクモデリングの高精度化のためのハイブリッドアプローチ

Synergizing Unsupervised and Supervised Learning: A Hybrid Approach for Accurate Natural Language Task Modeling ( http://arxiv.org/abs/2406.01096v1 )

ライセンス: Link先を確認
Wrick Talukdar, Anjanava Biswas, (参考訳) 教師付き学習モデルは、様々な自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを示しているが、その成功は大規模ラベル付きデータセットの可用性に大きく依存している。 逆に、教師なし学習技術は、豊富なラベルのないテキストデータを利用してリッチな表現を学習するが、特定のNLPタスクに対して直接最適化するわけではない。 本稿では,NLPタスクモデリングの精度を向上させるために,教師なし学習と教師なし学習を相乗化する新しいハイブリッド手法を提案する。 教師付きモデルは特定のタスクで優れているが、大きなラベル付きデータセットに依存している。 教師なしのテクニックは、豊富なラベルのないテキストからリッチな表現を学ぶことができますが、タスクを直接最適化することはできません。 提案手法は,ラベルのないコーパス(例えば,言語モデル,単語埋め込み)から表現を学習する教師なしモジュールと,これらの表現を活用してタスク固有のモデルを強化する教師付きモジュールを統合する。 我々は、テキスト分類と名前付きエンティティ認識(NER)に対するアプローチを評価し、教師付きベースラインよりも一貫したパフォーマンス向上を示す。 テキスト分類では、言語モデルからの文脈単語の埋め込みは、繰り返しまたは変換器ベースの分類器を事前訓練する。 NER の場合、ワード埋め込みは BiLSTM シーケンスラベルを初期化する。 手法の相乗化により、我々のハイブリッドアプローチはベンチマークデータセット上でSOTAの結果を達成し、よりデータ効率が高くロバストなNLPシステムを実現する。

While supervised learning models have shown remarkable performance in various natural language processing (NLP) tasks, their success heavily relies on the availability of large-scale labeled datasets, which can be costly and time-consuming to obtain. Conversely, unsupervised learning techniques can leverage abundant unlabeled text data to learn rich representations, but they do not directly optimize for specific NLP tasks. This paper presents a novel hybrid approach that synergizes unsupervised and supervised learning to improve the accuracy of NLP task modeling. While supervised models excel at specific tasks, they rely on large labeled datasets. Unsupervised techniques can learn rich representations from abundant unlabeled text but don't directly optimize for tasks. Our methodology integrates an unsupervised module that learns representations from unlabeled corpora (e.g., language models, word embeddings) and a supervised module that leverages these representations to enhance task-specific models. We evaluate our approach on text classification and named entity recognition (NER), demonstrating consistent performance gains over supervised baselines. For text classification, contextual word embeddings from a language model pretrain a recurrent or transformer-based classifier. For NER, word embeddings initialize a BiLSTM sequence labeler. By synergizing techniques, our hybrid approach achieves SOTA results on benchmark datasets, paving the way for more data-efficient and robust NLP systems.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# アルゴリズムによる決定木と森林の学習

Learning Decision Trees and Forests with Algorithmic Recourse ( http://arxiv.org/abs/2406.01098v1 )

ライセンス: Link先を確認
Kentaro Kanamori, Takuya Takagi, Ken Kobayashi, Yuichi Ike, (参考訳) 本稿では,表現行動の存在を保証しつつ,正確な木モデル学習のための新しいアルゴリズムを提案する。 Algorithmic Recourse(AR)は、モデルによって与えられる望ましくない予測結果を変更するためのリコースアクションを提供することを目的としている。 典型的なARメソッドは、実行可能なアクション間で必要な労力を最小限に抑える最適化タスクを解くことで、合理的なアクションを提供する。 しかし、実際には、予測性能に最適化されたモデルに対して、そのようなアクションが常に存在するとは限らない。 この問題を緩和するために、できるだけ多くの事例に対して合理的な行動が存在することを保証する制約の下で、正確な分類木を学習するタスクを定式化する。 そこで本稿では,対戦型学習手法を利用した効率的なトップダウングリーディアルゴリズムを提案する。 また,本アルゴリズムは,木アンサンブルを学習するための一般的なフレームワークとして知られ,ランダムな森林に適用可能であることを示す。 実験結果から,提案手法は精度と計算効率を著しく低下させることなく,ベースラインよりも多くのインスタンスに対して合理的な作用を与えることができた。

This paper proposes a new algorithm for learning accurate tree-based models while ensuring the existence of recourse actions. Algorithmic Recourse (AR) aims to provide a recourse action for altering the undesired prediction result given by a model. Typical AR methods provide a reasonable action by solving an optimization task of minimizing the required effort among executable actions. In practice, however, such actions do not always exist for models optimized only for predictive performance. To alleviate this issue, we formulate the task of learning an accurate classification tree under the constraint of ensuring the existence of reasonable actions for as many instances as possible. Then, we propose an efficient top-down greedy algorithm by leveraging the adversarial training techniques. We also show that our proposed algorithm can be applied to the random forest, which is known as a popular framework for learning tree ensembles. Experimental results demonstrated that our method successfully provided reasonable actions to more instances than the baselines without significantly degrading accuracy and computational efficiency.
翻訳日:2024-06-06 01:58:18 公開日:2024-06-03
# 連続動作を伴う弱結合型MDPの深部強化学習

Deep reinforcement learning for weakly coupled MDP's with continuous actions ( http://arxiv.org/abs/2406.01099v1 )

ライセンス: Link先を確認
Francisco Robledo, Urtzi Ayesta, Konstantin Avrachenkov, (参考訳) 本稿では,連続行動空間と弱結合なMDP問題を対象とした強化学習アルゴリズムであるLagrange Policy for Continuous Actions (LPCA)を紹介する。 LPCAは、Q値計算のためのニューラルネットワークフレームワークにおいて、弱い結合のMDP問題のラグランジュ緩和を導入することで、継続的な行動に依存するリソース制約の課題に対処する。 このアプローチはMDPを効果的に分離し、資源制約環境における効率的な政策学習を可能にする。 グローバル最適化に差分進化を利用するLPCA-DEと,Q値勾配に基づく行動の漸進的かつ段階的に選択するLPCA-Greedyの2つのバリエーションを示す。 他の最先端技術との比較分析では、LPCAの資源配分管理における堅牢性と効率性を強調し、報酬を最大化している。

This paper introduces the Lagrange Policy for Continuous Actions (LPCA), a reinforcement learning algorithm specifically designed for weakly coupled MDP problems with continuous action spaces. LPCA addresses the challenge of resource constraints dependent on continuous actions by introducing a Lagrange relaxation of the weakly coupled MDP problem within a neural network framework for Q-value computation. This approach effectively decouples the MDP, enabling efficient policy learning in resource-constrained environments. We present two variations of LPCA: LPCA-DE, which utilizes differential evolution for global optimization, and LPCA-Greedy, a method that incrementally and greadily selects actions based on Q-value gradients. Comparative analysis against other state-of-the-art techniques across various settings highlight LPCA's robustness and efficiency in managing resource allocation while maximizing rewards.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# 商業格闘技におけるDRLエージェントの強化:トレーニング,統合,エージェント・ヒューマンアライメント

Advancing DRL Agents in Commercial Fighting Games: Training, Integration, and Agent-Human Alignment ( http://arxiv.org/abs/2406.01103v1 )

ライセンス: Link先を確認
Chen Zhang, Qiang He, Zhou Yuan, Elvis S. Liu, Hong Wang, Jian Zhao, Yang Wang, (参考訳) Deep Reinforcement Learning (DRL)エージェントは、幅広いゲームジャンルで素晴らしい成功を収めている。 しかし、既存の研究は主にDRL能力の最適化に重点を置いており、長期にわたるプレイヤーインタラクションの課題に対処している。 本稿では,1億人以上の登録ユーザを持つ人気の格闘ゲームであるナルトモバイルに,Sh\=ukaiという名の格闘ゲームのための実用的なDRLエージェントシステムを提案する。 Sh\=ukaiは、バランスの取れた能力、一般化可能性、訓練効率を達成するためにヘテロジニアスリーグトレーニング(HELT)を導入することで、一般化性を高めるための状態を定量化する。 さらに、Sh\=ukaiは、エージェントの行動と人間の期待を一致させるために、特定の報酬を実装している。 シュ=ウカイの一般化能力は、全キャラクタに対して一貫した能力で示されるが、そのうち13%しか訓練されていない。 さらに、HELTは試料効率を22%改善した。 シュ=ウカイはナルトモバイルのプレイヤーにとって貴重なトレーニングパートナーであり、彼らの能力とスキルを高めることができる。

Deep Reinforcement Learning (DRL) agents have demonstrated impressive success in a wide range of game genres. However, existing research primarily focuses on optimizing DRL competence rather than addressing the challenge of prolonged player interaction. In this paper, we propose a practical DRL agent system for fighting games named Sh\=ukai, which has been successfully deployed to Naruto Mobile, a popular fighting game with over 100 million registered users. Sh\=ukai quantifies the state to enhance generalizability, introducing Heterogeneous League Training (HELT) to achieve balanced competence, generalizability, and training efficiency. Furthermore, Sh\=ukai implements specific rewards to align the agent's behavior with human expectations. Sh\=ukai's ability to generalize is demonstrated by its consistent competence across all characters, even though it was trained on only 13% of them. Additionally, HELT exhibits a remarkable 22% improvement in sample efficiency. Sh\=ukai serves as a valuable training partner for players in Naruto Mobile, enabling them to enhance their abilities and skills.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# BACON: データセット蒸留のためのベイズ最適凝縮フレームワーク

BACON: Bayesian Optimal Condensation Framework for Dataset Distillation ( http://arxiv.org/abs/2406.01112v1 )

ライセンス: Link先を確認
Zheng Zhou, Hongbo Zhao, Guangliang Cheng, Xiangtai Li, Shuchang Lyu, Wenquan Feng, Qi Zhao, (参考訳) Dataset Distillation (DD)は、テストセットのパフォーマンスを維持しながら、広範なデータセットからよりコンパクトなデータセットに知識を抽出することを目的としており、ストレージコストとトレーニングコストを削減している。 しかし、既存の手法は計算強度に悩まされることが多く、DD問題を解析するための堅牢な理論的枠組みが欠如しているため、特にデータセットサイズが大きな場合、最適以下の性能を示す。 これらの課題に対処するために,ベイズ理論フレームワークをDDの文献に導入する最初の試みであるBACON(Bayesian optimal Condensation framework)を提案する。 このフレームワークはDDの性能を高めるための理論的サポートを提供する。 さらに、BACONは、ベイズフレームワークを用いた結合確率分布における予測リスク関数の最小化としてDD問題を定式化する。 さらに、最適凝縮に対する予測リスク関数を解析することにより、特定の仮定に基づいて数値的に実現可能な下界を導出し、BACONの近似解を提供する。 BACONを複数のデータセットで検証し、既存の最先端手法と比較して優れた性能を示す。 例えば、ICC-10設定下では、BACONはCIFAR-10データセットのIDM法よりも3.46%精度が向上し、TinyImageNetデータセットの3.10%精度が向上する。 本研究では,BACONの有効性と既存手法とのシームレスな統合性を確認し,DDタスクの性能向上を図る。 コードと蒸留されたデータセットはBACONで入手できる。

Dataset Distillation (DD) aims to distill knowledge from extensive datasets into more compact ones while preserving performance on the test set, thereby reducing storage costs and training expenses. However, existing methods often suffer from computational intensity, particularly exhibiting suboptimal performance with large dataset sizes due to the lack of a robust theoretical framework for analyzing the DD problem. To address these challenges, we propose the BAyesian optimal CONdensation framework (BACON), which is the first work to introduce the Bayesian theoretical framework to the literature of DD. This framework provides theoretical support for enhancing the performance of DD. Furthermore, BACON formulates the DD problem as the minimization of the expected risk function in joint probability distributions using the Bayesian framework. Additionally, by analyzing the expected risk function for optimal condensation, we derive a numerically feasible lower bound based on specific assumptions, providing an approximate solution for BACON. We validate BACON across several datasets, demonstrating its superior performance compared to existing state-of-the-art methods. For instance, under the IPC-10 setting, BACON achieves a 3.46% accuracy gain over the IDM method on the CIFAR-10 dataset and a 3.10% gain on the TinyImageNet dataset. Our extensive experiments confirm the effectiveness of BACON and its seamless integration with existing methods, thereby enhancing their performance for the DD task. Code and distilled datasets are available at BACON.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# 動的命題をもつブール式による大域的解釈可能な分類器

Globally Interpretable Classifiers via Boolean Formulas with Dynamic Propositions ( http://arxiv.org/abs/2406.01114v1 )

ライセンス: Link先を確認
Reijo Jaakkola, Tomi Janhunen, Antti Kuusisto, Masood Feyzbakhsh Rankooh, Miikka Vilander, (参考訳) 解釈可能性と説明可能性は、現代の人工知能において最も重要な課題の一つであり、様々な立法機関にも言及されている。 本稿では,図形データから即時人間の解釈可能な分類器を抽出する手法を開発する。 分類器は、カテゴリー属性から直接抽出するか、数値属性から直接動的に計算できる命題で構築された短いブール公式の形で与えられる。 提案手法はAnswer Set Programmingを用いて実装する。 我々は7つのデータセットを調査し、その結果をグラフデータ、すなわちXGBoostとランダムフォレストに対して最先端の分類器で得られるものと比較した。 全てのデータセットにおいて,本手法で取得可能な精度は参照手法と類似している。 すべてのケースにおいて、分類器の利点は、参照メソッドのブラックボックスの性質とは対照的に、非常に短く、すぐに人間の知性があることです。

Interpretability and explainability are among the most important challenges of modern artificial intelligence, being mentioned even in various legislative sources. In this article, we develop a method for extracting immediately human interpretable classifiers from tabular data. The classifiers are given in the form of short Boolean formulas built with propositions that can either be directly extracted from categorical attributes or dynamically computed from numeric ones. Our method is implemented using Answer Set Programming. We investigate seven datasets and compare our results to ones obtainable by state-of-the-art classifiers for tabular data, namely, XGBoost and random forests. Over all datasets, the accuracies obtainable by our method are similar to the reference methods. The advantage of our classifiers in all cases is that they are very short and immediately human intelligible as opposed to the black-box nature of the reference methods.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# Cohort Squeeze: クロスデバイスフェデレーション学習におけるコホート毎のコミュニケーションラウンドを超えて

Cohort Squeeze: Beyond a Single Communication Round per Cohort in Cross-Device Federated Learning ( http://arxiv.org/abs/2406.01115v1 )

ライセンス: Link先を確認
Kai Yi, Timur Kharisov, Igor Sokolov, Peter Richtárik, (参考訳) FedAvgを含む、事実上全てのフェデレーションラーニング(FL)メソッドは、以下の方法で動作する。 一 オーケストレーションサーバは、特定の規則により選択されたクライアントのコホートに現在のモデルパラメータを送信する。 二 これらのクライアントは、それぞれ独自のトレーニングデータを用いて、独立してローカルトレーニング手順(例えば、SGD又はAdamを介して)を行う。 三 結果のモデルが集約のためにサーバに出荷されること。 このプロセスは、適切な品質のモデルが見つかるまで繰り返される。 これらの手法の注目すべき特徴は、各コホートがサーバのみとの単一の通信ラウンドに関与していることである。 本研究では、このアルゴリズム設計のプリミティブに挑戦し、単一の通信ラウンドで可能なものよりも、それぞれのコホートから「もっとジュースをスクイーズ」できるかどうかを検討する。 驚いたことに、これは事実であり、当社のアプローチはデバイス横断環境でのFLモデルのトレーニングに必要な通信コストを最大74%削減する。 提案手法は,従来のクライアント選択手法と比較して,多くのクライアントサンプリング手順をサポートする確率的近点法 (SPPM-AS) の新たな変種に基づくものである。

Virtually all federated learning (FL) methods, including FedAvg, operate in the following manner: i) an orchestrating server sends the current model parameters to a cohort of clients selected via certain rule, ii) these clients then independently perform a local training procedure (e.g., via SGD or Adam) using their own training data, and iii) the resulting models are shipped to the server for aggregation. This process is repeated until a model of suitable quality is found. A notable feature of these methods is that each cohort is involved in a single communication round with the server only. In this work we challenge this algorithmic design primitive and investigate whether it is possible to ``squeeze more juice" out of each cohort than what is possible in a single communication round. Surprisingly, we find that this is indeed the case, and our approach leads to up to 74% reduction in the total communication cost needed to train a FL model in the cross-device setting. Our method is based on a novel variant of the stochastic proximal point method (SPPM-AS) which supports a large collection of client sampling procedures some of which lead to further gains when compared to classical client selection approaches.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# 閉形式分類器を用いた不均一フェデレーション学習の高速化

Accelerating Heterogeneous Federated Learning with Closed-form Classifiers ( http://arxiv.org/abs/2406.01116v1 )

ライセンス: Link先を確認
Eros Fanì, Raffaello Camoriano, Barbara Caputo, Marco Ciccone, (参考訳) フェデレートラーニング(FL)手法は、しばしば非常に統計的に異質な設定で苦労する。 実際、非IIDデータ分布は、クライアントのドリフトとバイアスのあるローカルソリューション、特に最終分類層で発音され、収束速度と精度に悪影響を及ぼす。 この問題に対処するため、Fed3R(Federated Recursive Ridge Regression)を紹介します。 本手法は,事前学習した特徴を活かしたクローズド形式で計算されたリッジ回帰分類器に適合する。 Fed3Rは統計的不均一性に免疫を持ち、クライアントのサンプリング順序に不変である。 そのため、クロスデバイスシナリオでは特に有効である。 さらに、通信コストと計算コストの面では高速で効率的であり、競合他社よりも最大2桁少ないリソースを必要とする。 最後に、Fed3Rパラメータをソフトマックス分類器の初期化として利用し、任意のFLアルゴリズム(Fed3R with Fine-Tuning, Fed3R+FT)を用いてモデルを微調整する。 また, 定型分類器の維持は, デバイス間設定におけるトレーニングの安定化と, より差別的な特徴の学習に有効であることが示唆された。 公式サイト: https://fed-3r.github.io/.com

Federated Learning (FL) methods often struggle in highly statistically heterogeneous settings. Indeed, non-IID data distributions cause client drift and biased local solutions, particularly pronounced in the final classification layer, negatively impacting convergence speed and accuracy. To address this issue, we introduce Federated Recursive Ridge Regression (Fed3R). Our method fits a Ridge Regression classifier computed in closed form leveraging pre-trained features. Fed3R is immune to statistical heterogeneity and is invariant to the sampling order of the clients. Therefore, it proves particularly effective in cross-device scenarios. Furthermore, it is fast and efficient in terms of communication and computation costs, requiring up to two orders of magnitude fewer resources than the competitors. Finally, we propose to leverage the Fed3R parameters as an initialization for a softmax classifier and subsequently fine-tune the model using any FL algorithm (Fed3R with Fine-Tuning, Fed3R+FT). Our findings also indicate that maintaining a fixed classifier aids in stabilizing the training and learning more discriminative features in cross-device settings. Official website: https://fed-3r.github.io/.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# カールマン・グラッド法による流体の量子シミュレーション

Carleman-Grad approach to the quantum simulation of fluids ( http://arxiv.org/abs/2406.01118v1 )

ライセンス: Link先を確認
Claudio Sanavio, Enea Mauri, Sauro Succi, (参考訳) グラッドの一般化流体力学に基づく古典流体の量子シミュレーションに対するカールマン線形化法について論じ、格子ボルツマンとナヴィエ・ストークスの定式化に基づく以前の研究と比較した。 カールマン・グラッド法は両者の中間的性質を示す。 すなわち、カールマン反復の数十の時間ステップへの収束と、量子線型代数解法を用いた潜在的に実行可能な量子回路の実装である。 しかし、どちらの特徴も流体流のための実行可能な量子アルゴリズムを得るためにかなりの改善が必要である。

We discuss the Carleman linearization approach to the quantum simulation of classical fluids based on Grad's generalized hydrodynamics and compare it to previous investigations based on lattice Boltzmann and Navier-Stokes formulations. We show that the Carleman-Grad procedure exhibits intermediate properties between the two. Namely, convergence of the Carleman iteration over a few tens of timesteps and a potentially viable quantum circuit implementation using quantum linear algebra solvers. However, both features still need substantial improvements to yield a viable quantum algorithm for fluid flows.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# $Δ$-DiT:拡散変換器のための訓練不要加速法

$Δ$-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers ( http://arxiv.org/abs/2406.01125v1 )

ライセンス: Link先を確認
Pengtao Chen, Mingzhu Shen, Peng Ye, Jianjian Cao, Chongjun Tu, Christos-Savvas Bouganis, Yiren Zhao, Tao Chen, (参考訳) 拡散モデルは高品質で多様な画像を生成するために広く認識されているが、そのリアルタイム性能の低さは、主にUNetベースの構造に焦点をあてた多くの加速作業につながっている。 拡散変圧器(DiT)によりより成功した結果により、DiT構造が生成に与える影響や、DiTアーキテクチャに合わせた加速度フレームワークが存在しないことに関して、まだ探索の余地がない。 これらの課題に対処するため、我々は、DiTブロックと画像生成の相関について検討する。 以上の結果から,DiTの前面ブロックは生成画像の輪郭に関連し,後方ブロックは細部に関連があることが判明した。 そこで本研究では,初期サンプリング段階における後部DiTブロックと後期サンプリング段階における前部DiTブロックを高速化するためのキャッシュ機構を設計した,トレーニングフリー推論アクセラレーションフレームワークである$\Delta$-DiTを提案する。 具体的には、前のサンプリング画像の入力を考慮し、推論のバイアスを低減する、$\Delta$-Cacheと呼ばれるDiT固有のキャッシュ機構を提案する。 PIXART-$\alpha$とDiT-XLの大規模な実験は、$\Delta$-DiTが20ステップ世代で1.6\times$のスピードアップを達成でき、ほとんどの場合パフォーマンスも向上することを示した。 4段階の一貫性のあるモデル生成とより困難な1.12\times$Accelerationのシナリオでは,提案手法は既存手法よりも大幅に優れている。 私たちのコードは公開されます。

Diffusion models are widely recognized for generating high-quality and diverse images, but their poor real-time performance has led to numerous acceleration works, primarily focusing on UNet-based structures. With the more successful results achieved by diffusion transformers (DiT), there is still a lack of exploration regarding the impact of DiT structure on generation, as well as the absence of an acceleration framework tailored to the DiT architecture. To tackle these challenges, we conduct an investigation into the correlation between DiT blocks and image generation. Our findings reveal that the front blocks of DiT are associated with the outline of the generated images, while the rear blocks are linked to the details. Based on this insight, we propose an overall training-free inference acceleration framework $\Delta$-DiT: using a designed cache mechanism to accelerate the rear DiT blocks in the early sampling stages and the front DiT blocks in the later stages. Specifically, a DiT-specific cache mechanism called $\Delta$-Cache is proposed, which considers the inputs of the previous sampling image and reduces the bias in the inference. Extensive experiments on PIXART-$\alpha$ and DiT-XL demonstrate that the $\Delta$-DiT can achieve a $1.6\times$ speedup on the 20-step generation and even improves performance in most cases. In the scenario of 4-step consistent model generation and the more challenging $1.12\times$ acceleration, our method significantly outperforms existing methods. Our code will be publicly available.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# TCMBench: 漢方医学における大規模言語モデル評価のための総合ベンチマーク

TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine ( http://arxiv.org/abs/2406.01126v1 )

ライセンス: Link先を確認
Wenjing Yue, Xiaoling Wang, Wei Zhu, Ming Guan, Huanran Zheng, Pengfei Wang, Changzhi Sun, Xin Ma, (参考訳) 大規模言語モデル(LLM)は、西欧医学領域を含む様々な自然言語処理タスクにおいて、ベンチマークによって著しくよく機能している。 しかしながら、LSMの専門的評価ベンチマークは、歴史的歴史と大きな影響力を持つ伝統的な中国医学(TCM)領域では、まだカバーされていない。 そこで本研究では,TCMにおけるLLM性能を評価するための総合的なベンチマークであるTCM-Benchを紹介する。 TCM-EDデータセットは、TCMLE(TCM Licensing Exam)から得られた5,473の質問からなり、1,300の質問が権威的な分析によって集められている。 TCMの基礎と臨床の実践を含む、TCMLEのコアコンポーネントをカバーしている。 質問応答の精度を超越してLLMを評価するために,TCM関連質問に対してLLMが生成する回答の質を評価するための指標であるTCMScoreを提案する。 TCMのセマンティクスと知識の一貫性を包括的に検討する。 様々な観点から総合的な実験分析を行った結果,(1)このベンチマークにおけるLCMの不満足な性能は,TCMの大幅な改善の余地を浮き彫りにした。 2) ドメイン知識の導入により, LLMの性能が向上する。 しかし、ZhongJing-TCMのようなドメイン内モデルでは、生成した解析テキストの品質は低下しており、それらの微調整プロセスが基本的なLLM機能に影響を与えると仮定する。 3) Rouge や BertScore のようなテキスト生成品質の伝統的な指標は,テキストの長さや表面意味の曖昧さに影響を受けやすいが,TMScore のようなドメイン固有の指標は,その評価結果をさらに補完し,説明することができる。 これらの知見は,TCM における LLM の機能と限界を強調し,医療研究に深い支援を提供することを目的としている。

Large language models (LLMs) have performed remarkably well in various natural language processing tasks by benchmarking, including in the Western medical domain. However, the professional evaluation benchmarks for LLMs have yet to be covered in the traditional Chinese medicine(TCM) domain, which has a profound history and vast influence. To address this research gap, we introduce TCM-Bench, an comprehensive benchmark for evaluating LLM performance in TCM. It comprises the TCM-ED dataset, consisting of 5,473 questions sourced from the TCM Licensing Exam (TCMLE), including 1,300 questions with authoritative analysis. It covers the core components of TCMLE, including TCM basis and clinical practice. To evaluate LLMs beyond accuracy of question answering, we propose TCMScore, a metric tailored for evaluating the quality of answers generated by LLMs for TCM related questions. It comprehensively considers the consistency of TCM semantics and knowledge. After conducting comprehensive experimental analyses from diverse perspectives, we can obtain the following findings: (1) The unsatisfactory performance of LLMs on this benchmark underscores their significant room for improvement in TCM. (2) Introducing domain knowledge can enhance LLMs' performance. However, for in-domain models like ZhongJing-TCM, the quality of generated analysis text has decreased, and we hypothesize that their fine-tuning process affects the basic LLM capabilities. (3) Traditional metrics for text generation quality like Rouge and BertScore are susceptible to text length and surface semantic ambiguity, while domain-specific metrics such as TCMScore can further supplement and explain their evaluation results. These findings highlight the capabilities and limitations of LLMs in the TCM and aim to provide a more profound assistance to medical research.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# マルチモーダル・サリアント・オブジェクト検出のための適応型融合銀行の学習

Learning Adaptive Fusion Bank for Multi-modal Salient Object Detection ( http://arxiv.org/abs/2406.01127v1 )

ライセンス: Link先を確認
Kunpeng Wang, Zhengzheng Tu, Chenglong Li, Cheng Zhang, Bin Luo, (参考訳) マルチモーダル・サリエント物体検出(MSOD)は、可視光源を深度や熱赤外と統合することにより、塩分検出性能を向上させることを目的としている。 既存の方法は通常、特定の問題や課題を扱うために異なる融合スキームを設計する。 これらの融合スキームは特定の問題や課題に対処するのに効果的であるが、複数の複雑な課題を同時に扱うのに苦労する可能性がある。 そこで本研究では,MSODの高機能化のために,様々な課題を同時に扱うための基本核融合方式から,相補的メリットをフル活用する新しい適応核融合銀行を提案する。 我々は,MSODにおける5つの大きな課題,すなわち中心バイアス,スケール変動,画像クラッタ,低照度,熱的クロスオーバーあるいは深度あいまいさの対処に重点を置いている。 提案した核融合銀行は5つの代表的な核融合スキームから構成されており、それぞれの課題の特徴に基づいて特別に設計されている。 銀行はスケーラブルで、さらなる課題のために、さらなる統合計画が銀行に組み込まれる可能性がある。 マルチモーダル入力に対する適切な融合方式を適応的に選択するために,適応型融合バンクを形成する適応型アンサンブルモジュールを導入する。 さらに,高レベルな意味情報と低レベルな空間的詳細をスキップ統合することで,高レベルな中空オブジェクトを正確に検出するための間接的対話型誘導モジュールを設計する。 3つのRGBTデータセットと7つのRGBDデータセットに対する大規模な実験により、提案手法が最先端の手法と比較して優れた性能を達成することを示した。 コードと結果はhttps://github.com/Angknpng/LAFB.comで公開されている。

Multi-modal salient object detection (MSOD) aims to boost saliency detection performance by integrating visible sources with depth or thermal infrared ones. Existing methods generally design different fusion schemes to handle certain issues or challenges. Although these fusion schemes are effective at addressing specific issues or challenges, they may struggle to handle multiple complex challenges simultaneously. To solve this problem, we propose a novel adaptive fusion bank that makes full use of the complementary benefits from a set of basic fusion schemes to handle different challenges simultaneously for robust MSOD. We focus on handling five major challenges in MSOD, namely center bias, scale variation, image clutter, low illumination, and thermal crossover or depth ambiguity. The fusion bank proposed consists of five representative fusion schemes, which are specifically designed based on the characteristics of each challenge, respectively. The bank is scalable, and more fusion schemes could be incorporated into the bank for more challenges. To adaptively select the appropriate fusion scheme for multi-modal input, we introduce an adaptive ensemble module that forms the adaptive fusion bank, which is embedded into hierarchical layers for sufficient fusion of different source data. Moreover, we design an indirect interactive guidance module to accurately detect salient hollow objects via the skip integration of high-level semantic information and low-level spatial details. Extensive experiments on three RGBT datasets and seven RGBD datasets demonstrate that the proposed method achieves the outstanding performance compared to the state-of-the-art methods. The code and results are available at https://github.com/Angknpng/LAFB.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# SAVA: スケーラブルな学習非依存データ評価

SAVA: Scalable Learning-Agnostic Data Valuation ( http://arxiv.org/abs/2406.01130v1 )

ライセンス: Link先を確認
Samuel Kessler, Tam Le, Vu Nguyen, (参考訳) 大規模でWebスクラッドな実際のデータセットには、個々のデータポイントの品質と関連性に影響を与えるノイズの多いアーティファクトが含まれているため、マシンラーニングモデルのトレーニングに適したデータを選択することが重要です。 これらのアーティファクトは、モデルのパフォーマンスと一般化に影響を与えます。 我々は、この問題をデータ評価タスクとして定式化し、クリーンでキュレートされた検証セットの類似性や相似性に応じて、トレーニングセット内のデータポイントに値を割り当てる。 近年,LAVA (Just et al 2023) は,大規模ノイズ学習データセットとクリーン・バリデーション・セット間の最適輸送(OT)をモデル性能に依存せずに効率的にトレーニングデータを評価できることを示した。 しかし、LAVAアルゴリズムは、入力としてデータセット全体を必要とするため、そのアプリケーションは大規模なデータセットに制限される。 データセット全体ではなく,データポイントのバッチ上で計算を行う確率的(漸進的)アプローチのスケーラビリティに着想を得て,LAVAのスケーラブルな変種であるSAVAを提案し,その計算をデータポイントのバッチ上で行う。 直感的には、SAVAはデータバリュエーションに階層的に定義されたOTを利用するLAVAと同じスキームに従う。 しかし、LAVAがデータセット全体を処理している間、SAVAはデータセットをデータポイントのバッチに分割し、これらのバッチ上でOT問題計算を実行する。 SAVAが数百万のデータポイントを持つ大規模なデータセットにスケール可能であること、データバリュエーションのパフォーマンスをトレードオフしないことを実証するために、広範な実験を行います。

Selecting suitable data for training machine learning models is crucial since large, web-scraped, real datasets contain noisy artifacts that affect the quality and relevance of individual data points. These artifacts will impact the performance and generalization of the model. We formulate this problem as a data valuation task, assigning a value to data points in the training set according to how similar or dissimilar they are to a clean and curated validation set. Recently, LAVA (Just et al. 2023) successfully demonstrated the use of optimal transport (OT) between a large noisy training dataset and a clean validation set, to value training data efficiently, without the dependency on model performance. However, the LAVA algorithm requires the whole dataset as an input, this limits its application to large datasets. Inspired by the scalability of stochastic (gradient) approaches which carry out computations on batches of data points instead of the entire dataset, we analogously propose SAVA, a scalable variant of LAVA with its computation on batches of data points. Intuitively, SAVA follows the same scheme as LAVA which leverages the hierarchically defined OT for data valuation. However, while LAVA processes the whole dataset, SAVA divides the dataset into batches of data points, and carries out the OT problem computation on those batches. We perform extensive experiments, to demonstrate that SAVA can scale to large datasets with millions of data points and doesn't trade off data valuation performance.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# Favi-Score:AI評価のための自動選好評価における相違点の測定

Favi-Score: A Measure for Favoritism in Automated Preference Ratings for Generative AI Evaluation ( http://arxiv.org/abs/2406.01131v1 )

ライセンス: Link先を確認
Pius von Däniken, Jan Deriu, Don Tuggener, Mark Cieliebak, (参考訳) 生成型AIシステムは、あらゆる種類のモダリティに対してユビキタスなものとなり、そのようなモデルの評価の問題はより強固になっている。 1つの一般的なアプローチは選好評価であり、それぞれの選好を選択する評価者に異なるシステムの出力が示される。 近年、フィールドは自動(トレーニングされた)メトリクスの開発に移行し、生成したアウトプットを評価した。 本研究では,現在人間の判断と相関や計算符号の精度のスコアに頼っている指標自体の評価について検討する。 これらの測定は、測定値が人間の評価とどの程度うまく一致しているかを評価するだけである。 しかし、我々の研究は、これが全体像を示さないことを示している。 ほとんどのメトリクスは、特定のテキスト生成システムに好まれる人間のシステムアセスメントと不一致を示しており、自動化されたメトリクスにある程度の好意を呈している。 本稿では、選好指標における好意の形式的定義を紹介し、この現象を測るファビスコアを導出する。 特に、最終システムランキングの誤差に好意が強く関係していることが示される。 そこで本稿では,手話の精度と好ましさの両面から,嗜好に基づく指標を評価することを提案する。

Generative AI systems have become ubiquitous for all kinds of modalities, which makes the issue of the evaluation of such models more pressing. One popular approach is preference ratings, where the generated outputs of different systems are shown to evaluators who choose their preferences. In recent years the field shifted towards the development of automated (trained) metrics to assess generated outputs, which can be used to create preference ratings automatically. In this work, we investigate the evaluation of the metrics themselves, which currently rely on measuring the correlation to human judgments or computing sign accuracy scores. These measures only assess how well the metric agrees with the human ratings. However, our research shows that this does not tell the whole story. Most metrics exhibit a disagreement with human system assessments which is often skewed in favor of particular text generation systems, exposing a degree of favoritism in automated metrics. This paper introduces a formal definition of favoritism in preference metrics, and derives the Favi-Score, which measures this phenomenon. In particular we show that favoritism is strongly related to errors in final system rankings. Thus, we propose that preference-based metrics ought to be evaluated on both sign accuracy scores and favoritism.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# デバイス独立量子乱数生成の検討

Investigating a Device Independence Quantum Random Number Generation ( http://arxiv.org/abs/2406.01132v1 )

ライセンス: Link先を確認
Vardaan Mongia, Abhishek Kumar, Shashi Prabhakar, Anindya Banerji, R. P. Singh, (参考訳) QRNG(Quantum random number generation)は、暗号分野において必要となるリソースである。 しかし、その認証は難しかった。 本稿では,デバイス独立設定における量子絡み合いの助けを借りてランダム性を証明し,ソース特性化のための2光子干渉を選択する。 CHSH不等式違反と量子状態トモグラフィーは、測定装置の独立チェックとして使用される。 これらの測度は、量子乱数生成の予測不可能性を保証する。 この処理は、高速なランダム性拡張プロトコルに容易に拡張できる。

Quantum random number generation (QRNG) is a resource that is a necessity in the field of cryptography. However, its certification has been challenging. In this article, we certify randomness with the aid of quantum entanglement in a device independent setting, where we choose two-photon interference for source characterisation. The CHSH inequality violation and quantum state tomography are used as independent checks on the measurement devices. These measures ensure the unpredictability of quantum random number generation. This work can be easily extended to faster randomness expansion protocols.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# 内部の危険 - ビジネスプロセスモデルを用いたインサイダー脅威モデリング

The Danger Within: Insider Threat Modeling Using Business Process Models ( http://arxiv.org/abs/2406.01135v1 )

ライセンス: Link先を確認
Jan von der Assen, Jasmin Hochuli, Thomas Grübl, Burkhard Stiller, (参考訳) 脅威モデリングは、情報システム内の技術的脅威のモデル化に成功している。 しかし、非技術資産とその表現に焦点を当てた手法の欠如は理論や実践において観察できる。 業界実践者の声に続き、ビジネスプロセスモデルに基づいてインサイダー脅威をモデル化する方法を考察した。 そこで本研究では、BPMN(Business Process Modeling and Notation)を活用した、新たなインサイダー脅威知識ベースと脅威モデリングアプリケーションを開発した。 最後に、理論的な知識とそのプロトタイプがいかに実践されるかを理解するため、本研究では、ITプロバイダのビジネスプロセスと、実際の投票プロセスのための実験的なデプロイの実際のケーススタディを実施した。 その結果は、アノテーションなしでもBPMNダイアグラムを利用して組織内の脅威を自動的に識別できることを示している。

Threat modeling has been successfully applied to model technical threats within information systems. However, a lack of methods focusing on non-technical assets and their representation can be observed in theory and practice. Following the voices of industry practitioners, this paper explored how to model insider threats based on business process models. Hence, this study developed a novel insider threat knowledge base and a threat modeling application that leverages Business Process Modeling and Notation (BPMN). Finally, to understand how well the theoretic knowledge and its prototype translate into practice, the study conducted a real-world case study of an IT provider's business process and an experimental deployment for a real voting process. The results indicate that even without annotation, BPMN diagrams can be leveraged to automatically identify insider threats in an organization.
翻訳日:2024-06-06 01:48:31 公開日:2024-06-03
# 深さ境界型てんかん計画

Depth-Bounded Epistemic Planning ( http://arxiv.org/abs/2406.01139v1 )

ライセンス: Link先を確認
Thomas Bolander, Alessandro Burigana, Marco Montali, (参考訳) 本稿では,動的てんかん論理(DEL)に基づく新しいてんかん計画法を提案する。 新規性は、計画エージェントの推論の深さを上限bに制限することであり、計画エージェントは高次知識を少なくとも(モーダル)深さbにしか推論できないことを意味する。 このアルゴリズムは、b-bisimulationに関する一意の最小モデルを保証する新しい種類の標準的b-bisimulation収縮を利用する。 深度境界の計画アルゴリズムを音声で表す。 さらに、推論深さの有界b内にある解を持つ計画タスクに関して完備であることを示す(従って、反復的有界深化変種は標準的意味で完備である)。 推論深さの有界bについては、アルゴリズムは (b + 1)-EXPTIME 完全であることが示され、さらにエージェントと原子の数で固定パラメータが抽出可能である。 本稿では,木探索版とグラフ検索版をそれぞれ提案し,木探索版の実装をベースライン・エピステミック・プランナーに対してベンチマークする。

In this paper, we propose a novel algorithm for epistemic planning based on dynamic epistemic logic (DEL). The novelty is that we limit the depth of reasoning of the planning agent to an upper bound b, meaning that the planning agent can only reason about higher-order knowledge to at most (modal) depth b. The algorithm makes use of a novel type of canonical b-bisimulation contraction guaranteeing unique minimal models with respect to b-bisimulation. We show our depth-bounded planning algorithm to be sound. Additionally, we show it to be complete with respect to planning tasks having a solution within bound b of reasoning depth (and hence the iterative bound-deepening variant is complete in the standard sense). For bound b of reasoning depth, the algorithm is shown to be (b + 1)-EXPTIME complete, and furthermore fixed-parameter tractable in the number of agents and atoms. We present both a tree search and a graph search variant of the algorithm, and we benchmark an implementation of the tree search version against a baseline epistemic planner.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# 帰納的知識グラフ補完のための関係ネットワークを用いた論理推論

Logical Reasoning with Relation Network for Inductive Knowledge Graph Completion ( http://arxiv.org/abs/2406.01140v1 )

ライセンス: Link先を確認
Qinggang Zhang, Keyu Duan, Junnan Dong, Pai Zheng, Xiao Huang, (参考訳) 帰納的知識グラフ補完(KGC)は、トレーニングセットに現れない新しいエンティティセットの欠落を推測することを目的としている。 現実世界のKGは絶えず進化し、新しい知識を導入している。 近年の研究では,KGCに新たなエンティティを組み込むために,サブグラフ上でのメッセージパッシングを用いた有望な結果が示されている。 しかしながら、これらの手法の帰納的能力は通常2つの重要な問題によって制限される。 i) KGCは常にデータ疎結合に悩まされており、新しいエンティティが元のKGとほとんど、あるいは全く関係のないインダクティブKGCでは、状況はさらに悪化している。 (II)コールドスタート問題 正確なKG推論では、少数の隣人からローカル情報を収集することで、新しいエンティティの表現を生成するために粗い粒度を超越している。 この目的のために、誘導KG完了のための新しいiNfOmax RelAtion Network、すなわちNORANを提案する。 帰納的KG完了のための潜在関係パターンの抽出を目的とする。 具体的には、関係に集中することにより、NORANはKGモデリングに対するハイパービューを提供し、関係間の相関は帰納的KGCを実行するための実体に依存しない論理的証拠として自然に捉えることができる。 5つのベンチマークの大規模な実験結果から、我々のフレームワークは最先端のKGC手法よりも大幅に優れていることが示された。

Inductive knowledge graph completion (KGC) aims to infer the missing relation for a set of newly-coming entities that never appeared in the training set. Such a setting is more in line with reality, as real-world KGs are constantly evolving and introducing new knowledge. Recent studies have shown promising results using message passing over subgraphs to embed newly-coming entities for inductive KGC. However, the inductive capability of these methods is usually limited by two key issues. (i) KGC always suffers from data sparsity, and the situation is even exacerbated in inductive KGC where new entities often have few or no connections to the original KG. (ii) Cold-start problem. It is over coarse-grained for accurate KG reasoning to generate representations for new entities by gathering the local information from few neighbors. To this end, we propose a novel iNfOmax RelAtion Network, namely NORAN, for inductive KG completion. It aims to mine latent relation patterns for inductive KG completion. Specifically, by centering on relations, NORAN provides a hyper view towards KG modeling, where the correlations between relations can be naturally captured as entity-independent logical evidence to conduct inductive KGC. Extensive experiment results on five benchmarks show that our framework substantially outperforms the state-of-the-art KGC methods.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# 知識グラフによる推論のためのGNN-LLM構文解析フレームワーク

Explore then Determine: A GNN-LLM Synergy Framework for Reasoning over Knowledge Graph ( http://arxiv.org/abs/2406.01145v1 )

ライセンス: Link先を確認
Guangyi Liu, Yongqi Zhang, Yong Li, Quanming Yao, (参考訳) 知識グラフ(KG)に対する推論の課題は、複雑な構造と大量の無関係情報のために、Large Language Models(LLM)にとって大きな課題となる。 既存のLCM推論手法は、正確な知識を提供するため、KGにおける構成学習の重要性を見落としている。 加えて、LLMとの微調整と頻繁な相互作用は、かなりの時間と資源コストを発生させる。 本稿では,知識グラフに対する質問回答(KGQA)タスクに焦点をあて,LLMとグラフニューラルネットワーク(GNN)を相乗化してKGを推論する探索-then-Determine(EtD)フレームワークを提案する。 探索段階(Explore stage)は、有望な候補と質問に対する関連するきめ細かい知識を探索するために軽量なGNNを使用し、決定段階(Determine stage)は、探索された情報を利用して、知識を増強した複数選択プロンプトを構築し、凍結したLLMを誘導して最終回答を決定する。 3つのベンチマークKGQAデータセットの大規模な実験は、EtDが最先端のパフォーマンスを達成し、忠実な推論結果を生成することを示した。

The task of reasoning over Knowledge Graphs (KGs) poses a significant challenge for Large Language Models (LLMs) due to the complex structure and large amounts of irrelevant information. Existing LLM reasoning methods overlook the importance of compositional learning on KG to supply with precise knowledge. Besides, the fine-tuning and frequent interaction with LLMs incur substantial time and resource costs. This paper focuses on the Question Answering over Knowledge Graph (KGQA) task and proposes an Explore-then-Determine (EtD) framework that synergizes LLMs with graph neural networks (GNNs) for reasoning over KGs. The Explore stage employs a lightweight GNN to explore promising candidates and relevant fine-grained knowledge to the questions, while the Determine stage utilizes the explored information to construct a knowledge-enhanced multiple-choice prompt, guiding a frozen LLM to determine the final answer. Extensive experiments on three benchmark KGQA datasets demonstrate that EtD achieves state-of-the-art performance and generates faithful reasoning results.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# EMおよびAMアルゴリズムを用いた混合線形回帰の非依存学習

Agnostic Learning of Mixed Linear Regressions with EM and AM Algorithms ( http://arxiv.org/abs/2406.01149v1 )

ライセンス: Link先を確認
Avishek Ghosh, Arya Mazumdar, (参考訳) 混合線形回帰はパラメトリック統計学と機械学習においてよく研究されている問題である。 サンプルの集合、共変量およびラベルのタプルが与えられたとき、混合線形回帰のタスクは、サンプルに最もよく適合する線形関係の小さなリストを見つけることである。 通常、ラベルは2つ以上の線形関数のうちの1つをランダムに選択し、この選択された関数を共変量に適用し、その結果にノイズを導入することによって確率的に生成されると仮定される。 この状況下では、基底真実線型関数をパラメータ誤差まで推定することが目的である。 一般的な予測最大化 (EM) と交代最小化 (AM) アルゴリズムは、これまで分析されてきた。 本稿では,このような生成モデルを用いることなく,サンプルからの混合線形回帰の非依存学習のより一般的な問題について考察する。 特に, AMとEMのアルゴリズムは, 分離性と良好な初期化の標準的な条件下で, 集団損失最小化器に収束することにより, 混合線形回帰における非依存的な学習をもたらすことを示す。 ある意味で、これは「最適解」に収束するAMアルゴリズムとEMアルゴリズムの強みを示している。

Mixed linear regression is a well-studied problem in parametric statistics and machine learning. Given a set of samples, tuples of covariates and labels, the task of mixed linear regression is to find a small list of linear relationships that best fit the samples. Usually it is assumed that the label is generated stochastically by randomly selecting one of two or more linear functions, applying this chosen function to the covariates, and potentially introducing noise to the result. In that situation, the objective is to estimate the ground-truth linear functions up to some parameter error. The popular expectation maximization (EM) and alternating minimization (AM) algorithms have been previously analyzed for this. In this paper, we consider the more general problem of agnostic learning of mixed linear regression from samples, without such generative models. In particular, we show that the AM and EM algorithms, under standard conditions of separability and good initialization, lead to agnostic learning in mixed linear regression by converging to the population loss minimizers, for suitably defined loss functions. In some sense, this shows the strength of AM and EM algorithms that converges to ``optimal solutions'' even in the absence of realizable generative models.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# 振り返って:ゴールコンディションGFlowNetの振り返り後方合成

Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets ( http://arxiv.org/abs/2406.01150v1 )

ライセンス: Link先を確認
Haoran He, Can Chang, Huazhe Xu, Ling Pan, (参考訳) Generative Flow Networks (GFlowNets) は、確率的ポリシーを学習し、報酬に比例した確率で合成対象を逐次生成するためのアモータイズされたサンプリング手法である。 GFlowNetsは、単一の最適解に収束する標準的な戻り値最大化強化学習アプローチとは対照的に、多種多様なハイリワードオブジェクトを生成する優れた能力を示す。 近年、目標条件付きGFlowNetを学習し、タスクが指定した目標を達成できる単一のGFlowNetをトレーニングすることを目的として、様々な有用なプロパティを取得するための研究が進められている。 しかし、目標条件付きGFlowNetのトレーニングは、大きな状態空間でさらに悪化する極めて少ない報酬のために、重要な課題を生んでいる。 本研究では,これらの課題に対処するため,RBS (Retrospective Backward Synthesis) という新しい手法を提案する。 具体的には、RBSはGFlowNetsの後方方針に基づいて新しい後方軌道を合成し、品質と多様性を高めたトレーニング軌道を充実させ、スパース報酬問題を効率的に解決する。 実験結果から,本手法はサンプル効率を大幅に向上し,各種標準評価ベンチマークにおいて高いベースラインを達成できることが示唆された。

Generative Flow Networks (GFlowNets) are amortized sampling methods for learning a stochastic policy to sequentially generate compositional objects with probabilities proportional to their rewards. GFlowNets exhibit a remarkable ability to generate diverse sets of high-reward objects, in contrast to standard return maximization reinforcement learning approaches, which often converge to a single optimal solution. Recent works have arisen for learning goal-conditioned GFlowNets to acquire various useful properties, aiming to train a single GFlowNet capable of achieving different goals as the task specifies. However, training a goal-conditioned GFlowNet poses critical challenges due to extremely sparse rewards, which is further exacerbated in large state spaces. In this work, we propose a novel method named Retrospective Backward Synthesis (RBS) to address these challenges. Specifically, RBS synthesizes a new backward trajectory based on the backward policy in GFlowNets to enrich training trajectories with enhanced quality and diversity, thereby efficiently solving the sparse reward problem. Extensive empirical results show that our method improves sample efficiency by a large margin and outperforms strong baselines on various standard evaluation benchmarks.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# DeepUniUSTransformer: ガイド付きUltraSoundモデルに向けて

DeepUniUSTransformer: Towards A Universal UltraSound Model with Prompted Guidance ( http://arxiv.org/abs/2406.01154v1 )

ライセンス: Link先を確認
Zehui Lin, Zhuoneng Zhang, Xindi Hu, Zhifan Gao, Xin Yang, Yue Sun, Dong Ni, Tao Tan, (参考訳) 超音波は、低コスト、可搬性、安全性のために臨床実践において広く用いられている画像モダリティである。 一般医療向けAIにおける現在の研究は、大きな言語モデルと一般的なセグメンテーションモデルに焦点を当てており、疾患予測と組織セグメンテーションの両方に対処するソリューションにはあまり注意を払っていない。 本研究では,複数の臨床的タスクを伴いやすいモデルであるDeepUniUSTransformerという,超音波のための新しいユニバーサルフレームワークを提案する。 このモデルの普遍性は、様々な側面にわたる汎用性から導かれる。 超音波の性質、解剖学的位置、あらゆる入力タイプを巧みに管理し、セグメンテーションタスクだけでなく、コンピュータ支援の診断タスクでも優れている。 我々は、この情報をプロンプトとして組み込んだ新しいモジュールを導入し、モデルの学習プロセスにシームレスに組み込む。 提案したモデルをトレーニングし,検証するために,9.7K以上のアノテーションで最大7つの解剖学的位置を含む,公開ソースからの包括的超音波データセットをキュレートした。 実験結果から,本モデルが1つのデータセットでトレーニングされたモデルと,即時ガイダンスを欠いたネットワークの短縮バージョンの両方を超越していることが判明した。 我々は、継続的にデータセットを拡張し、医療用超音波の普遍性に向けてタスク固有のプロンプト機構を最適化する。 モデルウェイト、データセット、コードは、オープンソースとして公開される。

Ultrasound is a widely used imaging modality in clinical practice due to its low cost, portability, and safety. Current research in general AI for healthcare focuses on large language models and general segmentation models, with insufficient attention to solutions addressing both disease prediction and tissue segmentation. In this study, we propose a novel universal framework for ultrasound, namely DeepUniUSTransformer, which is a promptable model accommodating multiple clinical task. The universality of this model is derived from its versatility across various aspects. It proficiently manages any ultrasound nature, any anatomical position, any input type and excelling not only in segmentation tasks but also in computer-aided diagnosis tasks. We introduce a novel module that incorporates this information as a prompt and seamlessly embedding it within the model's learning process. To train and validate our proposed model, we curated a comprehensive ultrasound dataset from publicly accessible sources, encompassing up to 7 distinct anatomical positions with over 9.7K annotations. Experimental results demonstrate that our model surpasses both a model trained on a single dataset and an ablated version of the network lacking prompt guidance. We will continuously expand the dataset and optimize the task specific prompting mechanism towards the universality in medical ultrasound. Model weights, datasets, and code will be open source to the public.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# 手術用スピンホールナノオシレータアレイの光ヘテロダイン顕微鏡

Optical heterodyne microscopy of operating spin Hall nano-oscillator arrays ( http://arxiv.org/abs/2406.01155v1 )

ライセンス: Link先を確認
A. Alemán, A. A. Awad, S. Muralidhar, R. Khymyn, A. Kumar, A. Houshang, D. Hanstorp, J. Åkerman, (参考訳) 光ヘテロダイン検出は、幅広い物理励起を特徴づける強力な技術である。 ここでは,光ヘテロダイン検出技術(基礎およびパラメトリックポンプ)を用いて,単一および複数ナノ収縮スピンホールナノオシレータ(SHNO)の高周波オートオシレーションを顕微鏡的に特徴付ける。 この技術の有効性を実証するために,NiFe/PtとW/CoFeB/MgOの2つの異なる材料スタックからなるSHNOについて検討し,RF注入力とレーザパワーの両方が測定に与える影響について検討し,従来の電気的測定と比較した。 SHNO磁気力学の直接的,非侵襲的,サブミクロン的,空間的,位相分解的な特徴を示すために,Ising Machinesで使用される2種類のSHNOの自己振動の大きさと位相を図示する。 この概念実証プラットフォームは、さらなる拡張のための強力な基盤を確立し、スピントロニクスデバイスに基づく新興コンピューティング技術の重要な特徴付け技術の開発に引き続き貢献する。

Optical heterodyne detection is a powerful technique for characterizing a wide range of physical excitations. Here, we use two types of optical heterodyne detection techniques (fundamental and parametric pumping) to microscopically characterize the high-frequency auto-oscillations of single and multiple nano-constriction spin Hall nano-oscillators (SHNOs). To validate the technique and demonstrate its robustness, we study SHNOs made from two different material stacks, NiFe/Pt and W/CoFeB/MgO, and investigate the influence of both the RF injection power and the laser power on the measurements, comparing the optical results to conventional electrical measurements. To demonstrate the key features of direct, non-invasive, submicron, spatial, and phase-resolved characterization of the SHNO magnetodynamics, we map out the auto-oscillation magnitude and phase of two phase-binarized SHNOs used in Ising Machines. This proof-of-concept platform establishes a strong foundation for further extensions, contributing to the ongoing development of crucial characterization techniques for emerging computing technologies based on spintronics devices
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# 強/弱絡み状態を持つフォトニック回路のための量子一貫したニューラル/テンソルネットワーク

Quantum consistent neural/tensor networks for photonic circuits with strongly/weakly entangled states ( http://arxiv.org/abs/2406.01157v1 )

ライセンス: Link先を確認
Nicolas Allegra, (参考訳) フォトニック量子コンピュータや量子イメージングデバイスのような現代の量子光学系は、絡み合いを現実的に活用し、真の量子優位性に達することを期待して、その設計と実装に大きな精度を必要とする。 これらのシステムの理論的、実験的探索と検証は、我々の古典的なシミュレーションの精度に大きく依存している。 しかし、ヒルベルト空間が増加するにつれて、これらのシステムを設計し最適化するために使われる伝統的な計算手法は、次元的に量子的呪いのために厳しい制約に直面する。 この課題に対処するために、ニューラルネットワークとテンソルネットワークに基づくアプローチを提案し、閉じた絡み合ったシステムの正確なユニタリ進化を、正確で効率的で量子一貫した方法で近似する。 量子力学のごく少数の例でネットワークを訓練することにより、より大きなヒルベルト空間における効率的なパラメータ推定を可能にし、多くの量子力学問題に対する興味深い解を提供する。

Modern quantum optical systems such as photonic quantum computers and quantum imaging devices require great precision in their designs and implementations in the hope to realistically exploit entanglement and reach a real quantum advantage. The theoretical and experimental explorations and validations of these systems are greatly dependent on the precision of our classical simulations. However, as Hilbert spaces increases, traditional computational methods used to design and optimize these systems encounter hard limitations due to the quantum curse of dimensionally. To address this challenge, we propose an approach based on neural and tensor networks to approximate the exact unitary evolution of closed entangled systems in a precise, efficient and quantum consistent manner. By training the networks with a reasonably small number of examples of quantum dynamics, we enable efficient parameter estimation in larger Hilbert spaces, offering an interesting solution for a great deal of quantum metrology problems.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# プライベートスケッチからのプロファイル再構成

Profile Reconstruction from Private Sketches ( http://arxiv.org/abs/2406.01158v1 )

ライセンス: Link先を確認
Hao Wu, Rasmus Pagh, (参考訳) a multiset of $n$ items from $\mathcal{D}$, \emph{known reconstruction} problem for $t = 0, 1, \dots, n$, the fraction $\vec{f}[t]$ in $\mathcal{D}$ that appear exactly $t$ times。 分散空間制約付き環境では,$\vec{f} = (\vec{f}[0], \dots, \vec{f}[n])$の近似を計算できるような,マルチセットのアップダブルでプライベートなスケッチを維持したいと考える。 離散ラプラス雑音を用いて民生化したヒストグラムを用いて,Dwork et al ~ (ITCS '10。 LPベースのテクニックを多項式時間から$O(d + n \log n)$に高速化する方法を示し、$d = |\mathcal{D}|$, $\ell_1$, $\ell_2$および$\ell_\infty$ノルムで達成可能なエラーを分析する。 すべての場合、$d$上のエラーの依存関係は$O(1 / \sqrt{d})$ -- である。

Given a multiset of $n$ items from $\mathcal{D}$, the \emph{profile reconstruction} problem is to estimate, for $t = 0, 1, \dots, n$, the fraction $\vec{f}[t]$ of items in $\mathcal{D}$ that appear exactly $t$ times. We consider differentially private profile estimation in a distributed, space-constrained setting where we wish to maintain an updatable, private sketch of the multiset that allows us to compute an approximation of $\vec{f} = (\vec{f}[0], \dots, \vec{f}[n])$. Using a histogram privatized using discrete Laplace noise, we show how to ``reverse'' the noise, using an approach of Dwork et al.~(ITCS '10). We show how to speed up their LP-based technique from polynomial time to $O(d + n \log n)$, where $d = |\mathcal{D}|$, and analyze the achievable error in the $\ell_1$, $\ell_2$ and $\ell_\infty$ norms. In all cases the dependency of the error on $d$ is $O( 1 / \sqrt{d})$ -- we give an information-theoretic lower bound showing that this dependence on $d$ is asymptotically optimal among all private, updatable sketches for the profile reconstruction problem with a high-probability error guarantee.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# Dimba: Transformer-Mamba拡散モデル

Dimba: Transformer-Mamba Diffusion Models ( http://arxiv.org/abs/2406.01159v1 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Youqiang Zhang, Junshi Huang, (参考訳) 本稿では,Transformer と Mamba 要素を組み合わせた独自のハイブリッドアーキテクチャを用いた新しいテキスト・画像拡散モデルである Dimba について述べる。 具体的には、DimbaはTransformer層とMamba層の間で順次積み重ねられたブロックを交互に扱い、コンディション情報をクロスアテンション層を通じて統合することで、両方のアーキテクチャパラダイムの利点を生かしている。 画質調整,解像度適応,大規模画像生成に必要な重要な構成など,いくつかの最適化手法について検討する。 モデルの柔軟な設計は、特定のリソースの制約や目的に対応するシナリオをサポートする。 適切にスケールすると、Dimbaは従来の純粋なTransformersベースのベンチマークと比較してスループットとメモリフットプリントが大幅に削減される。 大規模な実験により、Dimbaは画像の品質、芸術的レンダリング、セマンティックコントロールの点でベンチマークと比較すると、同等のパフォーマンスを達成したことが示されている。 また,実験中の評価およびリリースチェックポイント中に発見されたアーキテクチャの興味深い特性について報告する。 本研究は,拡散モデルの基礎段階における大規模ハイブリッドトランスフォーマー・マンバアーキテクチャの実現を強調し,テキスト・画像生成の明るい未来を示唆するものである。

This paper unveils Dimba, a new text-to-image diffusion model that employs a distinctive hybrid architecture combining Transformer and Mamba elements. Specifically, Dimba sequentially stacked blocks alternate between Transformer and Mamba layers, and integrate conditional information through the cross-attention layer, thus capitalizing on the advantages of both architectural paradigms. We investigate several optimization strategies, including quality tuning, resolution adaption, and identify critical configurations necessary for large-scale image generation. The model's flexible design supports scenarios that cater to specific resource constraints and objectives. When scaled appropriately, Dimba offers substantial throughput and a reduced memory footprint relative to conventional pure Transformers-based benchmarks. Extensive experiments indicate that Dimba achieves comparable performance compared with benchmarks in terms of image quality, artistic rendering, and semantic control. We also report several intriguing properties of architecture discovered during evaluation and release checkpoints in experiments. Our findings emphasize the promise of large-scale hybrid Transformer-Mamba architectures in the foundational stage of diffusion models, suggesting a bright future for text-to-image generation.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# 動的構造因果モデル

Dynamic Structural Causal Models ( http://arxiv.org/abs/2406.01161v1 )

ライセンス: Link先を確認
Philip Boeken, Joris M. Mooij, (参考訳) 本研究では,動的構造因果モデル (DSCM) と呼ばれる,内因性変数が時間の関数を表す特定のタイプのSCMについて検討する。 目的として,確率微分方程式(SDE)の特定の系をDSCMで適切に表現できることを示す。 この構成の直接的な結果は、SDEのシステムに対するグラフィカルなマルコフ特性である。 時間分割操作を定義し、局所的な独立の概念(連続時間グランガー(非因果性)の概念)を分析する。 また、離散時間DSCMを返却し、サブサンプリング時間列の数学的解析に使用できるサブサンプリング演算を定義する。 本稿では、DSCMが時間依存的介入の因果効果の同定にどのように利用できるか、および既存の制約に基づく因果探索アルゴリズムが時系列データにどのように適用できるかを提案する。

We study a specific type of SCM, called a Dynamic Structural Causal Model (DSCM), whose endogenous variables represent functions of time, which is possibly cyclic and allows for latent confounding. As a motivating use-case, we show that certain systems of Stochastic Differential Equations (SDEs) can be appropriately represented with DSCMs. An immediate consequence of this construction is a graphical Markov property for systems of SDEs. We define a time-splitting operation, allowing us to analyse the concept of local independence (a notion of continuous-time Granger (non-)causality). We also define a subsampling operation, which returns a discrete-time DSCM, and which can be used for mathematical analysis of subsampled time-series. We give suggestions how DSCMs can be used for identification of the causal effect of time-dependent interventions, and how existing constraint-based causal discovery algorithms can be applied to time-series data.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# 制約付き特徴選択のための条件付きGumbel-Softmaxと無線センサネットワークにおけるノード選択への応用

Conditional Gumbel-Softmax for constrained feature selection with application to node selection in wireless sensor networks ( http://arxiv.org/abs/2406.01162v1 )

ライセンス: Link先を確認
Thomas Strypsteen, Alexander Bertrand, (参考訳) 本稿では,与えられたタスクとディープニューラルネットワーク(DNN)モデルに対する最適な特徴部分集合のエンドツーエンド学習を行う手法として,条件付きGumbel-Softmaxを導入する。 これは、サブセット内の各機能の選択を他の機能に条件付けすることで行います。 本稿では,無線センサネットワーク(WSN)を構成するタスク最適ノードの選択に,無線センサ間の通信を必要とするノードが互いに距離が大きすぎることを保証するとともに,通信に要する電力を制限するために,このアプローチをどのように利用できるかを実証する。 本手法は,運動実行タスクを解くためのEmulated Wireless Electroencephalography (EEG) Sensor Network (WESN)上で検証する。 本研究では,制約がより厳密になるにつれてWESNの性能がどう変化するか,条件付きGumbel-Softmaxがヒューリスティックで欲求的な選択法と比較した場合の精度について分析する。 本稿では,ウェアラブル脳-コンピュータインタフェースに焦点をあてるが,提案手法は汎用的であり,無線センサネットワークにおけるノード配置や,他のアプリケーションにおける制約付き特徴選択にも容易に適用できる。

In this paper, we introduce Conditional Gumbel-Softmax as a method to perform end-to-end learning of the optimal feature subset for a given task and deep neural network (DNN) model, while adhering to certain pairwise constraints between the features. We do this by conditioning the selection of each feature in the subset on another feature. We demonstrate how this approach can be used to select the task-optimal nodes composing a wireless sensor network (WSN) while ensuring that none of the nodes that require communication between one another have too large of a distance between them, limiting the required power spent on this communication. We validate this approach on an emulated Wireless Electroencephalography (EEG) Sensor Network (WESN) solving a motor execution task. We analyze how the performance of the WESN varies as the constraints are made more stringent and how well the Conditional Gumbel-Softmax performs in comparison with a heuristic, greedy selection method. While the application focus of this paper is on wearable brain-computer interfaces, the proposed methodology is generic and can readily be applied to node deployment in wireless sensor networks and constrained feature selection in other applications as well.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# AIはどのように倫理的であるべきか? LLMのリスク設定をAIがどう形作るか

How Ethical Should AI Be? How AI Alignment Shapes the Risk Preferences of LLMs ( http://arxiv.org/abs/2406.01168v1 )

ライセンス: Link先を確認
Shumiao Ouyang, Hayong Yun, Xingjian Zheng, (参考訳) 本研究では,Large Language Models(LLMs)のリスク嗜好と,それらと人間の倫理基準を整合させるプロセスが,その経済的な意思決定に与える影響について検討する。 30個のLSMを解析することにより、リスク逆からリスク探索まで、幅広い固有のリスクプロファイルを明らかにした。 そして、さまざまなタイプのAIアライメント、モデルが人間の価値観に従って行動することを保証するプロセス、無害性、有用性、誠実性に焦点を当てたプロセス、が、これらの基本的リスク嗜好を変化させる方法について検討する。 アライメントはLSMをリスク回避に大きくシフトさせ、最も保守的な投資行動を示す3つの倫理的側面をすべて組み込んだモデルである。 企業決算書から企業投資を予測するためにLLMを用いた以前の研究を再現し、いくつかのアライメントは投資予測の精度を向上させることができるが、過剰なアライメントは過度に慎重な予測をもたらすことを示した。 これらの結果から, 過度に整合したLCMを財務意思決定に投入することは, 深刻な過小評価につながる可能性が示唆された。 我々は、金融の LLM を活用する際に、経済領域の特定の要件と倫理的整合性の度合いを慎重にバランスさせるニュアンス的なアプローチの必要性を強調している。

This study explores the risk preferences of Large Language Models (LLMs) and how the process of aligning them with human ethical standards influences their economic decision-making. By analyzing 30 LLMs, we uncover a broad range of inherent risk profiles ranging from risk-averse to risk-seeking. We then explore how different types of AI alignment, a process that ensures models act according to human values and that focuses on harmlessness, helpfulness, and honesty, alter these base risk preferences. Alignment significantly shifts LLMs towards risk aversion, with models that incorporate all three ethical dimensions exhibiting the most conservative investment behavior. Replicating a prior study that used LLMs to predict corporate investments from company earnings call transcripts, we demonstrate that although some alignment can improve the accuracy of investment forecasts, excessive alignment results in overly cautious predictions. These findings suggest that deploying excessively aligned LLMs in financial decision-making could lead to severe underinvestment. We underline the need for a nuanced approach that carefully balances the degree of ethical alignment with the specific requirements of economic domains when leveraging LLMs within finance.
翻訳日:2024-06-06 01:38:29 公開日:2024-06-03
# 外乱露光によるゼロショットアウトオブディストリビューション検出

Zero-Shot Out-of-Distribution Detection with Outlier Label Exposure ( http://arxiv.org/abs/2406.01170v1 )

ライセンス: Link先を確認
Choubo Ding, Guansong Pang, (参考訳) CLIPのような視覚言語モデルは、ゼロショットタスクに広く適用され、インディストリビューション(ID)データにおいて顕著なパフォーマンスを得るため、ゼロショット設定におけるアウト・オブ・ディストリビューション(OOD)インプットの検出と拒否は、そのようなモデルをオンザフライで使用することの安全性を確保するために欠かせないものとなっている。 既存のゼロショットOOD検出器の多くは、IDイメージの分類とOODイメージの拒否においてCLIPを誘導するIDクラスラベルベースのプロンプトに依存している。 この作業では、代わりに、OODクラステキストプロンプトとして、多種多様な補助的なoutlierクラスラベルをCLIPにプロンプトして、ゼロショットのOOD検出を強化することを提案しています。 鍵となる直感は、ID画像は、OOD画像よりも、これらの外れ値クラスのプロンプトと類似性が低いことが期待されていることである。 1つの問題は、生のクラスラベルは、しばしばノイズラベル(例えば、IDラベルの同義語)を含み、生のOLEベースの検出が効果的でないことである。 この問題に対処するため,OODスコアリングを組み込むために,OODスコアリングを行うために,OODラベルの即時埋め込みを利用したOOD学習モジュールを導入する。 さらに、outlierクラスとそのプロトタイプはIDクラスと疎結合になり、分離不能な決定領域につながる。 そこで,我々は,OLEにおける検出のさらなる校正を行うために,外付け型プロトタイプとIDクラス埋め込みを合成して,外付け型プロトタイプを生成する,外付け型ラベル生成モジュールも導入した。 その単純さにもかかわらず、広範囲な実験により、OLEは検出性能を大幅に改善し、大規模OODおよびハードOOD検出ベンチマークにおける新しい最先端性能を実現することが示されている。

As vision-language models like CLIP are widely applied to zero-shot tasks and gain remarkable performance on in-distribution (ID) data, detecting and rejecting out-of-distribution (OOD) inputs in the zero-shot setting have become crucial for ensuring the safety of using such models on the fly. Most existing zero-shot OOD detectors rely on ID class label-based prompts to guide CLIP in classifying ID images and rejecting OOD images. In this work we instead propose to leverage a large set of diverse auxiliary outlier class labels as pseudo OOD class text prompts to CLIP for enhancing zero-shot OOD detection, an approach we called Outlier Label Exposure (OLE). The key intuition is that ID images are expected to have lower similarity to these outlier class prompts than OOD images. One issue is that raw class labels often include noise labels, e.g., synonyms of ID labels, rendering raw OLE-based detection ineffective. To address this issue, we introduce an outlier prototype learning module that utilizes the prompt embeddings of the outlier labels to learn a small set of pivotal outlier prototypes for an embedding similarity-based OOD scoring. Additionally, the outlier classes and their prototypes can be loosely coupled with the ID classes, leading to an inseparable decision region between them. Thus, we also introduce an outlier label generation module that synthesizes our outlier prototypes and ID class embeddings to generate in-between outlier prototypes to further calibrate the detection in OLE. Despite its simplicity, extensive experiments show that OLE substantially improves detection performance and achieves new state-of-the-art performance in large-scale OOD and hard OOD detection benchmarks.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# LLMにおける2つのペルソナ:ロールプレイングとパーソナライズに関する調査

Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization ( http://arxiv.org/abs/2406.01171v1 )

ライセンス: Link先を確認
Yu-Min Tseng, Yu-Chao Huang, Teng-Yun Hsiao, Yu-Ching Hsu, Jia-Yin Foo, Chao-Wei Huang, Yun-Nung Chen, (参考訳) 近年,大規模言語モデル (LLM) を特定のシナリオに適用する方法が注目されている。 特に、もともと対話文学で採用された「textit{persona}」という概念は、有望な道として復活してきた。 しかし、ペルソナの研究は比較的非組織化され、体系的な概要が欠如している。 ギャップを埋めるために、フィールドの現状を分類するための総合的な調査を提示する。 LLMロールプレイング(LLMロールプレイング)、LLMパーソナライゼーション(LLMパーソナライゼーション)、LLMパーソナライゼーション(LLMパーソナライゼーション)という2つの研究の行を識別する。 我々は,LLMロールプレイングとLLMパーソナライズに適した最初の調査を,分類学,現在の課題,潜在的方向性を含むペルソナの統一的視点の下で提示する。 将来の取り組みを促進するため、私たちはコミュニティで利用可能なペーパーコレクションを積極的に維持しています。

Recently, methods investigating how to adapt large language models (LLMs) for specific scenarios have gained great attention. Particularly, the concept of \textit{persona}, originally adopted in dialogue literature, has re-surged as a promising avenue. However, the growing research on persona is relatively disorganized, lacking a systematic overview. To close the gap, we present a comprehensive survey to categorize the current state of the field. We identify two lines of research, namely (1) LLM Role-Playing, where personas are assigned to LLMs, and (2) LLM Personalization, where LLMs take care of user personas. To the best of our knowledge, we present the first survey tailored for LLM role-playing and LLM personalization under the unified view of persona, including taxonomy, current challenges, and potential directions. To foster future endeavors, we actively maintain a paper collection available to the community: https://github.com/MiuLab/PersonaLLM-Survey
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# 原子分子BECにおける中性原子量子ビット

Neutral-atom qubits in atom-molecular BEC ( http://arxiv.org/abs/2406.01177v1 )

ライセンス: Link先を確認
Leena Barshilia, Rajiuddin Sk, Prasanta K. Panigrahi, Avinash Khare, (参考訳) 近年、中立原子は量子コンピューティングの有望なプラットフォームとして登場し、スケーラビリティを提供している。 本研究では,原子-分子ボース-アインシュタイン凝縮体における原子量子ビットの実現について述べる。 第1の例では、凝縮した分子は平らな形状の液滴プラットフォームを形成し、外部環境と隣接する分子の両方から効果的に隔離される。 第2の原子量子ビットは「パルス」形式の波動関数を持ち、パワー法則の振る舞いを示すが、第3の原子はそれぞれの合成形式、$\sech^2{\beta x}$と$\sech{\beta x}\tanh{\beta x}$の基底および励起状態の波動関数を持つ。 量子ビットの局在は、光結合によって制御される化学ポテンシャルに依存し、量子ビットの操作を効果的に制御する。 エネルギーレベル分離, ヒーリング長, 原子番号などの関連するパラメータは, 高分子クビットおよび分子滴の挙動を管理する光結合の非線形性と強度に影響されている。

Recently, neutral atoms have emerged as a promising platform for quantum computing, offering scalability. In this study, we showcase the realization of atomic qubits in atom-molecular Bose-Einstein condensate, belonging to three distinct classes. In the first case, the condensed molecules form a droplet platform with a flat-top configuration, facilitating effective isolation from both external environments and neighbouring molecules. The second atomic qubits have wavefunctions in the ``pulse" form, exhibiting power law behaviour, whereas the third one has ground and excited state wavefunctions in their respective composite forms, $\sech^2{\beta x}$ and $\sech{\beta x}\tanh{\beta x}$. The localization of the qubits depends on the chemical potential, which is governed by the photo association, providing effective control for qubit manipulation. The relevant parameters, such as energy level separation, healing length, and atom numbers, are found to be influenced by the non-linearity and strength of photo associations governing the behaviour of macroscopic qubits and molecular droplets.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# 潜時空間オブジェクトに基づく最適制御を用いた深層強化学習行動モードスイッチング

Deep Reinforcement Learning Behavioral Mode Switching Using Optimal Control Based on a Latent Space Objective ( http://arxiv.org/abs/2406.01178v1 )

ライセンス: Link先を確認
Sindre Benjamin Remman, Bjørn Andreas Kristiansen, Anastasios M. Lekkas, (参考訳) 本研究では,政策の潜伏空間で直接最適化することで,深層強化学習政策の行動を変えるために最適制御を用いる。 我々は,深い強化学習政策の潜伏空間の特定の領域において,個別の行動パターン,いわゆる行動モードが識別可能であることを仮定し,これらの領域において特定の行動や戦略が好ましいことを示す。 我々は,これらの行動モードを,<ac*{pacmap} を用いた潜時空間次元推論を用いて同定する。 最適な制御手順によって生成された動作を用いて、システムを1つの行動モードから別の行動モードに移動させる。 その後、ニューラルネットワークポリシーを解釈するためのフィルタとしてこれらのアクションを利用する。 提案手法は, 失敗エピソードを成功させる方法を示すとともに, 月面着陸支援学習環境を用いて, 望ましい行動モードを付与できることが示唆された。

In this work, we use optimal control to change the behavior of a deep reinforcement learning policy by optimizing directly in the policy's latent space. We hypothesize that distinct behavioral patterns, termed behavioral modes, can be identified within certain regions of a deep reinforcement learning policy's latent space, meaning that specific actions or strategies are preferred within these regions. We identify these behavioral modes using latent space dimension-reduction with \ac*{pacmap}. Using the actions generated by the optimal control procedure, we move the system from one behavioral mode to another. We subsequently utilize these actions as a filter for interpreting the neural network policy. The results show that this approach can impose desired behavioral modes in the policy, demonstrated by showing how a failed episode can be made successful and vice versa using the lunar lander reinforcement learning environment.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# AIによるテキスト検出は対向的摂動に頑健か?

Are AI-Generated Text Detectors Robust to Adversarial Perturbations? ( http://arxiv.org/abs/2406.01179v1 )

ライセンス: Link先を確認
Guanhua Huang, Yuchen Zhang, Zhe Li, Yongjian You, Mingze Wang, Zhouwang Yang, (参考訳) 大規模言語モデル(LLM)の普及は、AI生成テキストの潜在的な誤用に対する懸念を引き起こしている。 AI生成テキスト(AIGT)の現在の検出器は、人間生成テキストとAI生成テキストを区別する際の逆転の原因となる文字や単語の微妙な変化など、敵の摂動に対する堅牢性に欠ける。 本稿では,既存のAIGT検出手法の堅牢性について検討し,新しい検出器であるシームズ校正再構成ネットワーク(SCRN)を導入する。 SCRNは、テキストからのノイズの追加と除去に再構成ネットワークを使用し、局所的な摂動に対して堅牢な意味表現を抽出する。 また、異なる雑音下でモデルが等しく信頼されるように訓練するためのシムズ校正手法を提案し、逆方向の摂動に対するモデルの頑健性を向上させる。 4つの公開データセットの実験により、SCRNは全てのベースライン法を上回り、6.5\%-18.25\%の絶対精度の向上を達成した。 さらに、クロスドメイン、クロスジャンル、ミックスソースのシナリオにおいて、優れた一般化性を示す。 コードは \url{https://github.com/CarlanLark/Robust-AIGC-Detector} で公開されている。

The widespread use of large language models (LLMs) has sparked concerns about the potential misuse of AI-generated text, as these models can produce content that closely resembles human-generated text. Current detectors for AI-generated text (AIGT) lack robustness against adversarial perturbations, with even minor changes in characters or words causing a reversal in distinguishing between human-created and AI-generated text. This paper investigates the robustness of existing AIGT detection methods and introduces a novel detector, the Siamese Calibrated Reconstruction Network (SCRN). The SCRN employs a reconstruction network to add and remove noise from text, extracting a semantic representation that is robust to local perturbations. We also propose a siamese calibration technique to train the model to make equally confidence predictions under different noise, which improves the model's robustness against adversarial perturbations. Experiments on four publicly available datasets show that the SCRN outperforms all baseline methods, achieving 6.5\%-18.25\% absolute accuracy improvement over the best baseline method under adversarial attacks. Moreover, it exhibits superior generalizability in cross-domain, cross-genre, and mixed-source scenarios. The code is available at \url{https://github.com/CarlanLark/Robust-AIGC-Detector}.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# Q-BiC:in vitroおよびin vivoにおけるスピンベース量子センシングのための生体適合型集積チップ

Q-BiC: A biocompatible integrated chip for in vitro and in vivo spin-based quantum sensing ( http://arxiv.org/abs/2406.01181v1 )

ライセンス: Link先を確認
Louise Shanahan, Sophia Belser, Jack W. Hart, Qiushi Gu, Julien R. E. Roth, Annika Mechnich, Michael Hoegen, Soham Pal, David Jordan, Eric A. Miska, Mete Atature, Helena S. Knowles, (参考訳) 光処理可能なスピンベースの量子センサーは、システムの温度、磁場、pH、その他の物理的特性のナノスケールの測定を可能にする。 生体細胞や多細胞生物の実証実験を超えて、信頼性が高く損傷のない量子センシングにセンサーを応用することは、3つの技術的課題をもたらす。 第一に、スピンベースの量子センシングは光アクセシビリティとマイクロ波の伝送を必要とする。 第二に、あらゆるマイクロエレクトロニクスは生物と互換性があり、生きた標本を撮像するために設計されなければならない。 第三に、マイクロ波の効率のよい供給と温度制御は、望ましくない加熱を減らし、最適な生物学的環境を維持するために不可欠である。 本稿では,マイクロ流体に適合したマイクロ波の伝送を容易にするQuantum Biosensing Chip (Q-BiC)について述べる。 本研究では, 窒素空孔中心を含むナノダイヤモンドとQ-BiCを併用し, 生体内での磁気共鳴を光学的に検出した。 我々は,HeLa細胞および線虫Caenorhabditis elegansの光磁気共鳴をin vitroで検出するために必要なマイクロ波励起の生体適合性を定量化し,除草効果が観測される前に許容されるマイクロ波露光範囲を決定する。 さらに, ナノスケールの量子温度測定を, 最小限の応力で, 固定化・無麻酔の成人線虫に行うことができることを示した。 これらの結果は、研究中の生体システムに損傷を与えることなく、スピンベースの量子センサーを使用することを可能にし、細胞内プロセスの局所熱力学および粘弾性特性の研究を容易にする。

Optically addressable spin-based quantum sensors enable nanoscale measurements of temperature, magnetic field, pH, and other physical properties of a system. Advancing the sensors beyond proof-of-principle demonstrations in living cells and multicellular organisms towards reliable, damage-free quantum sensing poses three distinct technical challenges. First, spin-based quantum sensing requires optical accessibility and microwave delivery. Second, any microelectronics must be biocompatible and designed for imaging living specimens. Third, efficient microwave delivery and temperature control are essential to reduce unwanted heating and to maintain an optimal biological environment. Here, we present the Quantum Biosensing Chip (Q-BiC), which facilitates microfluidic-compatible microwave delivery and includes on-chip temperature control. We demonstrate the use of Q-BiC in conjunction with nanodiamonds containing nitrogen vacancy centers to perform optically detected magnetic resonance in living systems. We quantify the biocompatibility of microwave excitation required for optically detected magnetic resonance both in vitro in HeLa cells and in vivo in the nematode Caenorhabditis elegans for temperature measurements and determine the microwave-exposure range allowed before detrimental effects are observed. In addition, we show that nanoscale quantum thermometry can be performed in immobilised but non-anaesthetised adult nematodes with minimal stress. These results enable the use of spin-based quantum sensors without damaging the biological system under study, facilitating the investigation of the local thermodynamic and viscoelastic properties of intracellular processes.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# スペクトルニューラルネットワークによる自動入力特徴関連性

Automatic Input Feature Relevance via Spectral Neural Networks ( http://arxiv.org/abs/2406.01183v1 )

ライセンス: Link先を確認
Lorenzo Chicchi, Lorenzo Buffoni, Diego Febbe, Lorenzo Giambagli, Raffaele Marino, Duccio Fanelli, (参考訳) 機械学習の分野では、高次元データを扱うことが一般的なプラクティスである。 したがって、より効率的な数値処理を行うために、よりコンパクトなデータセットを得るために、関連する入力特徴を特定することが重要である。 さらに、意思決定の基盤となる重要な要素を分離することで、モデルによる解釈可能性に関する詳細化に寄与することができる。 本稿では,ディープニューラルネットワークにおける入力成分の相対的重要性を推定する新しい手法を提案する。 これは最適化プロセスのスペクトル再パラメータ化を活用することで達成される。 入力ノードに関連する固有値は、実際に供給されたエントリ特徴の関連性を評価するための堅牢なプロキシを提供する。 既存の技術とは異なり、スペクトル特徴ランキングはネットワークトレーニングの副産物として自動的に実行される。 この手法は、合成データと実データの両方に対してうまく挑戦されている。

Working with high-dimensional data is a common practice, in the field of machine learning. Identifying relevant input features is thus crucial, so as to obtain compact dataset more prone for effective numerical handling. Further, by isolating pivotal elements that form the basis of decision making, one can contribute to elaborate on - ex post - models' interpretability, so far rather elusive. Here, we propose a novel method to estimate the relative importance of the input components for a Deep Neural Network. This is achieved by leveraging on a spectral re-parametrization of the optimization process. Eigenvalues associated to input nodes provide in fact a robust proxy to gauge the relevance of the supplied entry features. Unlike existing techniques, the spectral features ranking is carried out automatically, as a byproduct of the network training. The technique is successfully challenged against both synthetic and real data.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# SNPGuard: オープンソースツールを使用したSEV-SNP VMのリモートテスト

SNPGuard: Remote Attestation of SEV-SNP VMs Using Open Source Tools ( http://arxiv.org/abs/2406.01186v1 )

ライセンス: Link先を確認
Luca Wilke, Gianluca Scopelliti, (参考訳) クラウドコンピューティングは、今日の複雑なコンピューティング要求に対処するための、ユビキタスなソリューションである。 しかし、クラウドサービスプロバイダがインフラストラクチャ上で実行されているコードとデータに完全なアクセス権を持つため、データのプライバシに関する懸念が伴う。 VMベースのTrusted Execution Environments(TEEs)は、この問題を解決するための有望なソリューションです。 クラウドサービスプロバイダをロックアウトするための強力なアイソレーション保証と、エンドユーザが信頼性を確認するための検証メカニズムを提供する。 VMのブートチェーン全体をテストすることは、いくつかのソフトウェアコンポーネントの変更を必要とする難しいタスクです。 個々のコンポーネントにはオープンソースソリューションがあるが、それらを適切に統合するためのツールやドキュメントはいまだに不足している。 本稿では、このギャップを2つの一般的なブートワークフローで解決し、手作業の少ないオープンソースのツールを提供することで埋めようとしている。 最初のワークフローでは、VMイメージは整合性のみを必要とするが機密性を必要としないと仮定し、中断されていないブートプロセスを可能にする。 第2のワークフローは、暗号化されたルートファイルシステムでVMをブートすることを含み、早期起動時に復号鍵をセキュアにプロビジョニングする必要がある。 私たちのツールはAMD Secure Encrypted Virtualization (SEV) VMをターゲットにしていますが、コンセプトはIntel Trusted Domain Extensions (TDX)のような他のVMベースのTEEにも当てはまります。

Cloud computing is a ubiquitous solution to handle today's complex computing demands. However, it comes with data privacy concerns, as the cloud service provider has complete access to code and data running on their infrastructure. VM-based Trusted Execution Environments (TEEs) are a promising solution to solve this issue. They provide strong isolation guarantees to lock out the cloud service provider, as well as an attestation mechanism to enable the end user to verify their trustworthiness. Attesting the whole boot chain of a VM is a challenging task that requires modifications to several software components. While there are open source solutions for the individual components, the tooling and documentation for properly integrating them remains scarce. In this paper, we try to fill this gap by elaborating on two common boot workflows and providing open source tooling to perform them with low manual effort. The first workflow assumes that the VM image does only require integrity but not confidentiality, allowing for an uninterrupted boot process. The second workflow covers booting a VM with an encrypted root filesystem, requiring secure provisioning of the decryption key during early boot. While our tooling targets AMD Secure Encrypted Virtualization (SEV) VMs, the concepts also apply to other VM-based TEEs such as Intel Trusted Domain Extensions (TDX).
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# 自動透過光から蛍光画像への移行のためのパッチベースエンコーダデコーダアーキテクチャ:LightMyCellsチャレンジへの貢献

Patch-Based Encoder-Decoder Architecture for Automatic Transmitted Light to Fluorescence Imaging Transition: Contribution to the LightMyCells Challenge ( http://arxiv.org/abs/2406.01187v1 )

ライセンス: Link先を確認
Marek Wodzinski, Henning Müller, (参考訳) ラベルなし光入力画像から蛍光ラベル付きオルガネラの自動予測は重要な課題であるが難しい課題である。 従来の蛍光画像の取得方法は、時間とコストのかかる生化学ラベリングを行うことに関係している。 したがって、ラベルのない透過型光顕微鏡に基づいてタスクを実行する自動アルゴリズムは、非常に有益である。 このタスクの重要性は、明るい磁場、位相コントラスト、または差分コントラスト顕微鏡画像からなる入力に基づいて、蛍光標識された核、ミトコンドリア、チューリン、アクチンを自動的に予測するアルゴリズムを提案することを目的として、LightMyCellsチャレンジを組織するためにフランス・ビオイマの研究者を動機づけた。 本稿では,その課題のかなりのスコアを達成し,最もパフォーマンスの高いチームのひとつに位置づける,慎重に準備され,訓練されたエンコーダ-デコーダディープニューラルネットワークに基づくAGHSSOチームの貢献を紹介する。

Automatic prediction of fluorescently labeled organelles from label-free transmitted light input images is an important, yet difficult task. The traditional way to obtain fluorescence images is related to performing biochemical labeling which is time-consuming and costly. Therefore, an automatic algorithm to perform the task based on the label-free transmitted light microscopy could be strongly beneficial. The importance of the task motivated researchers from the France-BioImaging to organize the LightMyCells challenge where the goal is to propose an algorithm that automatically predicts the fluorescently labeled nucleus, mitochondria, tubulin, and actin, based on the input consisting of bright field, phase contrast, or differential interference contrast microscopic images. In this work, we present the contribution of the AGHSSO team based on a carefully prepared and trained encoder-decoder deep neural network that achieves a considerable score in the challenge, being placed among the best-performing teams.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# UniAnimate: 一貫性のある人間の画像アニメーションのための統一ビデオ拡散モデルの開発

UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation ( http://arxiv.org/abs/2406.01188v1 )

ライセンス: Link先を確認
Xiang Wang, Shiwei Zhang, Changxin Gao, Jiayu Wang, Xiaoqiang Zhou, Yingya Zhang, Luxin Yan, Nong Sang, (参考訳) 最近の拡散に基づく人間の画像アニメーション技術は、与えられた参照アイデンティティと望ましい動きの連続を忠実に追従するビデオの合成において、驚くべき成功を収めている。 それにもかかわらず、まだ2つの制限がある。 一 特典画像とメインビデオブランチとの整合を図り、最適化の負担とモデルパラメータを大幅に増大させる余分な参照モデルが必要である。 二 生成されたビデオは、通常、短い時間(例えば24フレーム)であり、実用上の応用を妨げる。 これらの欠点に対処するため、我々は、効率よく長期的なヒューマンビデオ生成を可能にするUniAnimateフレームワークを提案する。 まず、最適化の難しさを低減し、時間的コヒーレンスを確保するため、映像拡散モデルを統合することで、姿勢誘導やノイズビデオとともに、参照画像を共通の特徴空間にマッピングする。 第2に、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。 最後に、より効率的に長いシーケンスを処理するために、状態空間モデルに基づく代替の時間的モデリングアーキテクチャを探索し、計算に費やした時間的変換器を置き換える。 実験結果から,UniAnimateは既存の最先端技術よりも定量的および定性的な評価において優れた合成結果が得られることが示唆された。 特に、UniAnimateは、第1フレーム条件付け戦略を反復的に活用することで、高度に一貫した1分間のビデオを生成することができる。 コードとモデルは公開されます。 プロジェクトページ: https://unianimate.github.io/.com

Recent diffusion-based human image animation techniques have demonstrated impressive success in synthesizing videos that faithfully follow a given reference identity and a sequence of desired movement poses. Despite this, there are still two limitations: i) an extra reference model is required to align the identity image with the main video branch, which significantly increases the optimization burden and model parameters; ii) the generated video is usually short in time (e.g., 24 frames), hampering practical applications. To address these shortcomings, we present a UniAnimate framework to enable efficient and long-term human video generation. First, to reduce the optimization difficulty and ensure temporal coherence, we map the reference image along with the posture guidance and noise video into a common feature space by incorporating a unified video diffusion model. Second, we propose a unified noise input that supports random noised input as well as first frame conditioned input, which enhances the ability to generate long-term video. Finally, to further efficiently handle long sequences, we explore an alternative temporal modeling architecture based on state space model to replace the original computation-consuming temporal Transformer. Extensive experimental results indicate that UniAnimate achieves superior synthesis results over existing state-of-the-art counterparts in both quantitative and qualitative evaluations. Notably, UniAnimate can even generate highly consistent one-minute videos by iteratively employing the first frame conditioning strategy. Code and models will be publicly available. Project page: https://unianimate.github.io/.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# S-CycleGAN: CT-Ultrasound Image-to- Image Translationによるロボット超音波診断

S-CycleGAN: Semantic Segmentation Enhanced CT-Ultrasound Image-to-Image Translation for Robotic Ultrasonography ( http://arxiv.org/abs/2406.01191v1 )

ライセンス: Link先を確認
Yuhan Song, Nak Young Chong, (参考訳) 超音波画像は、その非侵襲性や安全性のため、様々な診断において重要である。 臨床実践においては,超音波画像解析の精度と精度が重要である。 近年の深層学習の進歩は, 医用画像の処理能力が大きく向上している。 しかし、深層学習のデータ飢えの性質と高品質な超音波画像訓練データ不足により、深層学習に基づく超音波解析法の開発が抑制される。 これらの課題に対処するために,CTデータから高品質な合成超音波画像を生成するS-CycleGANという高度なディープラーニングモデルを導入する。 このモデルは、CycleGANフレームワークにセマンティック識別器を組み込んで、スタイル転送プロセス中に重要な解剖学的詳細が保存されることを保証する。 生成した合成画像は、セマンティックセグメンテーションモデルとロボット支援超音波スキャンシステムの開発のためのトレーニングデータセットを強化するために使用され、実際の超音波画像を正確に解析する能力を高める。

Ultrasound imaging is pivotal in various medical diagnoses due to its non-invasive nature and safety. In clinical practice, the accuracy and precision of ultrasound image analysis are critical. Recent advancements in deep learning are showing great capacity of processing medical images. However, the data hungry nature of deep learning and the shortage of high-quality ultrasound image training data suppress the development of deep learning based ultrasound analysis methods. To address these challenges, we introduce an advanced deep learning model, dubbed S-CycleGAN, which generates high-quality synthetic ultrasound images from computed tomography (CT) data. This model incorporates semantic discriminators within a CycleGAN framework to ensure that critical anatomical details are preserved during the style transfer process. The synthetic images produced are used to augment training datasets for semantic segmentation models and robot-assisted ultrasound scanning system development, enhancing their ability to accurately parse real ultrasound imagery.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# アダプティブ・アダプティブ・アダプティブ・アダプティブ・リニア・バンド

Sparsity-Agnostic Linear Bandits with Adaptive Adversaries ( http://arxiv.org/abs/2406.01192v1 )

ライセンス: Link先を確認
Tianyuan Jin, Kyoungseok Jang, Nicolò Cesa-Bianchi, (参考訳) 本研究では,各ラウンドで学習者が一組のアクション(特徴ベクトル)を受け取り,その要素を選択し,確率的報酬を得る確率的線形包帯について検討する。 期待される報酬は、選択されたアクションの固定だが未知の線形関数である。 線形報酬関数の非ゼロ係数数$S$に依存するスパース後悔境界について検討する。 以前の作業は、$S$が知られている場合、またはアクションセットが追加の仮定を満たす場合に焦点を当てていた。 本研究では、S$が未知で作用集合が逆生成されたときに保持される最初のスパース後悔境界を得る。 我々の手法は、オンラインから信頼セットへの変換と、ネストされた信頼セットの階層上の新しいランダム化モデル選択アプローチを組み合わせる。 S$が知られているとき、我々の分析は、逆作用集合の最先端境界を回復する。 また,我々の手法の変種であるExp3を用いて動的に信頼集合を選択することにより,確率線形帯域の経験的性能を向上し,時間的地平線への最適依存に縛られた後悔を享受できることを示す。

We study stochastic linear bandits where, in each round, the learner receives a set of actions (i.e., feature vectors), from which it chooses an element and obtains a stochastic reward. The expected reward is a fixed but unknown linear function of the chosen action. We study sparse regret bounds, that depend on the number $S$ of non-zero coefficients in the linear reward function. Previous works focused on the case where $S$ is known, or the action sets satisfy additional assumptions. In this work, we obtain the first sparse regret bounds that hold when $S$ is unknown and the action sets are adversarially generated. Our techniques combine online to confidence set conversions with a novel randomized model selection approach over a hierarchy of nested confidence sets. When $S$ is known, our analysis recovers state-of-the-art bounds for adversarial action sets. We also show that a variant of our approach, using Exp3 to dynamically select the confidence sets, can be used to improve the empirical performance of stochastic linear bandits while enjoying a regret bound with optimal dependence on the time horizon.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# AFF-ttention! 短期オブジェクトインタラクション予測のための予測モデルと注意モデル

AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation ( http://arxiv.org/abs/2406.01194v1 )

ライセンス: Link先を確認
Lorenzo Mur-Labadia, Ruben Martinez-Cantin, Josechu Guerrero, Giovanni Maria Farinella, Antonino Furnari, (参考訳) 短期的オブジェクトインタラクション予測は、次のアクティブなオブジェクトの位置、対話の名詞と動詞のカテゴリ、および自我中心のビデオの観察から接触する時間を検出することで構成される。 この能力は、ユーザの目標を理解するためのウェアラブルアシスタントやヒューマンロボットのインタラクションには基本的だが、正確で信頼性の高い方法でSTAを実行するための改善の余地はまだ残っている。 本稿では,2つのコントリビューションによるSTA予測の性能向上について述べる。 1. STAformerは、フレームガイド付き時間プーリング、デュアルイメージビデオアテンション、マルチスケール機能融合を統合し、画像入力ビデオペアからのSTA予測をサポートする新しいアテンションベースアーキテクチャである。 まず,特定の物理的場面で発生する相互作用の永続記憶として機能する環境割当モデルを統合する。 第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。 以上の結果より,EPIC-Kitchens STAラベルの新規セットでは,Ego4Dでは45%,EPIC-Kitchens STAでは42%,Top-5 mAPでは45%と有意に改善した。 Ego4D と EPIC- Kitchens のコード、アノテーション、事前抽出した価格を公表し、この分野の今後の研究を奨励します。

Short-Term object-interaction Anticipation consists of detecting the location of the next-active objects, the noun and verb categories of the interaction, and the time to contact from the observation of egocentric video. This ability is fundamental for wearable assistants or human robot interaction to understand the user goals, but there is still room for improvement to perform STA in a precise and reliable way. In this work, we improve the performance of STA predictions with two contributions: 1. We propose STAformer, a novel attention-based architecture integrating frame guided temporal pooling, dual image-video attention, and multiscale feature fusion to support STA predictions from an image-input video pair. 2. We introduce two novel modules to ground STA predictions on human behavior by modeling affordances.First, we integrate an environment affordance model which acts as a persistent memory of interactions that can take place in a given physical scene. Second, we predict interaction hotspots from the observation of hands and object trajectories, increasing confidence in STA predictions localized around the hotspot. Our results show significant relative Overall Top-5 mAP improvements of up to +45% on Ego4D and +42% on a novel set of curated EPIC-Kitchens STA labels. We will release the code, annotations, and pre extracted affordances on Ego4D and EPIC- Kitchens to encourage future research in this area.
翻訳日:2024-06-06 01:28:45 公開日:2024-06-03
# セマンティックグラフアテンションネットワークと距離情報に基づく3次元全身電位推定

3D WholeBody Pose Estimation based on Semantic Graph Attention Network and Distance Information ( http://arxiv.org/abs/2406.01196v1 )

ライセンス: Link先を確認
Sihan Wen, Xiantan Zhu, Zhiming Tan, (参考訳) 近年,3次元ポーズ推定のための多種多様な手法が提案されている。 これらのうち、自己認識機構とグラフ畳み込みはどちらも効果的で実用的な方法であることが証明されている。 これら2つの技法の強みを認識し,世界的文脈を捉える自己認識能力の恩恵を受けるとともに,骨格の局所的な接続性や構造的制約にグラフ畳み込みを利用するセマンティックグラフ注意ネットワークを開発した。 また,身体の特定の部分に関する情報の抽出と精算を支援する身体部分デコーダを設計する。 さらに,提案手法は距離情報を導入し,空間的関係を理解・正確に予測するモデルの能力を高める。 最後に、体の構造的骨格に重要な制約を課し、モデルの予測が人間の姿勢の自然な限界に従うことを保証する幾何学的損失を導入する。 実験の結果,提案手法の有効性を検証し,システム内のすべての要素がポーズ推定結果の改善に不可欠であることを実証した。 最先端と比較して、提案された作業は適合するだけでなく、既存のベンチマークを超えている。

In recent years, a plethora of diverse methods have been proposed for 3D pose estimation. Among these, self-attention mechanisms and graph convolutions have both been proven to be effective and practical methods. Recognizing the strengths of those two techniques, we have developed a novel Semantic Graph Attention Network which can benefit from the ability of self-attention to capture global context, while also utilizing the graph convolutions to handle the local connectivity and structural constraints of the skeleton. We also design a Body Part Decoder that assists in extracting and refining the information related to specific segments of the body. Furthermore, our approach incorporates Distance Information, enhancing our model's capability to comprehend and accurately predict spatial relationships. Finally, we introduce a Geometry Loss who makes a critical constraint on the structural skeleton of the body, ensuring that the model's predictions adhere to the natural limits of human posture. The experimental results validate the effectiveness of our approach, demonstrating that every element within the system is essential for improving pose estimation outcomes. With comparison to state-of-the-art, the proposed work not only meets but exceeds the existing benchmarks.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# 微細調整と多重回帰による多次元スコーリングの自動評価

Automatic Essay Multi-dimensional Scoring with Fine-tuning and Multiple Regression ( http://arxiv.org/abs/2406.01198v1 )

ライセンス: Link先を確認
Kun Sun, Rong Wang, (参考訳) 自動エッセイスコア(英: Automated essay score、AES)とは、エッセイの筆記品質を反映したスコアの予測である。 既存のAESシステムでは、スコアは1点のみである。 しかし、ユーザとL2学習者は、現実世界の応用における英語エッセイに対する様々な次元(語彙、文法、コヒーレンスなど)のスコアを期待している。 このニーズに対処するため、我々は2つの大きなデータセットに微調整と他の戦略を用いることで、複数の次元にわたる英語エッセイを自動的にスコアする2つのモデルを開発した。 その結果, 精度, F1スコア, Quadratic Weighted Kappa の3つの基準を用いて, 評価において優れた性能が得られた。 さらに,システム全体のスコアリングにおいて,既存の手法よりも優れています。

Automated essay scoring (AES) involves predicting a score that reflects the writing quality of an essay. Most existing AES systems produce only a single overall score. However, users and L2 learners expect scores across different dimensions (e.g., vocabulary, grammar, coherence) for English essays in real-world applications. To address this need, we have developed two models that automatically score English essays across multiple dimensions by employing fine-tuning and other strategies on two large datasets. The results demonstrate that our systems achieve impressive performance in evaluation using three criteria: precision, F1 score, and Quadratic Weighted Kappa. Furthermore, our system outperforms existing methods in overall scoring.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# ImageNet-1Kを超えるディープクラスタリングメソッドのスケールアップ

Scaling Up Deep Clustering Methods Beyond ImageNet-1K ( http://arxiv.org/abs/2406.01203v1 )

ライセンス: Link先を確認
Nikolas Adaloglou, Felix Michels, Kaspar Senft, Diana Petrusheva, Markus Kollmann, (参考訳) ディープイメージクラスタリング手法は通常、小規模のバランスの取れた分類データセットで評価されるが、機能ベースの$k$-meansはプロプライエタリな10億規模のデータセットで適用されている。 本研究では、以下のデータ関連要因の影響を解消しつつ、大規模ベンチマークにおける機能ベースのディープクラスタリング手法の性能について検討する。 i) 階級不均衡 二 階級の粒度 三 容易に認識できるクラス、及び iv) 複数のクラスをキャプチャする機能。 その結果,ImageNet21Kをベースとした複数のベンチマークが開発された。 我々の実験分析によると、機能ベースの$k$-meansはバランスの取れたデータセットで不公平に評価されることが多い。 しかし、ディープクラスタリング手法は、ほとんどの大規模ベンチマークで$k$-meansを上回っている。 興味深いことに、$k$-meansはベンチマークの分類が容易でない。 しかし、パフォーマンスのギャップはImageNet21Kのような最も高いデータレギュレータでは減少する。 最後に、プライマリなクラスタ予測は意味のあるクラス(すなわち粗いクラス)をキャプチャする。

Deep image clustering methods are typically evaluated on small-scale balanced classification datasets while feature-based $k$-means has been applied on proprietary billion-scale datasets. In this work, we explore the performance of feature-based deep clustering approaches on large-scale benchmarks whilst disentangling the impact of the following data-related factors: i) class imbalance, ii) class granularity, iii) easy-to-recognize classes, and iv) the ability to capture multiple classes. Consequently, we develop multiple new benchmarks based on ImageNet21K. Our experimental analysis reveals that feature-based $k$-means is often unfairly evaluated on balanced datasets. However, deep clustering methods outperform $k$-means across most large-scale benchmarks. Interestingly, $k$-means underperforms on easy-to-classify benchmarks by large margins. The performance gap, however, diminishes on the highest data regimes such as ImageNet21K. Finally, we find that non-primary cluster predictions capture meaningful classes (i.e. coarser classes).
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# クーロンゲージにおける量子電磁力学の量子シミュレーション

Quantum simulations of quantum electrodynamics in Coulomb gauge ( http://arxiv.org/abs/2406.01204v1 )

ライセンス: Link先を確認
Tianyin Li, (参考訳) 近年では、従来のモンテカルロ格子ゲージ理論(LGT)シミュレーションの符号問題に量子計算法が用いられている。 本稿では,LGTの量子シミュレーションにおいてクーロンゲージ(CG)を用いることを提案する。 これは、CGにおいて冗長な自由度を排除できるためである。 したがって、CG のハミルトニアンはゲージ不変性を必要としないので、ゲージ場をネーティブに微分することができる。 離散化されたゲージ場とフェルミオン場はそれぞれ運動量と位置格子に置かれるべきである。 このスキームの下では、CG条件とガウスの法則は偏極ベクトルの代数方程式を解くことで便利に保存できる。 また、ゲージ場を量子ビットにマッピングする手順についても論じ、量子ビットの多項式スケーリングと時間発展の複雑さを実証する。 最後に、U(1)プラケット演算子とWilsonループの真空期待値(VEV)を古典的なデバイス上で計算し、離散化方式の性能をテストする。

In recent years, the quantum computing method has been used to address the sign problem in traditional Monte Carlo lattice gauge theory (LGT) simulations. We propose that the Coulomb gauge (CG) should be used in quantum simulations of LGT. This is because the redundant degrees of freedom can be eliminated in CG. Therefore, the Hamiltonian in CG does not need to be gauge invariance, allowing the gauge field to be discretized naively. We point out that discretized gauge fields and fermion fields should be placed on momentum and position lattices, respectively. Under this scheme, the CG condition and Gauss's law can be conveniently preserved by solving algebraic equations of polarization vectors. We also discuss the procedure for mapping gauge fields to qubits, and then demonstrate the polynomial scaling of qubits and the complexity of time evolution. Finally, we calculate the vacuum expectation value (VEV) of the U(1) plaquette operator and the Wilson loop on a classical device to test the performance of our discretization scheme.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# ControlSpeech: Decoupled Codecによるゼロショット話者クローンとゼロショット言語スタイル制御の同時実現に向けて

ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec ( http://arxiv.org/abs/2406.01205v1 )

ライセンス: Link先を確認
Shengpeng Ji, Jialong Zuo, Minghui Fang, Siqi Zheng, Qian Chen, Wen Wang, Ziyue Jiang, Hai Huang, Xize Cheng, Rongjie Huang, Zhou Zhao, (参考訳) 本稿では,音声音声の完全クローン化を実現し,数秒の音声プロンプトと簡単なテクスチャ記述プロンプトに基づいて,任意の音声スタイルの制御と調整が可能なTTS(Text-to-Speech)システムについて述べる。 以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。 そのため、ControlSpeechは、制御可能な音色、コンテンツ、スタイルを同時に備えた、より困難なタスク・ア・TSシステムにフォーカスしている。 ControlSpeechは、音声プロンプト、コンテンツプロンプト、スタイルプロンプトを入力として取り、双方向の注意とマスクベースの並列デコードを使用して、対応するコーデック表現を離散デカップリングコーデック空間でキャプチャする。 さらに、多対多のマッピング方式でテキストスタイルの制御性の問題を発見し、この問題を解決するためにスタイル混合意味密度(SMSD)モデルを提案した。 ガウス混合密度ネットワークに基づくSMSDモジュールは,スタイル意味情報の詳細な分割とサンプリング機能を強化し,より多様なスタイルで音声を生成するように設計されている。 実験では、新しいスタイル制御可能なデータセット、いくつかの再現ベースラインモデルを備えた制御可能なモデルツールキット「ControlToolkit」を利用可能にするとともに、ControlSpeechにおける制御機能と生成オーディオの品質の両方を評価するための新しいメトリクスを提案する。 関連するアブレーション研究は、制御音声における各成分の必要性を検証している。 ControlSpeechが、制御可能な音声合成の次の基盤パラダイムを確立できることを願っている。 関連コードとデモはhttps://github.com/jishengpeng/ControlSpeech.comで公開されている。

In this paper, we present ControlSpeech, a text-to-speech (TTS) system capable of fully cloning the speaker's voice and enabling arbitrary control and adjustment of speaking style, merely based on a few seconds of audio prompt and a simple textual style description prompt. Prior zero-shot TTS models and controllable TTS models either could only mimic the speaker's voice without further control and adjustment capabilities or were unrelated to speaker-specific voice generation. Therefore, ControlSpeech focuses on a more challenging new task-a TTS system with controllable timbre, content, and style at the same time. ControlSpeech takes speech prompts, content prompts, and style prompts as inputs and utilizes bidirectional attention and mask-based parallel decoding to capture corresponding codec representations in a discrete decoupling codec space. Moreover, we discovered the issue of text style controllability in a many-to-many mapping fashion and proposed the Style Mixture Semantic Density (SMSD) model to resolve this problem. SMSD module which is based on Gaussian mixture density networks, is designed to enhance the fine-grained partitioning and sampling capabilities of style semantic information and generate speech with more diverse styles. In terms of experiments, we make available a controllable model toolkit called ControlToolkit with a new style controllable dataset, some replicated baseline models and propose new metrics to evaluate both the control capability and the quality of generated audio in ControlSpeech. The relevant ablation studies validate the necessity of each component in ControlSpeech is necessary. We hope that ControlSpeech can establish the next foundation paradigm of controllable speech synthesis. The relevant code and demo are available at https://github.com/jishengpeng/ControlSpeech .
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# 言語横断的名前付きエンティティ認識のためのグローバルローカルDenoisingフレームワークによる擬似ラベルの改良

Improving Pseudo Labels with Global-Local Denoising Framework for Cross-lingual Named Entity Recognition ( http://arxiv.org/abs/2406.01213v1 )

ライセンス: Link先を確認
Zhuojun Ding, Wei Wei, Xiaoye Qu, Dangyang Chen, (参考訳) NER (cross-lingual named entity recognition) は、ラベル付きソース言語データとラベルなしターゲット言語データのみを活用するターゲット言語のためのNERモデルをトレーニングすることを目的としている。 従来のアプローチでは、翻訳されたソース言語データにラベルプロジェクションを実行するか、あるいはソースモデルを使用して、ターゲット言語データに擬似ラベルを割り当て、これらの擬似ラベルデータにターゲットモデルをトレーニングし、ターゲット言語に一般化する。 しかし、これらの自動ラベリング手順は必然的にノイズのあるラベルを導入し、パフォーマンスが低下する。 本稿では,言語間NERのためのGlobal-Local Denoising framework(GLoDe)を提案する。 特に、GLoDeは、意味空間におけるグローバルな分布情報とローカルな分布情報を活用することによって、誤った擬似ラベルを正すプログレッシブデノケーション戦略を導入している。 改良された擬似ラベル付きターゲット言語データにより、モデルの一般化能力が大幅に向上する。 さらに,従来の手法では言語に依存しない特徴を用いたモデルの改良しか検討しなかったが,対象言語固有の特徴も重要であり,無視すべきではないと論じている。 この目的を達成するために、我々は単純な補助的タスクを用いる。 6つのターゲット言語を持つ2つのベンチマークデータセットの実験結果から,提案したGLoDeは最先端の手法よりも優れていることが示された。

Cross-lingual named entity recognition (NER) aims to train an NER model for the target language leveraging only labeled source language data and unlabeled target language data. Prior approaches either perform label projection on translated source language data or employ a source model to assign pseudo labels for target language data and train a target model on these pseudo-labeled data to generalize to the target language. However, these automatic labeling procedures inevitably introduce noisy labels, thus leading to a performance drop. In this paper, we propose a Global-Local Denoising framework (GLoDe) for cross-lingual NER. Specifically, GLoDe introduces a progressive denoising strategy to rectify incorrect pseudo labels by leveraging both global and local distribution information in the semantic space. The refined pseudo-labeled target language data significantly improves the model's generalization ability. Moreover, previous methods only consider improving the model with language-agnostic features, however, we argue that target language-specific features are also important and should never be ignored. To this end, we employ a simple auxiliary task to achieve this goal. Experimental results on two benchmark datasets with six target languages demonstrate that our proposed GLoDe significantly outperforms current state-of-the-art methods.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# ホップのような問題--現実世界の問題の新しい特徴の提示とモデル化

The hop-like problem nature -- unveiling and modelling new features of real-world problems ( http://arxiv.org/abs/2406.01215v1 )

ライセンス: Link先を確認
Michal W. Przewozniczek, Bartosz Frej, Marcin M. Komarnicki, (参考訳) ベンチマークはオプティマイザの開発に不可欠なツールです。 それらを使用すれば、任意のオプティマイザが有効かどうかを確認できる。 Evolutionary Computationフィールドの目的は、ハードで現実世界の問題を解決するツールをサポートするため、これらの特徴に類似したベンチマークは特に価値があるように思われる。 そこで本研究では,最適化プロセスのホップ解析を提案する。 この分析をNP-hard, large-scale real-world problemに適用する。 その結果は、有名なリーディング・ワンズ問題の特徴のいくつかの存在を示唆している。 これらの特徴をうまくモデル化するために,リードブロック問題(LBP)を提案する。 LBPは、検討された最先端遺伝アルゴリズム(GA)によってうまく扱えない新しいタイプのハード最適化問題を組み立てることができる。 最後に, LBP と実世界の課題を解決しつつ, GAs の有効性を改善するためには, どのようなメカニズムを提案する必要があるかを明らかにする。

Benchmarks are essential tools for the optimizer's development. Using them, we can check for what kind of problems a given optimizer is effective or not. Since the objective of the Evolutionary Computation field is to support the tools to solve hard, real-world problems, the benchmarks that resemble their features seem particularly valuable. Therefore, we propose a hop-based analysis of the optimization process. We apply this analysis to the NP-hard, large-scale real-world problem. Its results indicate the existence of some of the features of the well-known Leading Ones problem. To model these features well, we propose the Leading Blocks Problem (LBP), which is more general than Leading Ones and some of the benchmarks inspired by this problem. LBP allows for the assembly of new types of hard optimization problems that are not handled well by the considered state-of-the-art genetic algorithm (GA). Finally, the experiments reveal what kind of mechanisms must be proposed to improve GAs' effectiveness while solving LBP and the considered real-world problem.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# 制約に基づく逆例合成

Constraint-based Adversarial Example Synthesis ( http://arxiv.org/abs/2406.01219v1 )

ライセンス: Link先を確認
Fang Yu, Ya-Yu Chi, Yu-Fang Chen, (参考訳) 人工知能(AI)の急速な進歩の時代、ニューラルネットワークモデルは顕著なブレークスルーを達成した。 しかし、敵の攻撃に対する脆弱性が懸念されている。 この研究は、ニューラルネットワークを実装するPythonプログラムをテストするための特殊なテクニックであるConcolic Testingの強化に焦点を当てている。 拡張ツールであるPyCTは、浮動小数点演算やアクティベーション関数計算など、幅広いニューラルネットワーク操作に対応している。 予測経路の制約を体系的に生成することにより、潜在的敵対例の同定を容易にする。 この研究は、様々なニューラルネットワークアーキテクチャにおける有効性を実証し、敵攻撃に対するPythonベースのニューラルネットワークモデルの脆弱性を強調している。 この研究は、潜在的な敵対的脅威を検出し軽減するための堅牢なテスト手法の必要性を強調して、AIによるアプリケーションを保護することに貢献する。 Pythonの信頼性の高いアプリケーションのために、ニューラルネットワークモデルを強化する上で、厳格なテストテクニックの重要性を強調している。

In the era of rapid advancements in artificial intelligence (AI), neural network models have achieved notable breakthroughs. However, concerns arise regarding their vulnerability to adversarial attacks. This study focuses on enhancing Concolic Testing, a specialized technique for testing Python programs implementing neural networks. The extended tool, PyCT, now accommodates a broader range of neural network operations, including floating-point and activation function computations. By systematically generating prediction path constraints, the research facilitates the identification of potential adversarial examples. Demonstrating effectiveness across various neural network architectures, the study highlights the vulnerability of Python-based neural network models to adversarial attacks. This research contributes to securing AI-powered applications by emphasizing the need for robust testing methodologies to detect and mitigate potential adversarial threats. It underscores the importance of rigorous testing techniques in fortifying neural network models for reliable applications in Python.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# ゼロショットインコンテキスト学習のためのデモ強化

Demonstration Augmentation for Zero-shot In-context Learning ( http://arxiv.org/abs/2406.01224v1 )

ライセンス: Link先を確認
Yi Su, Yunpeng Tai, Yixin Ji, Juntao Li, Bowen Yan, Min Zhang, (参考訳) 大規模言語モデル(LLM)は、ICL(In-context Learning)と呼ばれる印象的な機能を実証した。 しかし、多くの研究は、モデルの性能がデモの選択に敏感であることを強調しており、ユーザクエリの事前知識が欠如している実用的なアプリケーションにとって重要な課題であることを示している。 そのため、大規模な実証プールを構築し、モデルを支援するために外部データベースを組み込まなければならないため、かなりの時間と費用がかかる。 これを踏まえて、最近の研究はゼロショットICLに焦点を移し、モデル固有の生成能力を活用して外部情報への依存を減らすことを目的としている。 これらのアプローチの有効性にもかかわらず、モデルによって生成されたコンテンツは信頼できない可能性があり、生成プロセスは時間がかかる。 これらの課題に対処するために,本モデルが予測した過去のサンプルをその後のサンプルの実証として用いたDAIL(Demonstration Augmentation for In-context Learning)を提案する。 DAILは追加の推論コストをもたらしず、モデルの生成能力に依存しない。 実験の結果,DAILは直接ゼロショット推論よりもモデルの性能を著しく向上させることができ,外部情報なしに数発のICLよりも優れることがわかった。

Large Language Models (LLMs) have demonstrated an impressive capability known as In-context Learning (ICL), which enables them to acquire knowledge from textual demonstrations without the need for parameter updates. However, many studies have highlighted that the model's performance is sensitive to the choice of demonstrations, presenting a significant challenge for practical applications where we lack prior knowledge of user queries. Consequently, we need to construct an extensive demonstration pool and incorporate external databases to assist the model, leading to considerable time and financial costs. In light of this, some recent research has shifted focus towards zero-shot ICL, aiming to reduce the model's reliance on external information by leveraging their inherent generative capabilities. Despite the effectiveness of these approaches, the content generated by the model may be unreliable, and the generation process is time-consuming. To address these issues, we propose Demonstration Augmentation for In-context Learning (DAIL), which employs the model's previously predicted historical samples as demonstrations for subsequent ones. DAIL brings no additional inference cost and does not rely on the model's generative capabilities. Our experiments reveal that DAIL can significantly improve the model's performance over direct zero-shot inference and can even outperform few-shot ICL without any external information.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# AGALE: グラフ対応連続学習評価フレームワーク

AGALE: A Graph-Aware Continual Learning Evaluation Framework ( http://arxiv.org/abs/2406.01229v1 )

ライセンス: Link先を確認
Tianqi Zhao. Alan Hanjalic. Megha Khosla, (参考訳) 近年、連続学習(CL)技術は、連続的なタスク、特にユークリッドデータの領域における知識を維持しながら、ストリーミングデータからの学習において大きな進歩を遂げている。 CL設定における公平な評価の促進と課題の認識を目的として,ユークリッドデータの単一・複数ラベル分類タスクを中心に,いくつかの評価フレームワークが提案されている。 しかし、これらの評価フレームワークは、グラフに固有のトポロジ構造を考慮しないため、入力データがグラフ構造である場合、簡単には適用できない。 既存の連続グラフ学習(CGL)評価フレームワークは、ノード分類(NC)タスクにおける単一ラベルシナリオに重点を置いている。 この焦点はマルチラベルシナリオの複雑さを見落としており、ノードは複数のラベルとのアフィリエイトを示し、同時に複数のタスクに参加することができる。 単一ラベルノードと複数ラベルノードの両方に対応可能なグラフ対応評価フレームワーク(\agale)を開発し,従来の評価フレームワークの限界に対処する。 特に、新たなインクリメンタル設定を定義し、CGLデータセットに適したデータパーティショニングアルゴリズムを考案する。 本研究では,連続学習,連続グラフ学習,動的グラフ学習(DGL)の各分野の手法の比較実験を行った。 理論的には \agale を解析し、比較手法の性能におけるホモフィリーの役割に関する新たな知見を提供する。 私たちはフレームワークをhttps://github.com/Tianqi-py/AGALEでリリースします。

In recent years, continual learning (CL) techniques have made significant progress in learning from streaming data while preserving knowledge across sequential tasks, particularly in the realm of euclidean data. To foster fair evaluation and recognize challenges in CL settings, several evaluation frameworks have been proposed, focusing mainly on the single- and multi-label classification task on euclidean data. However, these evaluation frameworks are not trivially applicable when the input data is graph-structured, as they do not consider the topological structure inherent in graphs. Existing continual graph learning (CGL) evaluation frameworks have predominantly focussed on single-label scenarios in the node classification (NC) task. This focus has overlooked the complexities of multi-label scenarios, where nodes may exhibit affiliations with multiple labels, simultaneously participating in multiple tasks. We develop a graph-aware evaluation (\agale) framework that accommodates both single-labeled and multi-labeled nodes, addressing the limitations of previous evaluation frameworks. In particular, we define new incremental settings and devise data partitioning algorithms tailored to CGL datasets. We perform extensive experiments comparing methods from the domains of continual learning, continual graph learning, and dynamic graph learning (DGL). We theoretically analyze \agale and provide new insights about the role of homophily in the performance of compared methods. We release our framework at https://github.com/Tianqi-py/AGALE.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# ${\cal PT}=対称無調波発振器の厳密な量子化条件と全透過構造

Exact quantization conditions and full transseries structures for ${\cal PT}$ symmetric anharmonic oscillators ( http://arxiv.org/abs/2406.01230v1 )

ライセンス: Link先を確認
Syo Kamata, (参考訳) V_{\cal PT}(x) = \omega^2 x^2 + g x^{2 K} (i x)^{\varepsilon}$ with $\omega \in {\mathbb R}_{\ge 0}$, $g \in {\mathbb R}_{>0}$ and $K, \varepsilon \in {\mathbb N}$である。 分析では、主に質量のない場合、すなわち$\omega = 0$を検討し、任意の$(K,\varepsilon)$に対する正確な量子化条件(QC)を導出する。 正確なQCから、エネルギースペクトルの逆エネルギー準位展開に関する全列構造を明らかにし、その後、グッツウィラートレース公式、スペクトル和形式、ユークリッドパス積分を定式化する。 大規模の場合、すなわち$\omega > 0$ に対して、正確な QC の解の存在を要求することによって、EWKB における解析的連続の経路は与えられた$N = 2K + \varepsilon$ に対して一意に決定され、したがって、正確な QC 、エネルギースペクトル、および3つの公式はすべて摂動的であるという事実を示す。 ヘルミタンのQMと復活の類似性も追加の発言として議論されている。

We study exact Wentzel-Kramers-Brillouin analysis (EWKB) for a ${\cal PT}$ symmetric quantum mechanics (QM) defined by the potential that $V_{\cal PT}(x) = \omega^2 x^2 + g x^{2 K} (i x)^{\varepsilon}$ with $\omega \in {\mathbb R}_{\ge 0}$, $g \in {\mathbb R}_{>0}$ and $K, \varepsilon \in {\mathbb N}$ to clarify its perturbative/non-perturbative structure. In our analysis, we mainly consider the massless cases, i.e., $\omega = 0$, and derive the exact quantization conditions (QCs) for arbitrary $(K,\varepsilon)$ including all perturbative/non-perturbative corrections. From the exact QCs, we clarify full transseries structure of the energy spectra with respect to the inverse energy level expansion, and then formulate the Gutzwiller trace formula, the spectral summation form, and the Euclidean path-integral. For the massive cases, i.e., $\omega > 0$, we show the fact that, by requiring existence of solution of the exact QCs, the path of analytic continuation in EWKB is uniquely determined for a given $N = 2K + \varepsilon$, and in consequence the exact QCs, the energy spectra, and the three formulas are all perturbative. Similarities to Hermitian QMs and resurgence are also discussed as additional remarks.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# 語彙的商品検索を改善する多語組込み

Multi-word Term Embeddings Improve Lexical Product Retrieval ( http://arxiv.org/abs/2406.01233v1 )

ライセンス: Link先を確認
Viktor Shcherbakov, Fedor Krasnov, (参考訳) 製品検索は、文書、インターネットリソース、または空白の検索とは異なるため、専門的な検索システムを開発する必要がある。 本研究は,eコマースプラットフォームにおける製品記述のオフラインインデックス化を目的としたH1埋め込みモデルについて述べる。 このモデルは、製品検索のための語彙的手法と意味的埋め込みに基づく手法の利点を取り入れたハイブリッド製品検索システムのフレームワーク内の他の最先端(SoTA)埋め込みモデルと比較される。 検索インデックスのための意味的にリッチな用語語彙を構築するためのアプローチを提案する。 他のプロダクションセマンティックモデルと比較すると、H1は複数の単語の製品用語を1つのトークンとして処理できるため、提案手法と組み合わせている。 例えば、検索クエリの"new balance shoes"や"gloria jeans children wear"というブランドエンティティは、"new balance"、"gloria jeans"という1つのトークンとして表現される。 これにより、リコールに影響を与えることなくシステムの精度が向上する。 提案したモデルを用いたハイブリッドサーチシステムは、mAP@12 = 56.1%、R@1k = 86.6%をWADSの公開データセットでスコアし、他のSoTAアナログを上回ります。

Product search is uniquely different from search for documents, Internet resources or vacancies, therefore it requires the development of specialized search systems. The present work describes the H1 embdedding model, designed for an offline term indexing of product descriptions at e-commerce platforms. The model is compared to other state-of-the-art (SoTA) embedding models within a framework of hybrid product search system that incorporates the advantages of lexical methods for product retrieval and semantic embedding-based methods. We propose an approach to building semantically rich term vocabularies for search indexes. Compared to other production semantic models, H1 paired with the proposed approach stands out due to its ability to process multi-word product terms as one token. As an example, for search queries "new balance shoes", "gloria jeans kids wear" brand entity will be represented as one token - "new balance", "gloria jeans". This results in an increased precision of the system without affecting the recall. The hybrid search system with proposed model scores mAP@12 = 56.1% and R@1k = 86.6% on the WANDS public dataset, beating other SoTA analogues.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# 平均リワードMDPにおけるトラクタブルミニマックス最適レグレットの実現

Achieving Tractable Minimax Optimal Regret in Average Reward MDPs ( http://arxiv.org/abs/2406.01234v1 )

ライセンス: Link先を確認
Victor Boone, Zihan Zhang, (参考訳) 近年, 平均回帰マルコフ決定過程(MDP)の学習に注目が集まっている。 しかし、既存のアルゴリズムは、過度な後悔の保証や計算の非効率に悩まされている。 本稿では、最小限の極小残差が$\widetilde{\mathrm{O}}(\sqrt{\mathrm{sp}(h^*) S A T})$, ここで、$\mathrm{sp}(h^*)$は最適バイアス関数$h^*$, $S \times A$は状態-作用空間のサイズであり、学習ステップの回数は$T$である。 注目すべきは、我々のアルゴリズムは$\mathrm{sp}(h^*)$に関する事前情報を必要としないことである。 我々のアルゴリズムは、バイアス制約された最適ポリシーを効率的に計算するために、新しいサブルーチンであるPMEVI(Projected Mitigated Extended Value Iteration)に依存している。 このサブルーチンは、様々な過去のアルゴリズムに適用して、後悔の限界を改善することができる。

In recent years, significant attention has been directed towards learning average-reward Markov Decision Processes (MDPs). However, existing algorithms either suffer from sub-optimal regret guarantees or computational inefficiencies. In this paper, we present the first tractable algorithm with minimax optimal regret of $\widetilde{\mathrm{O}}(\sqrt{\mathrm{sp}(h^*) S A T})$, where $\mathrm{sp}(h^*)$ is the span of the optimal bias function $h^*$, $S \times A$ is the size of the state-action space and $T$ the number of learning steps. Remarkably, our algorithm does not require prior information on $\mathrm{sp}(h^*)$. Our algorithm relies on a novel subroutine, Projected Mitigated Extended Value Iteration (PMEVI), to compute bias-constrained optimal policies efficiently. This subroutine can be applied to various previous algorithms to improve regret bounds.
翻訳日:2024-06-06 01:18:57 公開日:2024-06-03
# EffiQA:知識グラフに基づく戦略的多モデルコラボレーションによる効率的な質問応答

EffiQA: Efficient Question-Answering with Strategic Multi-Model Collaboration on Knowledge Graphs ( http://arxiv.org/abs/2406.01238v1 )

ライセンス: Link先を確認
Zixuan Dong, Baoyun Peng, Yufei Wang, Jia Fu, Xiaodong Wang, Yongxue Shan, Xin Zhou, (参考訳) 大規模言語モデル(LLM)は自然言語処理において顕著な能力を示してきたが、知識グラフ(KG)を含む複雑な多段階推論タスクに苦慮している。 LLMとKGを統合する既存のアプローチは、LLMの推論能力の不足や、密結合による計算コストの制限に悩まされている。 これらの制約に対処するため、反復的パラダイムを通じて性能と効率のバランスをとることができる、EffiQAという新しい協調フレームワークを提案する。 EffiQAは、グローバルプランニング、効率的なKG探査、自己回帰という3つの段階から構成される。 特に、EffiQAはLLMのコモンセンス能力を活用し、グローバルプランニングを通じて潜在的推論経路を探索する。 そして、効率的なKG探索のために、セマンティックプルーニングを小さなプラグインモデルにオフロードする。 最後に, 探査結果を自己回帰のためにLLMに供給し, グローバルプランニングと効率的なKG探査をさらに改善する。 複数のKBQAベンチマークに関する実証的な証拠は、EffiQAの有効性を示し、推論精度と計算コストの最適バランスを達成している。 我々は、LLMとKGの統合を再定義し、知識に基づく質問応答に関する今後の研究を促進することにより、より効率的で知識集約的なクエリの道を開くことを期待する。

While large language models (LLMs) have shown remarkable capabilities in natural language processing, they struggle with complex, multi-step reasoning tasks involving knowledge graphs (KGs). Existing approaches that integrate LLMs and KGs either underutilize the reasoning abilities of LLMs or suffer from prohibitive computational costs due to tight coupling. To address these limitations, we propose a novel collaborative framework named EffiQA that can strike a balance between performance and efficiency via an iterative paradigm. EffiQA consists of three stages: global planning, efficient KG exploration, and self-reflection. Specifically, EffiQA leverages the commonsense capability of LLMs to explore potential reasoning pathways through global planning. Then, it offloads semantic pruning to a small plug-in model for efficient KG exploration. Finally, the exploration results are fed to LLMs for self-reflection to further improve the global planning and efficient KG exploration. Empirical evidence on multiple KBQA benchmarks shows EffiQA's effectiveness, achieving an optimal balance between reasoning accuracy and computational costs. We hope the proposed new framework will pave the way for efficient, knowledge-intensive querying by redefining the integration of LLMs and KGs, fostering future research on knowledge-based question answering.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# 非線形スペクトルフィルタを用いたグラフ上の等変機械学習

Equivariant Machine Learning on Graphs with Nonlinear Spectral Filters ( http://arxiv.org/abs/2406.01249v1 )

ライセンス: Link先を確認
Ya-Wei Eileen Lin, Ronen Talmon, Ron Levie, (参考訳) 等変機械学習は、モデルの複雑さを減らし、一般化を改善することを目的として、問題の対称性を尊重するディープラーニングモデルを設計するためのアプローチである。 本稿では,画像上の畳み込みネットワークの基盤であるシフト均衡の一般グラフへの拡張に焦点をあてる。 画像とは異なり、グラフはドメイン翻訳という自然な概念を持っていない。 したがって、グラフ汎函数シフトを対称性群、すなわちグラフシフト作用素と可換なユニタリ作用素と考える。 特に、このような対称性は信号空間で直接空間でではなく、信号空間で機能する。 標準スペクトルグラフニューラルネットワーク(GNN)の各線形フィルタ層はグラフ関数シフトと可換であるが、活性化関数はこの対称性を破る。 代わりに、グラフ汎関数シフトに完全同値な非線形スペクトルフィルタ(NLSF)を提案し、それらが普遍近似特性を持つことを示す。 提案したNLSFは、グラフ間で転送可能な新しいスペクトル領域に基づいている。 ノードおよびグラフ分類ベンチマークにおいて、既存のスペクトルGNNよりもNLSFの方が優れた性能を示す。

Equivariant machine learning is an approach for designing deep learning models that respect the symmetries of the problem, with the aim of reducing model complexity and improving generalization. In this paper, we focus on an extension of shift equivariance, which is the basis of convolution networks on images, to general graphs. Unlike images, graphs do not have a natural notion of domain translation. Therefore, we consider the graph functional shifts as the symmetry group: the unitary operators that commute with the graph shift operator. Notably, such symmetries operate in the signal space rather than directly in the spatial space. We remark that each linear filter layer of a standard spectral graph neural network (GNN) commutes with graph functional shifts, but the activation function breaks this symmetry. Instead, we propose nonlinear spectral filters (NLSFs) that are fully equivariant to graph functional shifts and show that they have universal approximation properties. The proposed NLSFs are based on a new form of spectral domain that is transferable between graphs. We demonstrate the superior performance of NLSFs over existing spectral GNNs in node and graph classification benchmarks.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# DumpKV:LSM木におけるキーバリュー分離のための学習型生涯意識型ガベージコレクション

DumpKV: Learning based lifetime aware garbage collection for key value separation in LSM-tree ( http://arxiv.org/abs/2406.01250v1 )

ライセンス: Link先を確認
Zhutao Zhuang, Xinqi Zeng, Zhiguang Chen, (参考訳) キー\-値分離は、書き込み増幅を減らすために別々のログファイルに大きな値を格納するためにLSM\-treeで使用されるが、ガベージコレクションは無効な値をガベージコレクションするために必要である。 LSM\-treeの既存のガベージコレクション技術は、通常、ガベージコレクションに静的パラメータベースのガベージコレクションを採用する。 DumpKVは、動的ライフタイム調整による学習に基づくライフタイムアウェアメントガベージコレクションを導入し、効率の良いガベージコレクションを実現し、ライトアンプリフィケーションを低くする。 DumpKVは、キーの過去の書き込みアクセス情報に基づいて、さまざまなアプリケーションに適した機能を備えたトレーニングされた軽量モデルを使用して大きな値を管理し、各キーの寿命予測を行い、効率的なガベージコレクションを実現する。 書き込みスループットに対する干渉を低減するため、DumpKVは、L0\-L1コンパクト化時に、LSM\-treeがKV分離下で小さいという事実を活用して特徴収集を行う。 実験結果から,DumpKVは従来のキー値分離ガベージコレクション LSM\-tree ストアと比較して,書き込み増幅率を 38 %\-73 % 低下させることがわかった。

Key\-value separation is used in LSM\-tree to stored large value in separate log files to reduce write amplification, but requires garbage collection to garbage collect invalid values. Existing garbage collection techniques in LSM\-tree typically adopt static parameter based garbage collection to garbage collect obsolete values which struggles to achieve low write amplification and it's challenging to find proper parameter for garbage collection triggering. In this work we introduce DumpKV, which introduces learning based lifetime aware garbage collection with dynamic lifetime adjustment to do efficient garbage collection to achieve lower write amplification. DumpKV manages large values using trained lightweight model with features suitable for various application based on past write access information of keys to give lifetime prediction for each individual key to enable efficient garbage collection. To reduce interference to write throughput DumpKV conducts feature collection during L0\-L1 compaction leveraging the fact that LSM\-tree is small under KV separation. Experimental results show that DumpKV achieves lower write amplification by 38\%\-73\% compared to existing key\-value separation garbage collection LSM\-tree stores with small feature storage overhead.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# LLMのスケーラブルな自動アライメントに向けた調査

Towards Scalable Automated Alignment of LLMs: A Survey ( http://arxiv.org/abs/2406.01252v1 )

ライセンス: Link先を確認
Boxi Cao, Keming Lu, Xinyu Lu, Jiawei Chen, Mengjie Ren, Hao Xiang, Peilin Liu, Yaojie Lu, Ben He, Xianpei Han, Le Sun, Hongyu Lin, Bowen Yu, (参考訳) アライメントは、人間のニーズを満たす大規模言語モデル(LLM)を構築する上で最も重要なステップである。 LLMの急速な開発が徐々に人間の能力を超えていく中、人間のアノテーションに基づく従来のアライメント手法は、スケーラビリティの要求を満たすことができなくなっている。 そのため、自動アライメント信号と技術的アプローチの新たな源を探究する必要がある。 本稿では,最近の自動化アライメントの手法を体系的に検討し,LLMの能力が人間の能力を超えれば,効果的でスケーラブルで自動化アライメントを実現する方法について検討する。 具体的には、既存の自動アライメント手法をアライメント信号の源泉に基づく4つの主要なカテゴリに分類し、各カテゴリの現状と潜在的な発展について論じる。 さらに、自動アライメントを可能にするメカニズムについて検討し、アライメントの基本的役割から自動化アライメント技術を実現可能かつ効果的にするための重要な要因について議論する。

Alignment is the most critical step in building large language models (LLMs) that meet human needs. With the rapid development of LLMs gradually surpassing human capabilities, traditional alignment methods based on human-annotation are increasingly unable to meet the scalability demands. Therefore, there is an urgent need to explore new sources of automated alignment signals and technical approaches. In this paper, we systematically review the recently emerging methods of automated alignment, attempting to explore how to achieve effective, scalable, automated alignment once the capabilities of LLMs exceed those of humans. Specifically, we categorize existing automated alignment methods into 4 major categories based on the sources of alignment signals and discuss the current status and potential development of each category. Additionally, we explore the underlying mechanisms that enable automated alignment and discuss the essential factors that make automated alignment technologies feasible and effective from the fundamental role of alignment.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# animal2vecとMeerKAT: 希少な生オーディオ入力のための自己教師型トランスフォーマーとバイオ音響学のための大規模参照データセット

animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics ( http://arxiv.org/abs/2406.01253v1 )

ライセンス: Link先を確認
Julian C. Schäfer-Zimmermann, Vlad Demartsev, Baptiste Averly, Kiran Dhanjal-Adams, Mathieu Duteil, Gabriella Gall, Marius Faiß, Lily Johnson-Ulrich, Dan Stowell, Marta B. Manser, Marie A. Roch, Ariana Strandburg-Peshkin, (参考訳) 生物音響学的研究は、動物の行動、生態、保存に関する貴重な洞察を提供する。 ほとんどのバイオ音響データセットは、声化のような興味のある出来事が極めて稀な長い記録で構成されている。 これらのデータセットを分析することは、研究者にとって重要な課題であり、ディープラーニング技術が標準的手法として登場した。 彼らの適応は依然として困難であり、コンピュータビジョンのために考案されたモデルに焦点を合わせ、そこではオーディオ波形を訓練と推論のための分光表現にエンジニアリングする。 本稿では,生物音響学における深層学習の現状を2つの方法で改善する。まず,スパースおよびアンバランスな生体音響データに適した,完全に解釈可能なトランスフォーマーモデルと自己教師型トレーニングスキームであるAnimal2vecフレームワークを提示する。 第二に、MeerKAT: Meerkat Kalahari Audio Transcriptsは、1068h以上の長さのメエルカット上に展開されたバイオログによって収集されたオーディオを含む大規模データセットである。 さらに NIPS4Bplus Birdong データセットに対して animal2vec をベンチマークした。 両データセットの最新の結果について報告し,ラベル付きトレーニングデータのAnimal2vecの少数ショット機能の評価を行った。 最後に,人間の生成音に対するバニラ変圧器ベースラインとアーキテクチャの違いを明らかにするためのアブレーション研究を行った。 animal2vecは 大量の バイオ音響データを分類できる さらに、MeerKATデータセットは、プリトレイン/ファイントゥンパラダイムでバイオ音響モデルのベンチマークを行うための最初の大規模ミリ秒分解能コーパスである。 これはバイオ音響学の新しい基準点の舞台となると信じている。

Bioacoustic research provides invaluable insights into the behavior, ecology, and conservation of animals. Most bioacoustic datasets consist of long recordings where events of interest, such as vocalizations, are exceedingly rare. Analyzing these datasets poses a monumental challenge to researchers, where deep learning techniques have emerged as a standard method. Their adaptation remains challenging, focusing on models conceived for computer vision, where the audio waveforms are engineered into spectrographic representations for training and inference. We improve the current state of deep learning in bioacoustics in two ways: First, we present the animal2vec framework: a fully interpretable transformer model and self-supervised training scheme tailored for sparse and unbalanced bioacoustic data. Second, we openly publish MeerKAT: Meerkat Kalahari Audio Transcripts, a large-scale dataset containing audio collected via biologgers deployed on free-ranging meerkats with a length of over 1068h, of which 184h have twelve time-resolved vocalization-type classes, each with ms-resolution, making it the largest publicly-available labeled dataset on terrestrial mammals. Further, we benchmark animal2vec against the NIPS4Bplus birdsong dataset. We report new state-of-the-art results on both datasets and evaluate the few-shot capabilities of animal2vec of labeled training data. Finally, we perform ablation studies to highlight the differences between our architecture and a vanilla transformer baseline for human-produced sounds. animal2vec allows researchers to classify massive amounts of sparse bioacoustic data even with little ground truth information available. In addition, the MeerKAT dataset is the first large-scale, millisecond-resolution corpus for benchmarking bioacoustic models in the pretrain/finetune paradigm. We believe this sets the stage for a new reference point for bioacoustics.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# 層正規化の非線形性について

On the Nonlinearity of Layer Normalization ( http://arxiv.org/abs/2406.01255v1 )

ライセンス: Link先を確認
Yunhao Ni, Yuxin Guo, Junlong Jia, Lei Huang, (参考訳) 層正規化 (Layer normalization, LN) はディープラーニングにおけるユビキタスな手法であるが, 我々の理論的理解はいまだ解明されていない。 本稿では,LNの非線形性と表現能力に関する新たな理論的方向性について検討する。 本稿では,LN-Netと呼ばれる線形およびLN変換を階層的に構成したネットワークの表現能力について検討する。 理論的には、ラベル割り当てのある$m$サンプルが与えられた場合、各層に3つのニューロンしか持たないLN-Netと$O(m)$LN層がそれらを正しく分類できることが示される。 さらに、LN-NetのVC次元の低い境界を示す。 LNの非線形性は群分割によって増幅することができ、これは理論上は軽微な仮定で示され、実験によって実証的に支持される。 本研究は,LNの非線形性を利用してニューラルアーキテクチャを設計し,その有効性を実証することを目的としている。

Layer normalization (LN) is a ubiquitous technique in deep learning but our theoretical understanding to it remains elusive. This paper investigates a new theoretical direction for LN, regarding to its nonlinearity and representation capacity. We investigate the representation capacity of a network with layerwise composition of linear and LN transformations, referred to as LN-Net. We theoretically show that, given $m$ samples with any label assignment, an LN-Net with only 3 neurons in each layer and $O(m)$ LN layers can correctly classify them. We further show the lower bound of the VC dimension of an LN-Net. The nonlinearity of LN can be amplified by group partition, which is also theoretically demonstrated with mild assumption and empirically supported by our experiments. Based on our analyses, we consider to design neural architecture by exploiting and amplifying the nonlinearity of LN, and the effectiveness is supported by our experiments.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# リモートオブジェクトグラウンドニングのための強化コモンセンス知識

Augmented Commonsense Knowledge for Remote Object Grounding ( http://arxiv.org/abs/2406.01256v1 )

ライセンス: Link先を確認
Bahram Mohammadi, Yicong Hong, Yuankai Qi, Qi Wu, Shirui Pan, Javen Qinfeng Shi, (参考訳) ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクは、エージェントが周囲を知覚し、自然言語の指示に従い、写真に写らない環境で行動するために必要となる。 既存のメソッドのほとんどは、ナビゲート可能な視点を表すために、画像またはオブジェクトのすべての特徴を使用している。 しかし、これらの表現は適切な行動予測には不十分であり、特に「主寝室に青いクッションをくれ」といった簡潔な指示を使うREVERIEタスクでは不十分である。 エージェントナビゲーションを改善するための時空間知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。 具体的には,ConceptNetからコモンセンス情報を検索して知識ベースを構築するとともに,ノイズや無関係な知識を除去するための改良モジュールを構築する。 さらに、視覚的表現と視覚的テキストデータアライメントを強化するための知識グラフ対応クロスモーダルおよび概念集約モジュールからなるACKについて、オブジェクトと知識の時間情報を含む可視的オブジェクト、常識的知識、概念史を統合する。 さらに,コモンセンスに基づく意思決定プロセスに新たなパイプラインを追加し,より正確な局所行動予測を実現する。 実験結果は,提案モデルがベースラインを著しく上回り,REVERIEベンチマークで最先端のデータをアーカイブすることを示す。

The vision-and-language navigation (VLN) task necessitates an agent to perceive the surroundings, follow natural language instructions, and act in photo-realistic unseen environments. Most of the existing methods employ the entire image or object features to represent navigable viewpoints. However, these representations are insufficient for proper action prediction, especially for the REVERIE task, which uses concise high-level instructions, such as ''Bring me the blue cushion in the master bedroom''. To address enhancing representation, we propose an augmented commonsense knowledge model (ACK) to leverage commonsense information as a spatio-temporal knowledge graph for improving agent navigation. Specifically, the proposed approach involves constructing a knowledge base by retrieving commonsense information from ConceptNet, followed by a refinement module to remove noisy and irrelevant knowledge. We further present ACK which consists of knowledge graph-aware cross-modal and concept aggregation modules to enhance visual representation and visual-textual data alignment by integrating visible objects, commonsense knowledge, and concept history, which includes object and knowledge temporal information. Moreover, we add a new pipeline for the commonsense-based decision-making process which leads to more accurate local action prediction. Experimental results demonstrate our proposed model noticeably outperforms the baseline and archives the state-of-the-art on the REVERIE benchmark.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# アンラーニングの難しさとそれについて何をすべきか

What makes unlearning hard and what to do about it ( http://arxiv.org/abs/2406.01257v1 )

ライセンス: Link先を確認
Kairan Zhao, Meghdad Kurmanji, George-Octavian Bărbulescu, Eleni Triantafillou, Peter Triantafillou, (参考訳) 機械学習は、トレーニングされたモデルからトレーニングデータのサブセット('forget set'')の影響を取り除く問題であり、モデルのユーティリティegを損なうことなく、ユーザのデータ削除要求に応じたり、不正なラベル付き、有毒、その他の問題のあるデータを削除したりする。 未学習の研究はまだ初期段階であり、多くの基本的なオープンな疑問が存在する: 問題の難しさに大きく影響する、忘れられた集合の解釈可能な特性は存在するか? これらの特徴は、異なる最先端アルゴリズムにどのように影響しますか? 本稿では,これらの疑問に答えることを目的とした最初の調査について述べる。 未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす2つの要因を同定する。 これらの識別された要因を分離する左折集合の評価は、ランダムな左折集合を具現化しない最先端アルゴリズムの既知動作を明らかにする。 我々の洞察に基づき、我々はRefined-Unlearning Meta-algorithm(RUM)というフレームワークを開発した。 一 異なる特徴により、左折集合を同質化された部分集合に精製すること。 (ii) 既存のアルゴリズムを用いて各サブセットを解放し、最終的に全体の左折集合を解放したモデルを提供するメタアルゴリズム。 RUMは、トップパフォーマンスの未学習アルゴリズムを大幅に改善する。 全体として、私たちの仕事は重要なステップだと考えています。 一 未学習の科学的理解を深めること (II)最先端化に向けた新たな道筋を明らかにすること。

Machine unlearning is the problem of removing the effect of a subset of training data (the ''forget set'') from a trained model without damaging the model's utility e.g. to comply with users' requests to delete their data, or remove mislabeled, poisoned or otherwise problematic data. With unlearning research still being at its infancy, many fundamental open questions exist: Are there interpretable characteristics of forget sets that substantially affect the difficulty of the problem? How do these characteristics affect different state-of-the-art algorithms? With this paper, we present the first investigation aiming to answer these questions. We identify two key factors affecting unlearning difficulty and the performance of unlearning algorithms. Evaluation on forget sets that isolate these identified factors reveals previously-unknown behaviours of state-of-the-art algorithms that don't materialize on random forget sets. Based on our insights, we develop a framework coined Refined-Unlearning Meta-algorithm (RUM) that encompasses: (i) refining the forget set into homogenized subsets, according to different characteristics; and (ii) a meta-algorithm that employs existing algorithms to unlearn each subset and finally delivers a model that has unlearned the overall forget set. We find that RUM substantially improves top-performing unlearning algorithms. Overall, we view our work as an important step in (i) deepening our scientific understanding of unlearning and (ii) revealing new pathways to improving the state-of-the-art.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# SCALLER: 標準セル集合と局所レイアウト効果に基づくリングオシレータ

SCALLER: Standard Cell Assembled and Local Layout Effect-based Ring Oscillators ( http://arxiv.org/abs/2406.01258v1 )

ライセンス: Link先を確認
Muayad J. Aljafar, Zain Ul Abideen, Adriaan Peetermans, Benedikt Gierlichs, Samuel Pagliarini, (参考訳) 本稿では,リングオシレータ(ROs)の周波数の微調整を可能にする手法を提案する。 可変素子の数が異なる複数のROは65nmのCMOS技術で設計・製造された。 調整可能な要素は、異なるローカルレイアウト効果(LLE)の下で2つのインバータと多重化器から構成される。 LLEはインバータの過渡応答に決定論的に影響を与え、大きなプロセス変動があっても微調整可能な機構を確立できる。 RO全体はデジタルであり、レイアウトは標準セル互換である。 80-900MHz帯の発振周波数測定と90KHz帯のチューニングステップによる多段ROのチューニング性を示す。

This letter presents a technique that enables very fine tunability of the frequency of Ring Oscillators (ROs). Multiple ROs with different numbers of tunable elements were designed and fabricated in a 65nm CMOS technology. A tunable element consists of two inverters under different local layout effects (LLEs) and a multiplexer. LLEs impact the transient response of inverters deterministically and allow to establish a fine tunable mechanism even in the presence of large process variation. The entire RO is digital and its layout is standard-cell compatible. We demonstrate the tunability of multi-stage ROs with post-silicon measurements of oscillation frequencies in the range of 80-900MHz and tuning steps of 90KHz
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# FreeTumor: 大規模腫瘍合成による進行腫瘍分離

FreeTumor: Advance Tumor Segmentation via Large-Scale Tumor Synthesis ( http://arxiv.org/abs/2406.01264v1 )

ライセンス: Link先を確認
Linshan Wu, Jiaxin Zhuang, Xuefeng Ni, Hao Chen, (参考訳) AIによる腫瘍分析は、医療の注目を集めている。 しかし、その進歩は、放射線学者が収集とアノテーションに多くの労力を費やす必要がある注釈付き腫瘍の欠如によって著しく妨げられている。 本稿では, アノテーションのない合成腫瘍と, 腫瘍に罹患した患者を自由にしたいという願望を指すFreeTumorという, 堅牢な腫瘍合成とセグメンテーションのための, 極めて実用的なソリューションについて紹介する。 高度な技術合成モジュールを追求する代わりに、我々は大規模データのパワーを解き放つために、単純で効果的な腫瘍合成パラダイムを設計することを目指している。 特に,FreeTumorは,既存の手法を主に3つの側面から進めている。(1)既存の手法は,異なるソースからの未確認データに対して,十分に一般化する能力を制限した,小規模なラベル付きデータのみを合成訓練に活用する。 そこで本研究では, 大規模かつ多種多様な未標識データを合成訓練に活用し, 腫瘍合成を著しく改善する逆行訓練戦略を提案する。 2) 既存の方法は, セグメンテーション訓練における低品質合成腫瘍の負の影響を無視するものであった。 そこで我々は,低品質な合成腫瘍を自動的に除去し,その悪影響を効果的に軽減するために,対向型判別器を用いた。 既存の方法では腫瘍の分節に数百の症例しか使われなかった。 FreeTumorでは,腫瘍セグメント化におけるデータスケーリングの法則について,データセットを1万1千件までスケールアップすることで検討する。 大規模な実験では、3つの腫瘍セグメンテーションベンチマークにおけるFreeTumorの優位性、実際の腫瘍のみを使用するベースラインに対する平均$+8.9\%、最先端の腫瘍合成法に対する$+6.6\%のDSCが示されている。 コードは利用可能です。

AI-driven tumor analysis has garnered increasing attention in healthcare. However, its progress is significantly hindered by the lack of annotated tumor cases, which requires radiologists to invest a lot of effort in collecting and annotation. In this paper, we introduce a highly practical solution for robust tumor synthesis and segmentation, termed FreeTumor, which refers to annotation-free synthetic tumors and our desire to free patients that suffering from tumors. Instead of pursuing sophisticated technical synthesis modules, we aim to design a simple yet effective tumor synthesis paradigm to unleash the power of large-scale data. Specifically, FreeTumor advances existing methods mainly from three aspects: (1) Existing methods only leverage small-scale labeled data for synthesis training, which limits their ability to generalize well on unseen data from different sources. To this end, we introduce the adversarial training strategy to leverage large-scale and diversified unlabeled data in synthesis training, significantly improving tumor synthesis. (2) Existing methods largely ignored the negative impact of low-quality synthetic tumors in segmentation training. Thus, we employ an adversarial-based discriminator to automatically filter out the low-quality synthetic tumors, which effectively alleviates their negative impact. (3) Existing methods only used hundreds of cases in tumor segmentation. In FreeTumor, we investigate the data scaling law in tumor segmentation by scaling up the dataset to 11k cases. Extensive experiments demonstrate the superiority of FreeTumor, e.g., on three tumor segmentation benchmarks, average $+8.9\%$ DSC over the baseline that only using real tumors and $+6.6\%$ DSC over the state-of-the-art tumor synthesis method. Code will be available.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# グラッドCAM期待:勾配忠実化に向けて

Expected Grad-CAM: Towards gradient faithfulness ( http://arxiv.org/abs/2406.01274v1 )

ライセンス: Link先を確認
Vincenzo Buono, Peyman Sheikholharam Mashhadi, Mahmoud Rahat, Prayag Tiwari, Stefan Byttner, (参考訳) インプット・グラディエント・テクニックは勾配に関する課題を緩和し対処するために進化してきたが、現代の勾配重み付けCAMアプローチは、飽和現象に本質的に影響を受けやすいバニラ勾配に依存している。 近年の強化は、緩和策として反ファクト的勾配戦略を取り入れているが、これらの局所的な説明手法は、その基準パラメータに対する感度の欠如をまだ示している。 本研究は,勾配計算を再構成することで,飽和度と感度の両問題に対処する勾配重み付きCAM拡張法を提案する。 元の定式化を摂動積分勾配の滑らかな期待として再考することにより、不完全性を最小化するより忠実で局所的で堅牢な説明を同時に構築することができる。 摂動分布の微調整により、説明の複雑さ特性を制御し、安定な特徴を選択的に識別することができる。 近年のGrad-CAMとは違って,本手法は,基礎的なGrad-CAMアルゴリズムの代替として設計された勾配計算を最適化する。 本手法の有効性を評価するため, 定量的, 質的な評価を行った。

Although input-gradients techniques have evolved to mitigate and tackle the challenges associated with gradients, modern gradient-weighted CAM approaches still rely on vanilla gradients, which are inherently susceptible to the saturation phenomena. Despite recent enhancements have incorporated counterfactual gradient strategies as a mitigating measure, these local explanation techniques still exhibit a lack of sensitivity to their baseline parameter. Our work proposes a gradient-weighted CAM augmentation that tackles both the saturation and sensitivity problem by reshaping the gradient computation, incorporating two well-established and provably approaches: Expected Gradients and kernel smoothing. By revisiting the original formulation as the smoothed expectation of the perturbed integrated gradients, one can concurrently construct more faithful, localized and robust explanations which minimize infidelity. Through fine modulation of the perturbation distribution it is possible to regulate the complexity characteristic of the explanation, selectively discriminating stable features. Our technique, Expected Grad-CAM, differently from recent works, exclusively optimizes the gradient computation, purposefully designed as an enhanced substitute of the foundational Grad-CAM algorithm and any method built therefrom. Quantitative and qualitative evaluations have been conducted to assess the effectiveness of our method.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# 未知の因子を持つリフティング係数グラフ

Lifting Factor Graphs with Some Unknown Factors ( http://arxiv.org/abs/2406.01275v1 )

ライセンス: Link先を確認
Malte Luttermann, Ralf Möller, Marcel Gehrke, (参考訳) リフティングは確率的グラフィカルモデルにおいて、識別不能なオブジェクトの代用体を用いて対称性を利用しており、正確な答えを維持しながらより効率的にクエリ応答を実行することができる。 本稿では,ポテンシャルが不明な因子を含む因子グラフに対して,昇降法によって確率的推論を行う方法について検討する。 本稿では,未知の因子を含む因子グラフの対称部分グラフを同定するLIFAGU (Lifting Factor Graphs with Some Unknown Factors) アルゴリズムを提案する。

Lifting exploits symmetries in probabilistic graphical models by using a representative for indistinguishable objects, allowing to carry out query answering more efficiently while maintaining exact answers. In this paper, we investigate how lifting enables us to perform probabilistic inference for factor graphs containing factors whose potentials are unknown. We introduce the Lifting Factor Graphs with Some Unknown Factors (LIFAGU) algorithm to identify symmetric subgraphs in a factor graph containing unknown factors, thereby enabling the transfer of known potentials to unknown potentials to ensure a well-defined semantics and allow for (lifted) probabilistic inference.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# fruit-SALAD:画像埋め込みにおける類似性知覚を明らかにするスタイルアラインアートワークデータセット

fruit-SALAD: A Style Aligned Artwork Dataset to reveal similarity perception in image embeddings ( http://arxiv.org/abs/2406.01278v1 )

ライセンス: Link先を確認
Tillmann Ohm, Andres Karjus, Mikhail Tamm, Maximilian Schich, (参考訳) 視覚的類似性の概念は、コンピュータビジョン、および画像のベクトル埋め込みに関する応用と研究に不可欠である。 しかしながら、ベンチマークデータセットの不足は、これらのモデルが類似性をどう認識するかを調査する上で、大きなハードルとなっている。 ここではSALAD(Style Aligned Artwork Datasets)を紹介する。 このセマンティックなカテゴリとスタイルのベンチマークは、10の区別容易なスタイルに対して、10の認識容易なフルーツカテゴリのそれぞれ100のインスタンスで構成されている。 生成画像合成の体系的なパイプラインを活用することで、この視覚的に多様だがバランスの取れたベンチマークは、機械学習モデル、特徴抽出アルゴリズム、複雑性測定、参照の概念モデルなど、さまざまな計算モデルにおけるセマンティックなカテゴリとスタイルの類似性重みの顕著な相違を示す。 この綿密に設計されたデータセットは、類似性知覚の比較分析のための制御されバランスの取れたプラットフォームを提供する。 SALADフレームワークは、これらのモデルがどのようにセマンティックなカテゴリとスタイル認識タスクを実行するかを比較して、逸話的知識のレベルを超え、堅牢な定量化と質的な解釈を可能にする。

The notion of visual similarity is essential for computer vision, and in applications and studies revolving around vector embeddings of images. However, the scarcity of benchmark datasets poses a significant hurdle in exploring how these models perceive similarity. Here we introduce Style Aligned Artwork Datasets (SALADs), and an example of fruit-SALAD with 10,000 images of fruit depictions. This combined semantic category and style benchmark comprises 100 instances each of 10 easy-to-recognize fruit categories, across 10 easy distinguishable styles. Leveraging a systematic pipeline of generative image synthesis, this visually diverse yet balanced benchmark demonstrates salient differences in semantic category and style similarity weights across various computational models, including machine learning models, feature extraction algorithms, and complexity measures, as well as conceptual models for reference. This meticulously designed dataset offers a controlled and balanced platform for the comparative analysis of similarity perception. The SALAD framework allows the comparison of how these models perform semantic category and style recognition task to go beyond the level of anecdotal knowledge, making it robustly quantifiable and qualitatively interpretable.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# 双曲型ニューラルPDEによる連続幾何学的グラフ拡散

Continuous Geometry-Aware Graph Diffusion via Hyperbolic Neural PDE ( http://arxiv.org/abs/2406.01282v1 )

ライセンス: Link先を確認
Jiaxu Liu, Xinping Yi, Sihao Wu, Xiangyu Yin, Tianle Zhang, Xiaowei Huang, Jin Shi, (参考訳) Hyperbolic Graph Neural Network (HGNN)は最近、階層グラフデータを扱う強力なツールとして登場したが、スケーラビリティと効率性の限界により、より深いモデルへの一般化が妨げられている。 本稿では,HGNNを分割し,情報伝達を偏微分方程式として再構成することにより,ハイパーボリック・ニューラルPDE(HPDE)における拡散度の役割をノードの注意に委ねる。 HPDE積分のための非ユークリッド多様体上での場と流れ、勾配、発散、および拡散率の理論的原理を導入することにより、数値HPDE解法を定式化するための暗黙的および明示的な離散化スキームを議論する。 さらに,ハイパーボリックグラフ拡散方程式 (HGDE) を提案する。 埋め込みのポテンシャルエネルギー減衰を解析することにより、HGDEは局所的な拡散関数の利点により、低次および高次近接の両方をモデル化できることを示した。 ノード分類およびリンク予測および画像テキスト分類タスクの実験は、提案手法の優位性を検証する。

While Hyperbolic Graph Neural Network (HGNN) has recently emerged as a powerful tool dealing with hierarchical graph data, the limitations of scalability and efficiency hinder itself from generalizing to deep models. In this paper, by envisioning depth as a continuous-time embedding evolution, we decouple the HGNN and reframe the information propagation as a partial differential equation, letting node-wise attention undertake the role of diffusivity within the Hyperbolic Neural PDE (HPDE). By introducing theoretical principles \textit{e.g.,} field and flow, gradient, divergence, and diffusivity on a non-Euclidean manifold for HPDE integration, we discuss both implicit and explicit discretization schemes to formulate numerical HPDE solvers. Further, we propose the Hyperbolic Graph Diffusion Equation (HGDE) -- a flexible vector flow function that can be integrated to obtain expressive hyperbolic node embeddings. By analyzing potential energy decay of embeddings, we demonstrate that HGDE is capable of modeling both low- and high-order proximity with the benefit of local-global diffusivity functions. Experiments on node classification and link prediction and image-text classification tasks verify the superiority of the proposed method, which consistently outperforms various competitive models by a significant margin.
翻訳日:2024-06-06 01:09:07 公開日:2024-06-03
# コアに焦点をあてる: 文書分類のためのPruned Token Compressionによる効率的な注意力

Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification ( http://arxiv.org/abs/2406.01283v1 )

ライセンス: Link先を確認
Jungmin Yun, Mihyeon Kim, Youngbin Kim, (参考訳) トランスフォーマーベースのモデルは、多くのNLPタスクにおいて、主要なパフォーマンスを実現している。 彼らの顕著な成功にもかかわらず、BERTのような事前訓練されたトランスフォーマーは、分類性能に好ましくないものを含む全てのトークンと相互作用する計算的に高価な自己保持機構に悩まされている。 これらの課題を克服するために、トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。 トケンプルーニングは、アテンションメカニズムのキーと値において、レイヤを通過するときに重要でないトークンを排除します。 さらに,不確実性に対処するファジィ論理を採用し,各トークンの重要度の不均衡分布から生じる潜在的な誤計算リスクを軽減する。 一方、入力シーケンスをより小さなサイズに縮合させ、モデルをさらに圧縮する。 これら2つのアプローチを統合することで、モデルの性能を向上するだけでなく、計算要求を減らすことができる。 様々なデータセットを用いた実験は、ベースラインモデルよりも優れた性能を示し、特に既存のBERTモデルよりも優れた改善をしており、精度は+5%p、F1スコアは+5.6%である。 さらに、メモリコストを0.61倍に削減し、1.64倍のスピードアップを実現する。

Transformer-based models have achieved dominant performance in numerous NLP tasks. Despite their remarkable successes, pre-trained transformers such as BERT suffer from a computationally expensive self-attention mechanism that interacts with all tokens, including the ones unfavorable to classification performance. To overcome these challenges, we propose integrating two strategies: token pruning and token combining. Token pruning eliminates less important tokens in the attention mechanism's key and value as they pass through the layers. Additionally, we adopt fuzzy logic to handle uncertainty and alleviate potential mispruning risks arising from an imbalanced distribution of each token's importance. Token combining, on the other hand, condenses input sequences into smaller sizes in order to further compress the model. By integrating these two approaches, we not only improve the model's performance but also reduce its computational demands. Experiments with various datasets demonstrate superior performance compared to baseline models, especially with the best improvement over the existing BERT model, achieving +5%p in accuracy and +5.6%p in F1 score. Additionally, memory cost is reduced to 0.61x, and a speedup of 1.64x is achieved.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# Recommender システムとしての大規模言語モデル:大衆バイアスの研究

Large Language Models as Recommender Systems: A Study of Popularity Bias ( http://arxiv.org/abs/2406.01285v1 )

ライセンス: Link先を確認
Jan Malte Lichtenberg, Alexander Buchholz, Pola Schwöbel, (参考訳) 人気アイテムが不均等に推奨され、人気度が低かったり、関連性の高いアイテムを誇張するという人気バイアスの問題は、レコメンデーターシステムにおいて大きな課題となっている。 近年,汎用大規模言語モデル (LLM) のアーキテクチャへの統合が進んでいる。 この統合は、LLMのトレーニングデータが人気のあるアイテムに支配されている可能性が高いことを考えると、人気バイアスを悪化させる可能性があるという懸念を提起する。 しかし、即時チューニングによってバイアスに対処する新たな機会を同時に提示する。 本研究は,LLMがレコメンデーションシステムにおける人気バイアスに寄与するか,緩和するかを,この二分法について検討する。 既存のメトリクスについて議論し、一連のデシラタを満たす新しいメトリクスを提案することによって、人気バイアスを測定するための原則的手法を導入する。 新しい基準に基づいて,映画推薦作業における従来のレコメンデータシステムと,シンプルなLLMベースのレコメンデータを比較した。 LLMレコメンデータは, 明示的な緩和を伴わずとも, 人気バイアスが低いことが判明した。

The issue of popularity bias -- where popular items are disproportionately recommended, overshadowing less popular but potentially relevant items -- remains a significant challenge in recommender systems. Recent advancements have seen the integration of general-purpose Large Language Models (LLMs) into the architecture of such systems. This integration raises concerns that it might exacerbate popularity bias, given that the LLM's training data is likely dominated by popular items. However, it simultaneously presents a novel opportunity to address the bias via prompt tuning. Our study explores this dichotomy, examining whether LLMs contribute to or can alleviate popularity bias in recommender systems. We introduce a principled way to measure popularity bias by discussing existing metrics and proposing a novel metric that fulfills a series of desiderata. Based on our new metric, we compare a simple LLM-based recommender to traditional recommender systems on a movie recommendation task. We find that the LLM recommender exhibits less popularity bias, even without any explicit mitigation.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# 改良されたFew-Shot Jailbreakは、言語モデルとその防御を回避できる

Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses ( http://arxiv.org/abs/2406.01288v1 )

ライセンス: Link先を確認
Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin, (参考訳) 最近、Anil et al (2024) は、多数のデモ(最大数百のデモ)が、その長いコンテキスト能力を利用して最先端のLLMをジェイルブレイクできることを示した。 それでも、限られたコンテキストサイズでLLMを効率的にジェイルブレイクするために、数発のデモを使用することは可能ですか? バニラ数発のジェイルブレイクは効率が悪いかもしれないが、我々は[/INST]のような特別なシステムトークンを注入したり、収集されたデモプールからデモレベルのランダム検索を採用するなど、改良された手法を提案する。 これらの単純な技術は、(高度な防御でも)整列したLDMに対して驚くほど効果的なジェイルブレイクをもたらす。 例えば, Llama-2-7B と Llama-3-8B の ASR は, パープレキシティ検出や SmoothLLM などの強力な防御力によって強化されたとしても, 再起動を伴わない 80% 以上 (95% 以上) の ASR が達成される。 さらに,システムプロンプトを正しく使用するための総合的かつ精巧な評価(例えば,システムプロンプトの正しい使用)を,他のLLMや先進防衛に対して実施する。 私たちのコードはhttps://github.com/sail-sg/I-FSJ.comで利用可能です。

Recently, Anil et al. (2024) show that many-shot (up to hundreds of) demonstrations can jailbreak state-of-the-art LLMs by exploiting their long-context capability. Nevertheless, is it possible to use few-shot demonstrations to efficiently jailbreak LLMs within limited context sizes? While the vanilla few-shot jailbreaking may be inefficient, we propose improved techniques such as injecting special system tokens like [/INST] and employing demo-level random search from a collected demo pool. These simple techniques result in surprisingly effective jailbreaking against aligned LLMs (even with advanced defenses). For examples, our method achieves >80% (mostly >95%) ASRs on Llama-2-7B and Llama-3-8B without multiple restarts, even if the models are enhanced by strong defenses such as perplexity detection and/or SmoothLLM, which is challenging for suffix-based jailbreaking. In addition, we conduct comprehensive and elaborate (e.g., making sure to use correct system prompts) evaluations against other aligned LLMs and advanced defenses, where our method consistently achieves nearly 100% ASRs. Our code is available at https://github.com/sail-sg/I-FSJ.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# 資源制約フェアネス

Resource-constrained Fairness ( http://arxiv.org/abs/2406.01290v1 )

ライセンス: Link先を確認
Sofie Goethals, Eoin Delaney, Brent Mittelstadt, Chris Russell, (参考訳) リソースへのアクセスは、決定を強く制約します。 学生全員に奨学金を提供したい、あるいは専門家とのフォローアップミーティングのために患者全員をスケジュールしたいと思うかもしれませんが、リソースは限られているため、これは不可能です。 公正な機械学習のための既存のツールは、これらの重要な制約を無視しており、ほとんどのメソッドは、決定が下される有限のリソース制限を無視している。 本研究は,「資源制約公正性」の概念を導入し,この枠組みにおける公正性のコストを定量化する。 利用可能な資源のレベルがこのコストに大きく影響することを示し、これは過去の評価で見過ごされてきた要素である。

Access to resources strongly constrains the decisions we make. While we might wish to offer every student a scholarship, or schedule every patient for follow-up meetings with a specialist, limited resources mean that this is not possible. Existing tools for fair machine learning ignore these key constraints, with the majority of methods disregarding any finite resource limitations under which decisions are made. Our research introduces the concept of ``resource-constrained fairness" and quantifies the cost of fairness within this framework. We demonstrate that the level of available resources significantly influences this cost, a factor that has been overlooked in previous evaluations.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# 単光子検出による安定したキャリブレーションを有する時間-デジタル変換器

A time-to-digital converter with steady calibration through single-photon detection ( http://arxiv.org/abs/2406.01293v1 )

ライセンス: Link先を確認
Matías Rubén Bolaños Wagner, Daniele Vogrig, Paolo Villoresi, Giuseppe Vallone, Andrea Stanco, (参考訳) タイム・トゥ・デジタル・コンバータ(TDC)は幅広い分野、特に量子通信において重要なツールである。 近年,FPGA ベースの TDC は ASIC の代替として有効なものとなっている。 それらの非線形性を補うためには、通常補間法に基づく校正手順が必要である。 ここではFPGAベースで27psの残留ジッタを示すTDCの設計と実演について述べる。 量子鍵分布(Quantum Key Distribution, QKD)の応用は、データ取得の停止や補間方法の使用を必要としない単一光子検出の活用に基づくユニークなキャリブレーション法により議論され、精度が向上し、データ損失が除去される。 キャリブレーションは, 5{\deg}Cと80{\deg}Cの間の装置挙動を調べた。 さらに,TDCオーバーフローを伴わずに,12Mevents/sまで最大1週間連続的にストリーミングすることが可能である。

Time-to-Digital Converters (TDCs) are a crucial tool in a wide array of fields, in particular for quantum communication, where time taggers performance can severely affect the quality of the entire application. Nowadays, FPGA-based TDCs present a viable alternative to ASIC ones, once the nonlinear behaviour due to the intrinsic nature of the device is properly mitigated. To compensate said nonlinearities, a calibration procedure is required, usually based on an interpolation methods. Here we present the design and the demonstration of a TDC that is FPGA-based and showing a residual jitter of 27 ps, that is scalable for multichannel operation. The application in Quantum Key Distribution (QKD) is discussed with a unique calibration method based on the exploitation of single-photon detection that does not require to stop the data acquisition or to use any interpolation methods, thus increasing accuracy and removing data loss. The calibration was tested in a relevant environment, investigating the device behaviour between 5{\deg}C and 80{\deg}C. Moreover, our design is capable of continuously streaming up to 12 Mevents/s for up to ~1 week without the TDC overflowing.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# 水中画像再構成のためのカプセル型変分オートエンコーダ

Capsule Enhanced Variational AutoEncoder for Underwater Image Reconstruction ( http://arxiv.org/abs/2406.01294v1 )

ライセンス: Link先を確認
Rita Pucci, Niki Martinel, (参考訳) 水中画像解析は海洋モニタリングに不可欠である。 しかし、それは2つの大きな課題を提示します。 一 波長依存性の光減衰、散乱、水の種類により、画像の視覚的品質が劣化することがしばしばある。 (II)高解像度画像のキャプチャと保存はハードウェアによって制限されており、長期の環境分析を妨げている。 近年,自律型水中画像取得システムの限界によって生じる課題を無視しながら,水中強調のためにディープニューラルネットワークが導入されている。 本稿では,ベクトル量子化変分オートエンコーダ(\myVQVAE)の離散的特徴量化アプローチから着想を得て,両問題に共同で取り組む新しいアーキテクチャを提案する。 我々のモデルは、入力を潜在表現に圧縮する符号化ネットワークと、2つの独立デコードネットワークを組み合わせることで、潜在表現のみを使用して画像の強調と再構成を行う。 1つのデコーダは空間情報に焦点を当て、もう1つのデコーダはカプセルの概念を利用して画像内のエンティティに関する情報をキャプチャする。 カプセル層の使用により、特定の最適化トリックを必要とせずに、ソリューションをエンドツーエンドでトレーニング可能にするために、‘myVQVAE’という差別化の問題を克服する。 カプセルは、完全に微分可能な方法で特徴量化を行う。 コントリビューションの有効性を評価するため、6つのベンチマークデータセットに対して、徹底的な定量的および定性的な評価を行った。 その結果、既存のメソッド(例えば、LSUI Test-L400データセットで約1.4dB$のゲイン)よりもパフォーマンスが優れており、データストレージに必要なスペース(つまり、$3\times$より効率的に)を大幅に削減しています。

Underwater image analysis is crucial for marine monitoring. However, it presents two major challenges (i) the visual quality of the images is often degraded due to wavelength-dependent light attenuation, scattering, and water types; (ii) capturing and storing high-resolution images is limited by hardware, which hinders long-term environmental analyses. Recently, deep neural networks have been introduced for underwater enhancement yet neglecting the challenge posed by the limitations of autonomous underwater image acquisition systems. We introduce a novel architecture that jointly tackles both issues by drawing inspiration from the discrete features quantization approach of Vector Quantized Variational Autoencoder (\myVQVAE). Our model combines an encoding network, that compresses the input into a latent representation, with two independent decoding networks, that enhance/reconstruct images using only the latent representation. One decoder focuses on the spatial information while the other captures information about the entities in the image by leveraging the concept of capsules. With the usage of capsule layers, we also overcome the differentiabilty issues of \myVQVAE making our solution trainable in an end-to-end fashion without the need for particular optimization tricks. Capsules perform feature quantization in a fully differentiable manner. We conducted thorough quantitative and qualitative evaluations on 6 benchmark datasets to assess the effectiveness of our contributions. Results demonstrate that we perform better than existing methods (eg, about $+1.4dB$ gain on the challenging LSUI Test-L400 dataset), while significantly reducing the amount of space needed for data storage (ie, $3\times$ more efficient).
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# LLMの誤りはいつ修正できるか? LLMの自己補正の批判的調査

When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs ( http://arxiv.org/abs/2406.01297v1 )

ライセンス: Link先を確認
Ryo Kamoi, Yusen Zhang, Nan Zhang, Jiawei Han, Rui Zhang, (参考訳) 自己補正(Self-correction)は、LLMを用いて推論中に応答を精製することで、大きな言語モデル(LLM)からの応答を改善するアプローチである。 これまでの作業では,自己評価や外部からのフィードバックなど,さまざまなフィードバック源を用いたさまざまな自己補正フレームワークが提案されていた。 しかし、最近の研究では否定的な結果も報告されているため、LLMが自身の誤りをいつ修正できるかについては、まだ合意が得られていない。 本研究では,幅広い論文を批判的に調査し,自己補正を成功させるために必要な条件について議論する。 まず、先行研究は、しばしば研究の問題を詳細に定義せず、自己補正を過度に評価する非現実的な枠組みや不公平な評価を伴わない。 これらの課題に対処するため、自己補正研究における研究課題を分類し、適切な実験を設計するためのチェックリストを提供する。 本研究の批判的調査は,(1)先行研究が一般タスクにおける LLM からのフィードバックによる自己補正を成功させていないこと,(2) 信頼性の高い外部フィードバックを活用可能なタスクにおいて自己補正がうまく機能していること,(3) 大規模微調整が自己補正を可能にすることを示唆している。

Self-correction is an approach to improving responses from large language models (LLMs) by refining the responses using LLMs during inference. Prior work has proposed various self-correction frameworks using different sources of feedback, including self-evaluation and external feedback. However, there is still no consensus on the question of when LLMs can correct their own mistakes, as recent studies also report negative results. In this work, we critically survey broad papers and discuss the conditions required for successful self-correction. We first find that prior studies often do not define their research questions in detail and involve impractical frameworks or unfair evaluations that over-evaluate self-correction. To tackle these issues, we categorize research questions in self-correction research and provide a checklist for designing appropriate experiments. Our critical survey based on the newly categorized research questions shows that (1) no prior work demonstrates successful self-correction with feedback from prompted LLMs in general tasks, (2) self-correction works well in tasks that can use reliable external feedback, and (3) large-scale fine-tuning enables self-correction.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# 量子幾何学的光・物質結合と表面偏光子によるほぼ平らなバンドのフロケット工学

Floquet engineering nearly flat bands through quantum-geometric light-matter coupling with surface polaritons ( http://arxiv.org/abs/2406.01298v1 )

ライセンス: Link先を確認
Mikołaj Walicki, Christian J. Eckhardt, Michael A. Sentef, (参考訳) 非自明な量子幾何学を具備したほぼ平らなバンドを包含する最小限のモデルであるソートゥース・チェーンにおけるフロケの工学を、駆動された表面偏光子と組み合わせて検討する。 このパラダイム的フラットバンドモデルでは、バンド速度とバンド曲率の消失にもかかわらず、量子幾何により、フラットバンドへの光物質結合が実現される。 偏光性条件下での光偏光と有限運動量移動は、自由空間でレーザーパルスで達成できる範囲を超えて、時として急激なバンド構造の変化を伴って、平坦なバンドや不平坦なバンドに十分な調整性をもたらすことを示す。 原型フラットバンドモワールやかごめ材料における光駆動現象の可能性について論じる。

We investigate Floquet engineering in a sawtooth chain -- a minimal model hosting a nearly flat band endowed with nontrivial quantum geometry -- coupled to driven surface polaritons. In this paradigmatic flat band model, light-matter coupling to a flat band is enabled by quantum geometry despite the vanishing band velocity and band curvature. We show that light polarization and finite momentum transfer in polaritonic settings provide sufficient tunability to flatten or unflatten bands, with sometimes drastic band structure modifications beyond what is attainable with laser pulses in free space. Possible implications for light-driven phenomena in prototypical flat-band moir\'e or kagome materials are discussed.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# 運動規則化器によるニューラルネットワークによる動的CT画像再構成の高速化

Enhancing Dynamic CT Image Reconstruction with Neural Fields Through Explicit Motion Regularizers ( http://arxiv.org/abs/2406.01299v1 )

ライセンス: Link先を確認
Pablo Arratia, Matthias Ehrhardt, Lisa Kreusser, (参考訳) 高度にアンサンプされたデータによる動的逆問題に対する画像再構成は、プロセスのダイナミクスを考慮しないことは、時間的規則性のない非現実的な動きにつながるという大きな課題を生じさせる。 時間微分をペナル化したり、動きモデル正規化器を導入したりする変分法は、その後のフレームを関連づけ、グリッドベースの離散化を用いて画質を改善するために提案されている。 ニューラルネットワークは、望まれる時空間量の別のパラメトリゼーションを、深いニューラルネットワークで提供し、軽量で連続的で、滑らかな表現に偏っている。 帰納バイアスは、動的逆問題に対して時間規則性を強制するために利用され、その結果、データ忠実度項のみを最小化することによって、ニューラルネットワークが最適化される。 本稿では,2次元以上の時間計算トモグラフィーにおいて,PDEに基づく運動正規化器,すなわち光流方程式を導入する利点について検討し,その利点を示す。 また、ニューラルネットワークをグリッドベースの解法と比較し、前者が後者より優れていることを示す。

Image reconstruction for dynamic inverse problems with highly undersampled data poses a major challenge: not accounting for the dynamics of the process leads to a non-realistic motion with no time regularity. Variational approaches that penalize time derivatives or introduce motion model regularizers have been proposed to relate subsequent frames and improve image quality using grid-based discretization. Neural fields offer an alternative parametrization of the desired spatiotemporal quantity with a deep neural network, a lightweight, continuous, and biased towards smoothness representation. The inductive bias has been exploited to enforce time regularity for dynamic inverse problems resulting in neural fields optimized by minimizing a data-fidelity term only. In this paper we investigate and show the benefits of introducing explicit PDE-based motion regularizers, namely, the optical flow equation, in 2D+time computed tomography for the optimization of neural fields. We also compare neural fields against a grid-based solver and show that the former outperforms the latter.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# pOps:フォトインスパイアされた拡散演算子

pOps: Photo-Inspired Diffusion Operators ( http://arxiv.org/abs/2406.01300v1 )

ライセンス: Link先を確認
Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or, (参考訳) テキスト誘導画像生成により、テキスト記述から視覚コンテンツを作成することができる。 しかし、特定の視覚概念は言語だけでは効果的に伝達できない。 これは、IP-Adapterのようなメソッドを通じて、より視覚的に指向したタスクにCLIPイメージの埋め込みスペースを活用することに、新たな関心を喚起した。 興味深いことに、CLIP画像埋め込み空間は意味論的に意味があることが示され、この空間内の線形操作は意味論的に意味のある結果をもたらす。 しかし、これらの操作の特定の意味は、異なる画像間で予測不能に変化する可能性がある。 この可能性を活用するために、私たちは、CLIPイメージの埋め込みに直接、特定のセマンティック演算子をトレーニングするフレームワークであるpOpsを紹介します。 各pOpsオペレータは、事前訓練された拡散事前モデルに基づいて構築される。 Diffusion Priorモデルはもともとテキストの埋め込みと画像の埋め込みをマッピングするために訓練されたものの、新しい入力条件に合わせるように調整できることを実証し、拡散演算子をもたらすことを示した。 イメージ埋め込みを直接処理することで、セマンティック操作の学習能力が向上するだけでなく、必要に応じてテキストCLIP損失を追加の監視として直接使用することが可能になります。 pOpsは、異なる意味を持つ様々なフォトインスパイアされた演算子を学習するために使用でき、提案手法のセマンティック多様性とポテンシャルを強調している。

Text-guided image generation enables the creation of visual content from textual descriptions. However, certain visual concepts cannot be effectively conveyed through language alone. This has sparked a renewed interest in utilizing the CLIP image embedding space for more visually-oriented tasks through methods such as IP-Adapter. Interestingly, the CLIP image embedding space has been shown to be semantically meaningful, where linear operations within this space yield semantically meaningful results. Yet, the specific meaning of these operations can vary unpredictably across different images. To harness this potential, we introduce pOps, a framework that trains specific semantic operators directly on CLIP image embeddings. Each pOps operator is built upon a pretrained Diffusion Prior model. While the Diffusion Prior model was originally trained to map between text embeddings and image embeddings, we demonstrate that it can be tuned to accommodate new input conditions, resulting in a diffusion operator. Working directly over image embeddings not only improves our ability to learn semantic operations but also allows us to directly use a textual CLIP loss as an additional supervision when needed. We show that pOps can be used to learn a variety of photo-inspired operators with distinct semantic meanings, highlighting the semantic diversity and potential of our proposed approach.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# CTと臨床データを用いたマルチモーダルラーニングによる肺塞栓症の死亡率予測

Pulmonary Embolism Mortality Prediction Using Multimodal Learning Based on Computed Tomography Angiography and Clinical Data ( http://arxiv.org/abs/2406.01302v1 )

ライセンス: Link先を確認
Zhusi Zhong, Helen Zhang, Fayez H. Fayad, Andrew C. Lancaster, John Sollee, Shreyas Kulkarni, Cheng Ting Lin, Jie Li, Xinbo Gao, Scott Collinsa, Sun H. Ahn, Harrison X. Bai, Zhicheng Jiao, Michael K. Atalay, (参考訳) 目的: 肺塞栓症(PE)はアメリカにおいて重大な死因である。 本研究の目的は,CTPA(CTPA),臨床データ,PESI(PE Severity Index)スコアを用いたディープラーニング(DL)モデルを用いてPE死亡率を予測することである。 対象と方法:3施設の振り返り調査により918例(年齢64歳,13-99歳,女性52%)のCTPA3,978例が確認された。 生存を予測するため、CTPAから疾患関連画像の特徴を抽出するためにAIモデルが使用された。 画像特徴および臨床変数をDLモデルに組み込んで生存率を予測した。 1)CTPA画像のみの使用,(2)臨床変数のみの使用,(3)CTPAと臨床変数を統合したマルチモーダル,(4)PESIスコアを算出したマルチモーダルの4つのモデルを開発した。 コーマンス指数 (c-index) とネット再分類改善 (Net Reclassification Improvement) を用いて各モードのパフォーマンスと寄与を評価した。 性能はウィルコクソン符号ランク試験を用いてPESI予測と比較した。 カプラン・マイアー分析を行い,高リスク群と低リスク群に分類した。 右室機能障害を考慮し追加の因子リスク分析を行った。 結果: PESI融合モデルとマルチモーダルモデルでは, PESI単独よりも高いc-指標が得られた。 マルチモーダルおよびPESI融合モデルによる高リスク群と低リスク群への成層化後,死亡率は有意に異なっていた(p<0.001。 高リスクグループ化とRV機能障害との間には強い相関関係が認められた。 結論:CTPAの特徴,臨床データ,PESIを取り入れた多相DLモデルはPESI単独よりも高いc-指標をPE生存予測のために達成した。

Purpose: Pulmonary embolism (PE) is a significant cause of mortality in the United States. The objective of this study is to implement deep learning (DL) models using Computed Tomography Pulmonary Angiography (CTPA), clinical data, and PE Severity Index (PESI) scores to predict PE mortality. Materials and Methods: 918 patients (median age 64 years, range 13-99 years, 52% female) with 3,978 CTPAs were identified via retrospective review across three institutions. To predict survival, an AI model was used to extract disease-related imaging features from CTPAs. Imaging features and/or clinical variables were then incorporated into DL models to predict survival outcomes. Four models were developed as follows: (1) using CTPA imaging features only; (2) using clinical variables only; (3) multimodal, integrating both CTPA and clinical variables; and (4) multimodal fused with calculated PESI score. Performance and contribution from each modality were evaluated using concordance index (c-index) and Net Reclassification Improvement, respectively. Performance was compared to PESI predictions using the Wilcoxon signed-rank test. Kaplan-Meier analysis was performed to stratify patients into high- and low-risk groups. Additional factor-risk analysis was conducted to account for right ventricular (RV) dysfunction. Results: For both data sets, the PESI-fused and multimodal models achieved higher c-indices than PESI alone. Following stratification of patients into high- and low-risk groups by multimodal and PESI-fused models, mortality outcomes differed significantly (both p<0.001). A strong correlation was found between high-risk grouping and RV dysfunction. Conclusions: Multiomic DL models incorporating CTPA features, clinical data, and PESI achieved higher c-indices than PESI alone for PE survival prediction.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# CodeR: マルチエージェントとタスクグラフによる問題解決

CodeR: Issue Resolving with Multi-Agent and Task Graphs ( http://arxiv.org/abs/2406.01304v1 )

ライセンス: Link先を確認
Dong Chen, Shaoxin Lin, Muhan Zeng, Daoguang Zan, Jian-Gang Wang, Anton Cheshkov, Jun Sun, Hao Yu, Guoliang Dong, Artem Aliev, Jie Wang, Xiao Cheng, Guangtai Liang, Yuchi Ma, Pan Bian, Tao Xie, Qianxiang Wang, (参考訳) GitHubのイシュー解決は最近、アカデミックや業界から大きな注目を集めている。 SWEベンチは問題解決における性能を測定するために提案されている。 本稿では,マルチエージェントフレームワークと事前に定義されたタスクグラフを採用して,報告されたバグの修復と解決を行い,コードリポジトリに新機能を追加するCodeRを提案する。 SWE-bench lite では、CodeR は各問題に 1 回だけ提出した場合に 28.00% の問題を解決することができる。 我々は,CodeRの各設計の性能への影響について検討し,この研究の方向性を推し進めるための洞察を提供する。

GitHub issue resolving recently has attracted significant attention from academia and industry. SWE-bench is proposed to measure the performance in resolving issues. In this paper, we propose CodeR, which adopts a multi-agent framework and pre-defined task graphs to Repair & Resolve reported bugs and add new features within code Repository. On SWE-bench lite, CodeR is able to solve 28.00% of issues, in the case of submitting only once for each issue. We examine the performance impact of each design of CodeR and offer insights to advance this research direction.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# 大規模言語モデルによる教師なしディトラクタ生成とコントラスト復号

Unsupervised Distractor Generation via Large Language Model Distilling and Counterfactual Contrastive Decoding ( http://arxiv.org/abs/2406.01306v1 )

ライセンス: Link先を確認
Fanyi Qu, Hao Sun, Yunfang Wu, (参考訳) 読解理解のコンテキスト内では、DG(Distractor Generation)タスクは、読者を混乱させるいくつかの誤った選択肢を生成することを目的としている。 従来のDGの監督手法は、高価な人間に注釈付けされたイントラクタラベルに大きく依存している。 本稿では,小学生モデルのDG能力を高めるために,LLM(Large Language Models)をコスト効率のよいアノテータとして活用する,教師なしのDGフレームワークを提案する。 特に, 2段階の学習プロセスにおいて, LLMからの擬似的注意散らしと, 目的とする元の回答情報とを統合して, 知識蒸留を行うための2つのタスクトレーニング戦略を提案する。 さらに,DGモデルの注意をそらす能力を高めるために,反実的コントラストデコーディング機構を考案した。 実験の結果,バルトベースを用いた教師なし生成法はモデルパラメータの200倍の差でGPT-3.5-turbo性能を大幅に上回ることがわかった。 筆者らが提案する教師なしDG手法は, 手間のかかる注意散らしアノテーションやコストのかかる大規模モデルを必要としない, 実用的な読解アプリケーションのための費用効率のよいフレームワークを提供する。

Within the context of reading comprehension, the task of Distractor Generation (DG) aims to generate several incorrect options to confuse readers. Traditional supervised methods for DG rely heavily on expensive human-annotated distractor labels. In this paper, we propose an unsupervised DG framework, leveraging Large Language Models (LLMs) as cost-effective annotators to enhance the DG capability of smaller student models. Specially, to perform knowledge distilling, we propose a dual task training strategy that integrates pseudo distractors from LLMs and the original answer in-formation as the objective targets with a two-stage training process. Moreover, we devise a counterfactual contrastive decoding mechanism for increasing the distracting capability of the DG model. Experiments show that our unsupervised generation method with Bart-base greatly surpasses GPT-3.5-turbo performance with only 200 times fewer model parameters. Our proposed unsupervised DG method offers a cost-effective framework for practical reading comprehension applications, without the need of laborious distractor annotation and costly large-size models
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# Revolve: 自律運転のための大規模言語モデルによるリワード進化

REvolve: Reward Evolution with Large Language Models for Autonomous Driving ( http://arxiv.org/abs/2406.01309v1 )

ライセンス: Link先を確認
Rishi Hazra, Alkis Sygkounas, Andreas Persson, Amy Loutfi, Pedro Zuidberg Dos Martires, (参考訳) 効果的な報酬関数の設計は、強化学習(RL)アルゴリズムの訓練に不可欠である。 しかし、この設計は、明確に定量化が難しい特定のタスクの主観的な性質のため、ドメインの専門家にとっても、簡単ではない。 近年,大規模言語モデル (LLM) は自然言語のタスク記述から報酬を生成するために用いられ,その広範囲な指導チューニングと人間の行動の常識的理解を活用している。 本研究では,人間からのフィードバックによって導かれるLLMが,人間による報酬関数の定式化に有効である,という仮説を立てる。 具体的には、これを「良い」運転の概念が暗黙的で定量化が難しい自律運転(AD)の挑戦的な設定で研究する。 この目的のために,AD における報酬設計に LLM を用いる進化的フレームワークである Revolve を紹介する。 Revolveは人間のフィードバックを利用して報酬関数を作成し、進化過程をガイドし、暗黙の人間の知識を訓練(深い)RLエージェントの明確な報酬関数に効果的に翻訳する。 我々は、Revolve-Designed rewardsで訓練されたエージェントが人間の運転基準と密接に一致していることを示し、その結果、他の最先端のベースラインを上回っている。

Designing effective reward functions is crucial to training reinforcement learning (RL) algorithms. However, this design is non-trivial, even for domain experts, due to the subjective nature of certain tasks that are hard to quantify explicitly. In recent works, large language models (LLMs) have been used for reward generation from natural language task descriptions, leveraging their extensive instruction tuning and commonsense understanding of human behavior. In this work, we hypothesize that LLMs, guided by human feedback, can be used to formulate human-aligned reward functions. Specifically, we study this in the challenging setting of autonomous driving (AD), wherein notions of "good" driving are tacit and hard to quantify. To this end, we introduce REvolve, an evolutionary framework that uses LLMs for reward design in AD. REvolve creates and refines reward functions by utilizing human feedback to guide the evolution process, effectively translating implicit human knowledge into explicit reward functions for training (deep) RL agents. We demonstrate that agents trained on REvolve-designed rewards align closely with human driving standards, thereby outperforming other state-of-the-art baselines.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# FactGenius:知識グラフによるファクト検証を改善するためにゼロショットプロンプトとファジィリレーションマイニングを組み合わせる

FactGenius: Combining Zero-Shot Prompting and Fuzzy Relation Mining to Improve Fact Verification with Knowledge Graphs ( http://arxiv.org/abs/2406.01311v1 )

ライセンス: Link先を確認
Sushant Gautam, (参考訳) ファクトチェック(Fact-checking)は、信頼できる証拠を考慮し、クレームの真正性を検証する重要な自然言語処理(NLP)タスクである。 伝統的な手法は労働集約的なデータキュレーションとルールベースのアプローチによって制限されることが多い。 本稿では,大規模言語モデル(LLM)のゼロショットプロンプトと知識グラフ(KG)のファジィテキストマッチングを組み合わせたファクトチェック手法であるFactGeniusを提案する。 ウィキペディアから派生した構造化リンクデータデータセットであるDBpediaを利用することで、FactGeniusは、類似度測定を使用してLLM生成された接続を洗練し、正確性を保証する。 ファクト検証のベンチマークデータセットであるFactKG上でのFactGeniusの評価は、特に分類器として微調整されたRoBERTaにおいて、既存のベースラインを著しく上回っていることを示している。 コネクションのフィルタリングと検証という2段階のアプローチは、さまざまな推論タイプで優れたパフォーマンスを実現し、堅牢なファクトチェックのための有望なツールとしてFactGeniusを確立する上で、極めて重要である。 コードと資料はhttps://github.com/SushantGautam/FactGeniusで入手できる。

Fact-checking is a crucial natural language processing (NLP) task that verifies the truthfulness of claims by considering reliable evidence. Traditional methods are often limited by labour-intensive data curation and rule-based approaches. In this paper, we present FactGenius, a novel method that enhances fact-checking by combining zero-shot prompting of large language models (LLMs) with fuzzy text matching on knowledge graphs (KGs). Leveraging DBpedia, a structured linked data dataset derived from Wikipedia, FactGenius refines LLM-generated connections using similarity measures to ensure accuracy. The evaluation of FactGenius on the FactKG, a benchmark dataset for fact verification, demonstrates that it significantly outperforms existing baselines, particularly when fine-tuning RoBERTa as a classifier. The two-stage approach of filtering and validating connections proves crucial, achieving superior performance across various reasoning types and establishing FactGenius as a promising tool for robust fact-checking. The code and materials are available at https://github.com/SushantGautam/FactGenius.
翻訳日:2024-06-05 23:09:15 公開日:2024-06-03
# ソフトマックスフリー変圧器を用いた医用画像分類とシーケンス正規化

Compute-Efficient Medical Image Classification with Softmax-Free Transformers and Sequence Normalization ( http://arxiv.org/abs/2406.01314v1 )

ライセンス: Link先を確認
Firas Khader, Omar S. M. El Nahhas, Tianyu Han, Gustav Müller-Franzes, Sven Nebelung, Jakob Nikolas Kather, Daniel Truhn, (参考訳) Transformerモデルは、自然言語処理、音声認識、コンピュータビジョンなどの進歩する分野において重要な役割を担っている。 しかし、このモデルの重要な制限は、その2次計算とメモリの複雑さであり、より長いシーケンスにその適用を制限している。 これは、高解像度画像がギガピクセルスケールに達する医療画像において特に重要である。 この問題に対処する努力は、トランスフォーマーのアーキテクチャに不可欠なソフトマックス操作を分解するといった複雑な技術に主に焦点を当てている。 本稿では、トランスフォーマーモデルのこの2次計算複雑性に対処し、注意機構からソフトマックス関数を排除し、キー、クエリ、バリュートークンのシーケンス正規化手法を採用することにより、この問題を回避する、驚くほど単純かつ効果的な方法を提案する。 行列乗法の再順序付けと組み合わせて、このアプローチはメモリと計算の複雑さを線形スケールに減らす。 本手法は, 眼底鏡, 皮膚鏡, 放射線画像, 組織画像データを含む様々な医用画像データセットにまたがって評価される。 以上の結果から,従来のトランスモデルと同等の性能を示しながら,より長いシーケンスを効率的に処理できることが示唆された。

The Transformer model has been pivotal in advancing fields such as natural language processing, speech recognition, and computer vision. However, a critical limitation of this model is its quadratic computational and memory complexity relative to the sequence length, which constrains its application to longer sequences. This is especially crucial in medical imaging where high-resolution images can reach gigapixel scale. Efforts to address this issue have predominantely focused on complex techniques, such as decomposing the softmax operation integral to the Transformer's architecture. This paper addresses this quadratic computational complexity of Transformer models and introduces a remarkably simple and effective method that circumvents this issue by eliminating the softmax function from the attention mechanism and adopting a sequence normalization technique for the key, query, and value tokens. Coupled with a reordering of matrix multiplications this approach reduces the memory- and compute complexity to a linear scale. We evaluate this approach across various medical imaging datasets comprising fundoscopic, dermascopic, radiologic and histologic imaging data. Our findings highlight that these models exhibit a comparable performance to traditional transformer models, while efficiently handling longer sequences.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# 微分型永続ホモロジーを用いたスケールフリー画像キーポイント

Scale-Free Image Keypoints Using Differentiable Persistent Homology ( http://arxiv.org/abs/2406.01315v1 )

ライセンス: Link先を確認
Giovanni Barbarani, Francesco Vaccarino, Gabriele Trivigno, Marco Guerra, Gabriele Berton, Carlo Masone, (参考訳) コンピュータビジョンでは、キーポイント検出は基本的な課題であり、ロボット工学から画像検索まで応用されるが、既存の学習ベースの手法はスケール依存と柔軟性の欠如に悩まされている。 本稿では、モース理論と永続ホモロジー、代数トポロジーに根ざした強力なツールを活用する新しいアプローチを紹介する。 本稿では,近年の永続的ホモロジーにおける下位段階の概念を導入し,トポロジカルラーニングへの道を開いた新しい損失関数を提案する。 私たちの検出器であるMorseDetは、特徴検出のための最初のトポロジベースの学習モデルであり、キーポイント反復性において競合性能を実現し、その問題に対して原理的かつ理論的に堅牢なアプローチを導入する。

In computer vision, keypoint detection is a fundamental task, with applications spanning from robotics to image retrieval; however, existing learning-based methods suffer from scale dependency and lack flexibility. This paper introduces a novel approach that leverages Morse theory and persistent homology, powerful tools rooted in algebraic topology. We propose a novel loss function based on the recent introduction of a notion of subgradient in persistent homology, paving the way toward topological learning. Our detector, MorseDet, is the first topology-based learning model for feature detection, which achieves competitive performance in keypoint repeatability and introduces a principled and theoretically robust approach to the problem.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# 言語・詩・合成IMUの統合表現による慣性ハンドベースHARの強化

Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs ( http://arxiv.org/abs/2406.01316v1 )

ライセンス: Link先を確認
Vitor Fortes Rey, Lala Shakti Swarup Ray, Xia Qingxin, Kaishun Wu, Paul Lukowicz, (参考訳) HARにおけるラベル付きセンサデータの不足により、以前の研究はビデオデータを使用して慣性計測ユニット(IMU)データを合成し、リッチなアクティビティアノテーションを活用している。 しかし、ビデオからIMUデータを生成することは、合成IMUデータの質の悪さと微妙できめ細かな動きによるHARの課題を示す。 本稿では,制約データの問題に対処する新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークであるMulti$3$Netを提案する。 オンラインレポジトリでは,テキスト,ポーズ,IMUの同時表現を同時に学習することを目的として,事前学習を行う。 ビデオデータとコントラスト学習を用いて、特に微妙な活動の認識においてウェアラブルHAR性能を向上させることを目指しており、我々の実験結果により、IMUデータを用いたHAR性能向上におけるアプローチの有効性が検証された。 提案手法は,ビデオから生成したIMUデータを用いて学習したモデルが,よりきめ細かい活動を認識するための既存手法を超越していることを示す。

Due to the scarcity of labeled sensor data in HAR, prior research has turned to video data to synthesize Inertial Measurement Units (IMU) data, capitalizing on its rich activity annotations. However, generating IMU data from videos presents challenges for HAR in real-world settings, attributed to the poor quality of synthetic IMU data and its limited efficacy in subtle, fine-grained motions. In this paper, we propose Multi$^3$Net, our novel multi-modal, multitask, and contrastive-based framework approach to address the issue of limited data. Our pretraining procedure uses videos from online repositories, aiming to learn joint representations of text, pose, and IMU simultaneously. By employing video data and contrastive learning, our method seeks to enhance wearable HAR performance, especially in recognizing subtle activities.Our experimental findings validate the effectiveness of our approach in improving HAR performance with IMU data. We demonstrate that models trained with synthetic IMU data generated from videos using our method surpass existing approaches in recognizing fine-grained activities.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# インテリジェントで効果的なグラフニューラル付加ネットワーク

The Intelligible and Effective Graph Neural Additive Networks ( http://arxiv.org/abs/2406.01317v1 )

ライセンス: Link先を確認
Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach, (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データを学習するための主要なアプローチとして登場した。 しかし、ほとんどのGNNはブラックボックスモデルとして機能し、ポストホックな説明を必要とする。 本稿では,設計によって解釈可能なGNNを提案する。 我々のモデルであるグラフニューラル付加ネットワーク(GNAN)は、一般化付加モデル(Generalized Additive Models)の解釈可能なクラスの拡張であり、人間によって可視化され、完全に理解することができる。 GNANは完全に解釈可能なように設計されており、モデルを直接視覚化することで、機能とグラフレベルでのグローバルな説明とローカルな説明が可能である。 これらの視覚化は、モデルがターゲット変数、特徴、およびグラフの関係をどのように利用するかを正確に記述する。 我々は、さまざまなタスクやデータセットの一連の例において、GNANの知性を示す。 さらに、GNANの精度はブラックボックスGNNと同等であり、透明性が不可欠である重要なアプリケーションに高い精度で適合することを示す。

Graph Neural Networks (GNNs) have emerged as the predominant approach for learning over graph-structured data. However, most GNNs operate as black-box models and require post-hoc explanations, which may not suffice in high-stakes scenarios where transparency is crucial. In this paper, we present a GNN that is interpretable by design. Our model, Graph Neural Additive Network (GNAN), is a novel extension of the interpretable class of Generalized Additive Models, and can be visualized and fully understood by humans. GNAN is designed to be fully interpretable, allowing both global and local explanations at the feature and graph levels through direct visualization of the model. These visualizations describe the exact way the model uses the relationships between the target variable, the features, and the graph. We demonstrate the intelligibility of GNANs in a series of examples on different tasks and datasets. In addition, we show that the accuracy of GNAN is on par with black-box GNNs, making it suitable for critical applications where transparency is essential, alongside high accuracy.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# 縮退拡散確率モデルの収束性

Convergence of the denoising diffusion probabilistic models ( http://arxiv.org/abs/2406.01320v1 )

ライセンス: Link先を確認
Yumiharu Nakano, (参考訳) 我々は,Ho,J.,Jain,A.,Abbeel,P.,Advanceds in Neural Information Processing Systems, 33 (2020), pp. 6840-6851で提示された拡散確率モデル(DDPM)の原版を理論的に解析した。 我々の主定理は、分散スケジュールのパラメータの漸近条件、$L^2$ベースのスコア推定誤差、および時間ステップ数に対するノイズ推定関数の下で、元のDDPMサンプリングアルゴリズムによって構築されたシーケンスが、無限大となるにつれて、与えられたデータ分布に弱収束することを示している。 定理の証明において、サンプリング列は逆時間確率微分方程式(SDE)の指数積分器型近似として見ることができる。 さらに、一般的な連続過程の逆イットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットイットの逆時間表現を厳密に証明する。

We theoretically analyze the original version of the denoising diffusion probabilistic models (DDPMs) presented in Ho, J., Jain, A., and Abbeel, P., Advances in Neural Information Processing Systems, 33 (2020), pp. 6840-6851. Our main theorem states that the sequence constructed by the original DDPM sampling algorithm weakly converges to a given data distribution as the number of time steps goes to infinity, under some asymptotic conditions on the parameters for the variance schedule, the $L^2$-based score estimation error, and the noise estimating function with respect to the number of time steps. In proving the theorem, we reveal that the sampling sequence can be seen as an exponential integrator type approximation of a reverse time stochastic differential equation (SDE). Moreover, we give a proper definition of the backward It\^o integral for general continuous processes and prove rigorously the reverse time representation of a given SDE with backward It\^o integral, without using the smoothness and uniqueness of the associated forward Kolmogorov equations.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# シーケンス・ツー・シークエンス マルチモーダル音声のインペインティング

Sequence-to-Sequence Multi-Modal Speech In-Painting ( http://arxiv.org/abs/2406.01321v1 )

ライセンス: Link先を確認
Mahsa Kadkhodaei Elyaderani, Shahram Shirani, (参考訳) 音声インペインティングは、信頼性のあるコンテキスト情報を用いて、欠落した音声コンテンツを再生するタスクである。 近年,音声のマルチモーダル認識に関する研究が盛んに行われているが,音声における視覚情報や聴覚情報の効果的な注入はいまだに必要である。 本稿では,エンコーダ・デコーダアーキテクチャを用いて,音声信号に視覚情報を利用する新しいシーケンス・ツー・シーケンスモデルを提案する。 エンコーダは、顔記録のためのリップリーダーの役割を担い、デコーダは、エンコーダ出力と歪んだ音声スペクトログラムの両方を取り込み、元の音声を復元する。 提案手法は音声のみの音声インパインティングモデルより優れており,300msから1500msの歪みに対して,近年のマルチモーダル音声インパインターと同等の精度で,マルチモーダル音声インパインティングの有効性を示す。

Speech in-painting is the task of regenerating missing audio contents using reliable context information. Despite various recent studies in multi-modal perception of audio in-painting, there is still a need for an effective infusion of visual and auditory information in speech in-painting. In this paper, we introduce a novel sequence-to-sequence model that leverages the visual information to in-paint audio signals via an encoder-decoder architecture. The encoder plays the role of a lip-reader for facial recordings and the decoder takes both encoder outputs as well as the distorted audio spectrograms to restore the original speech. Our model outperforms an audio-only speech in-painting model and has comparable results with a recent multi-modal speech in-painter in terms of speech quality and intelligibility metrics for distortions of 300 ms to 1500 ms duration, which proves the effectiveness of the introduced multi-modality in speech in-painting.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# 構造介入と不平等のダイナミクス

Structural Interventions and the Dynamics of Inequality ( http://arxiv.org/abs/2406.01323v1 )

ライセンス: Link先を確認
Aurora Zhang, Annette Hosoi, (参考訳) アルゴリズムフェアネス文学における近年の議論は、フェアネスの標準的な概念に関していくつかの懸念を提起している。 第一に、公正度ベンチマークを満たすための予測アルゴリズムの制約は、不適切なグループに対して最適でない結果をもたらす可能性がある。 第二に、技術的介入は、特に社会的不平等を生み出す構造的過程の理解から離反した場合、それ自体で効果がないことが多い。 これら2つの批判にインスパイアされた我々は、ローンローンを実例として、共通の意思決定モデルを構築した。 いくつかの条件下では、決定しきい値の選択は、パレートの最適政策から逸脱しない限り、金融安定の既存の格差を必然的に持続させることが示される。 そして、3種類の介入の効果をモデル化する。 外部パラメータによる構造変化の実施の難しさや、政策立案者の株式や効率の好みによって、どのように異なる介入が推奨されるかを示す。 対極的には、株式よりも効率の優先が、未公開グループをターゲットにした介入の推奨につながる可能性があることを実証する。 最後に、HMDAとFannie Maeローンデータを組み合わせたデータセットに対する介入の効果をシミュレートする。 この研究は、一見バイアスのない決定機構によって構造的不平等が過小評価される方法を強調し、多くの状況において、技術的な解決策は社会的変化を起こすために外部の文脈に合った介入と組み合わせなければならないことを示す。

Recent conversations in the algorithmic fairness literature have raised several concerns with standard conceptions of fairness. First, constraining predictive algorithms to satisfy fairness benchmarks may lead to non-optimal outcomes for disadvantaged groups. Second, technical interventions are often ineffective by themselves, especially when divorced from an understanding of structural processes that generate social inequality. Inspired by both these critiques, we construct a common decision-making model, using mortgage loans as a running example. We show that under some conditions, any choice of decision threshold will inevitably perpetuate existing disparities in financial stability unless one deviates from the Pareto optimal policy. Then, we model the effects of three different types of interventions. We show how different interventions are recommended depending upon the difficulty of enacting structural change upon external parameters and depending upon the policymaker's preferences for equity or efficiency. Counterintuitively, we demonstrate that preferences for efficiency over equity may lead to recommendations for interventions that target the under-resourced group. Finally, we simulate the effects of interventions on a dataset that combines HMDA and Fannie Mae loan data. This research highlights the ways that structural inequality can be perpetuated by seemingly unbiased decision mechanisms, and it shows that in many situations, technical solutions must be paired with external, context-aware interventions to enact social change.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# TabPedia: 概念シナジーによる総合的なビジュアルテーブル理解を目指して

TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy ( http://arxiv.org/abs/2406.01326v1 )

ライセンス: Link先を確認
Weichao Zhao, Hao Feng, Qi Liu, Jingqun Tang, Shu Wei, Binghong Wu, Lei Liao, Yongjie Ye, Hao Liu, Houqiang Li, Can Huang, (参考訳) 表には、機械の理解に挑戦する様々な構造や内容を伴う実データと定量的データが含まれている。 従来の手法は一般にタスク固有のアーキテクチャと個々のタスクの目的を設計し、結果としてモーダルな分離と複雑なワークフローをもたらす。 本稿では,概念シナジー機構を備えた新しい視覚言語モデルTabPediaを提案する。 このメカニズムでは、様々な視覚テーブル理解(VTU)タスクとマルチソース視覚埋め込みを概念として抽象化する。 この統合フレームワークは、大規模な言語モデル(LLM)の機能を活用することで、テーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答といったVTUタスクをシームレスに統合することを可能にする。 さらに、この概念のシナジー機構により、テーブル認識関連および理解関連タスクが調和して機能し、対応するソース認識埋め込みから必要な手がかりを効果的に活用することができる。 さらに、実世界のシナリオにおけるVTUタスクをよりよく評価するために、約9000のQAペアを備えた新しい総合的なテーブルVQAベンチマークComTQAを構築した。 表認識と理解タスクの両面において,多種多岐にわたる定量的,質的な実験を行い,TabPediaの有効性を検証した。 優れた性能は、全ての概念がシナジーで動くとき、視覚テーブルを理解するためにLLMを使うことの可能性をさらに確認する。 ComTQAベンチマークはhttps://huggingface.co/datasets/ByteDance/ComTQAでオープンソース化された。 ソースコードとモデルは後日リリースされる予定だ。

Tables contain factual and quantitative data accompanied by various structures and contents that pose challenges for machine comprehension. Previous methods generally design task-specific architectures and objectives for individual tasks, resulting in modal isolation and intricate workflows. In this paper, we present a novel large vision-language model, TabPedia, equipped with a concept synergy mechanism. In this mechanism, all the involved diverse visual table understanding (VTU) tasks and multi-source visual embeddings are abstracted as concepts. This unified framework allows TabPedia to seamlessly integrate VTU tasks, such as table detection, table structure recognition, table querying, and table question answering, by leveraging the capabilities of large language models (LLMs). Moreover, the concept synergy mechanism enables table perception-related and comprehension-related tasks to work in harmony, as they can effectively leverage the needed clues from the corresponding source perception embeddings. Furthermore, to better evaluate the VTU task in real-world scenarios, we establish a new and comprehensive table VQA benchmark, ComTQA, featuring approximately 9,000 QA pairs. Extensive quantitative and qualitative experiments on both table perception and comprehension tasks, conducted across various public benchmarks, validate the effectiveness of our TabPedia. The superior performance further confirms the feasibility of using LLMs for understanding visual tables when all concepts work in synergy. The benchmark ComTQA has been open-sourced at https://huggingface.co/datasets/ByteDance/ComTQA. The source code and model will be released later.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# X)AIに基づく学習システムによるドメイン知識の伝達

Transferring Domain Knowledge with (X)AI-Based Learning Systems ( http://arxiv.org/abs/2406.01329v1 )

ライセンス: Link先を確認
Philipp Spitzer, Niklas Kühl, Marc Goutier, Manuel Kaschura, Gerhard Satzger, (参考訳) 多くのハイテイクドメインでは、従来の学習システムによる初心者のトレーニングは十分ではない。 暗黙の知識を与えるためには、専門家の手引き指導が不可欠である。 しかし、専門家による初級生のトレーニングは費用がかかり時間もかかり、代替手段の必要性が高まる。 説明可能な人工知能(XAI)は、従来、ブラックボックス人工知能システムを解釈するために用いられてきた。 本研究では,XAIを代替として活用する: (X)AIシステムは,専門家の過去の判断に基づいて訓練され,説明と組み合わせた事例を提供することで初心者の教育に使用される。 本研究では,249名の参加者を対象に,分類課題に対するアプローチの有効性を計測した。 我々は,(X)AIに基づく学習システムが初心者の学習を誘導し,その認知スタイルが中等学習であることを示す。 このようにして、XAIが人間の学習に与える影響を明らかにする第一歩を踏み出し、(X)AIベースの学習システムの設計をカスタマイズする将来の選択肢にAI開発者を向けます。

In numerous high-stakes domains, training novices via conventional learning systems does not suffice. To impart tacit knowledge, experts' hands-on guidance is imperative. However, training novices by experts is costly and time-consuming, increasing the need for alternatives. Explainable artificial intelligence (XAI) has conventionally been used to make black-box artificial intelligence systems interpretable. In this work, we utilize XAI as an alternative: An (X)AI system is trained on experts' past decisions and is then employed to teach novices by providing examples coupled with explanations. In a study with 249 participants, we measure the effectiveness of such an approach for a classification task. We show that (X)AI-based learning systems are able to induce learning in novices and that their cognitive styles moderate learning. Thus, we take the first steps to reveal the impact of XAI on human learning and point AI developers to future options to tailor the design of (X)AI-based learning systems.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# 事前学習データ検出のための言語モデルの提案

Probing Language Models for Pre-training Data Detection ( http://arxiv.org/abs/2406.01333v1 )

ライセンス: Link先を確認
Zhenhua Liu, Tong Zhu, Chuanyuan Tan, Haonan Lu, Bing Liu, Wenliang Chen, (参考訳) 大きな言語モデル(LLM)は、その印象的な機能を示しつつ、プライバシの問題や事前トレーニングフェーズにおけるベンチマークデータセットのリークによるデータ汚染問題への懸念も提起している。 したがって、LLMが対象テキスト上で事前訓練されているかどうかを確認することにより、汚染を検出することが不可欠である。 近年の研究では、表面的な特徴であり信頼性に欠ける、生成されたテキストと計算難易度に焦点が当てられている。 本研究では,モデルの内部アクティベーションを調べることにより,事前学習データ検出のための探索手法を提案する。 我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。 さらに,計算機科学と数学のカテゴリからarxivを抽象化した新しい挑戦的ベンチマークArxivMIAを提案する。 実験の結果,本手法はWikiMIAとArxivMIAの双方ですべてのベースラインを上回る性能を示し,その有効性を確認した(我々のコードとデータセットはhttps://github.com/zhliu0106/probing-lm-dataで入手できる)。

Large Language Models (LLMs) have shown their impressive capabilities, while also raising concerns about the data contamination problems due to privacy issues and leakage of benchmark datasets in the pre-training phase. Therefore, it is vital to detect the contamination by checking whether an LLM has been pre-trained on the target texts. Recent studies focus on the generated texts and compute perplexities, which are superficial features and not reliable. In this study, we propose to utilize the probing technique for pre-training data detection by examining the model's internal activations. Our method is simple and effective and leads to more trustworthy pre-training data detection. Additionally, we propose ArxivMIA, a new challenging benchmark comprising arxiv abstracts from Computer Science and Mathematics categories. Our experiments demonstrate that our method outperforms all baselines, and achieves state-of-the-art performance on both WikiMIA and ArxivMIA, with additional experiments confirming its efficacy (Our code and dataset are available at https://github.com/zhliu0106/probing-lm-data).
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# HHMR:グラフ拡散モデルのマルチモーダル制御性向上によるホリスティックハンドメッシュ回復

HHMR: Holistic Hand Mesh Recovery by Enhancing the Multimodal Controllability of Graph Diffusion Models ( http://arxiv.org/abs/2406.01334v1 )

ライセンス: Link先を確認
Mengcheng Li, Hongwen Zhang, Yuxiang Zhang, Ruizhi Shao, Tao Yu, Yebin Liu, (参考訳) 近年、世代と復興のパラダイムが深く統合される傾向が見られた。 本稿では,HHMR(Holistic Hand Mesh Recovery)と呼ばれる単一フレームワークで直接手メッシュ生成,塗り絵,再構築,嵌合を行う,より包括的な手メッシュ回復タスクのための,制御可能な生成モデルの拡張について述べる。 我々のキーとなる観察は、強力なマルチモーダル制御性を持つ単一の生成モデルによって、異なるタイプのハンドメッシュリカバリタスクが達成可能であることであり、そのようなフレームワークでは、異なるタスクを実現するためには、異なるシグナルを条件として与えることしか必要としない。 この目的を達成するために,グラフ畳み込みとアテンション機構に基づくオールインワン拡散フレームワークを提案する。 マルチモーダル制御信号のデカップリングを確保しつつ、強力な制御生成能力を実現するため、異なるモードを共有特徴空間にマッピングし、モダリティと特徴レベルの両方でクロススケールなランダムマスキングを適用する。 このように、手前の学習において、異なるモダリティ間の相関が完全に活用される。 さらに,生成したモデルと制御信号とのアライメントを向上させるための条件整合型グラディエントガイダンスを提案し,ハンドメッシュの再構築とフィッティングの精度を大幅に向上させる。 実験により,我々の新しいフレームワークは,複数のハンドメッシュリカバリタスクを同時に実現し,既存のメソッドを異なるタスクで上回り,ジェスチャ認識やポーズ生成,メッシュ編集など,その後の下流アプリケーションにさらなる可能性をもたらすことが示された。

Recent years have witnessed a trend of the deep integration of the generation and reconstruction paradigms. In this paper, we extend the ability of controllable generative models for a more comprehensive hand mesh recovery task: direct hand mesh generation, inpainting, reconstruction, and fitting in a single framework, which we name as Holistic Hand Mesh Recovery (HHMR). Our key observation is that different kinds of hand mesh recovery tasks can be achieved by a single generative model with strong multimodal controllability, and in such a framework, realizing different tasks only requires giving different signals as conditions. To achieve this goal, we propose an all-in-one diffusion framework based on graph convolution and attention mechanisms for holistic hand mesh recovery. In order to achieve strong control generation capability while ensuring the decoupling of multimodal control signals, we map different modalities to a shared feature space and apply cross-scale random masking in both modality and feature levels. In this way, the correlation between different modalities can be fully exploited during the learning of hand priors. Furthermore, we propose Condition-aligned Gradient Guidance to enhance the alignment of the generated model with the control signals, which significantly improves the accuracy of the hand mesh reconstruction and fitting. Experiments show that our novel framework can realize multiple hand mesh recovery tasks simultaneously and outperform the existing methods in different tasks, which provides more possibilities for subsequent downstream applications including gesture recognition, pose generation, mesh editing, and so on.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# データサイエンスとファイナンスのための最大エントロピー原理による統計インフォームド量子回路

Statistics-Informed Parameterized Quantum Circuit via Maximum Entropy Principle for Data Science and Finance ( http://arxiv.org/abs/2406.01335v1 )

ライセンス: Link先を確認
Xi-Ning Zhuang, Zhao-Yun Chen, Cheng Xue, Xiao-Fan Xu, Chao Wang, Huan-Yu Liu, Tai-Ping Sun, Yun-Jie Wang, Yu-Chun Wu, Guo-Ping Guo, (参考訳) 量子機械学習は、特にデータサイエンスやファイナンスといった統計に焦点を当てた分野において、実践的な問題を解決する上で大きな可能性を示している。 しかし、トレーニング可能性や解釈可能性の問題により、量子プロセッサ上の統計モデルの作成と学習には課題が残っている。 本稿では、最大エントロピー原理を用いて、任意の分布とその重み付き混合を含む量子量子統計モデルを効率的に準備し、訓練する統計インフォームドパラメタライズド量子回路(SI-PQC)を設計する。 SI-PQCは、トレーニング可能なパラメータを持つ静的構造を備え、詳細な最適化された回路コンパイルを可能にし、リソースと時間消費の指数関数的削減を可能にし、量子状態と古典モデルパラメータを同時に学習するためのトレーニング性と解釈性を改善している。 SI-PQCは、様々な量子アルゴリズムで準備および学習するための効率的なサブルーチンとして、入力ボトルネックに対処し、事前知識の注入を容易にする。

Quantum machine learning has demonstrated significant potential in solving practical problems, particularly in statistics-focused areas such as data science and finance. However, challenges remain in preparing and learning statistical models on a quantum processor due to issues with trainability and interpretability. In this letter, we utilize the maximum entropy principle to design a statistics-informed parameterized quantum circuit (SI-PQC) that efficiently prepares and trains quantum computational statistical models, including arbitrary distributions and their weighted mixtures. The SI-PQC features a static structure with trainable parameters, enabling in-depth optimized circuit compilation, exponential reductions in resource and time consumption, and improved trainability and interpretability for learning quantum states and classical model parameters simultaneously. As an efficient subroutine for preparing and learning in various quantum algorithms, the SI-PQC addresses the input bottleneck and facilitates the injection of prior knowledge.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# ARCH2S: ポイントクラウドから外部構造を学ぶためのデータセット、ベンチマーク、課題

ARCH2S: Dataset, Benchmark and Challenges for Learning Exterior Architectural Structures from Point Clouds ( http://arxiv.org/abs/2406.01337v1 )

ライセンス: Link先を確認
Ka Lung Cheung, Chi Chung Lee, (参考訳) 建築構造物の精密なセグメンテーションは, 各種建築部品の詳細な情報を提供し, 建築環境に対する理解と相互作用を高める。 それでも、既存の屋外3Dポイントクラウドデータセットには、プライバシの懸念とデータ取得とアノテーションの高価なコストによる、アーキテクチャ外部に関する限定的で詳細なアノテーションがある。 この欠点を克服するために,本研究では,セマンティックセグメンテーションのためのセマンティック・セグメンテーションのためのセマンティック・モデル・データセットとベンチマークを提案する。 現実世界の建物の4つの異なる建築目的と、香港のオープンな建築景観を特徴としている。 各点クラウドは14のセマンティッククラスのうちの1つに注釈付けされる。

Precise segmentation of architectural structures provides detailed information about various building components, enhancing our understanding and interaction with our built environment. Nevertheless, existing outdoor 3D point cloud datasets have limited and detailed annotations on architectural exteriors due to privacy concerns and the expensive costs of data acquisition and annotation. To overcome this shortfall, this paper introduces a semantically-enriched, photo-realistic 3D architectural models dataset and benchmark for semantic segmentation. It features 4 different building purposes of real-world buildings as well as an open architectural landscape in Hong Kong. Each point cloud is annotated into one of 14 semantic classes.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# ユーザフローの再利用による適合性モバイルアプリのクレーシェからのリカバリ

Recover as It is Designed to Be: Recovering from Compatibility Mobile App Crashes by Reusing User Flows ( http://arxiv.org/abs/2406.01339v1 )

ライセンス: Link先を確認
Donghwi Kim, Hyungjun Yoon, Chang Min Park, Sujin Han, Youngjin Kwon, Steven Y. Ko, Sung-Ju Lee, (参考訳) Android OSは、API更新とデバイスベンダのOSカスタマイズによって著しく断片化されており、非常に異なるOSバージョンが共存する市場条件を形成している。 これにより、Androidアプリが特定のAndroidバージョンでクラッシュするが、他のバージョンではクラッシュしない互換性のクラッシュ問題が発生する。 この問題はよく知られていますが、テストが必要な市場にはAndroidバージョンが多すぎるため、アプリ開発者が克服するのは極めて困難です。 RecoFlowは、アプリの開発者が、私たちのAPIとビジュアルツールを使ったプログラミングユーザフローによって、クラッシュから自動的にアプリを復元することを可能にするフレームワークです。 RecoFlowは、ユーザデバイス上のユーザフローによるアプリの機能使用を追跡し、クラッシュによって中断されたアプリの機能のUIアクションを再生することで、クラッシュからアプリを回復する。 繰り返し発生する互換性のクラッシュを防止するため、RecoFlowは、我々の新しいAndroid OS仮想化技術によって実現された互換性モードで、以前クラッシュしたアプリを実行します。 プロのAndroid開発者に対する私たちの評価は、APIとツールが使いやすく、互換性のクラッシュから回復するのに有効であることを示しています。

Android OS is severely fragmented by API updates and device vendors' OS customization, creating a market condition where vastly different OS versions coexist. This gives rise to compatibility crash problems where Android apps crash on certain Android versions but not on others. Although well-known, this problem is extremely challenging for app developers to overcome due to the sheer number of Android versions in the market that must be tested. We present RecoFlow, a framework for enabling app developers to automatically recover an app from a crash by programming user flows with our API and visual tools. RecoFlow tracks app feature usage with the user flows on user devices and recovers an app from a crash by replaying UI actions of the app feature disrupted by the crash. To prevent recurring compatibility crashes, RecoFlow executes a previously crashed app in compatibility mode that is enabled by our novel Android OS virtualization technique. Our evaluation with professional Android developers shows that our API and tools are easy to use and effective in recovering from compatibility crashes.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# 三角環におけるハイゼンベルク反強磁性モデルを用いた$\mathrm{Cu}_{3}$-like化合物に基づく量子機械

Quantum machines based on $\mathrm{Cu}_{3}$-like compounds using the Heisenberg antiferromagnetic model in a triangular ring ( http://arxiv.org/abs/2406.01340v1 )

ライセンス: Link先を確認
Onofre Rojas, Moises Rojas, (参考訳) 本研究では, 反強磁性結合スピン系, 特に$\text{Cu}_{3}-\text{X}(\text{X=As, Sb})$に関する理論的研究を行い, 以前の文献で確認されたように, わずかに歪んだ等方三角形の構成を示す。 このシステムは、三角構造内のハイゼンベルクモデルを用いてモデル化され、交換相互作用、ジアロシンスキー-モリヤ相互作用、g因子、および外部磁場が組み込まれている。 我々は、$\text{Cu}_{3}$-like反強磁性結合スピン系に基づく3つの量子マシンを探索する。 垂直磁場が約$\sim5$Tである場合、低温で顕著に重要なMCE (Magneticocaloric effect) は、およそ$T\sim1$Kである。 熱機関および冷凍機として, 外部磁場の影響を観測し, これらの条件下での熱効率について検討した。 以上の結果から,MCEの強化により,熱機関としての操作領域が広いことが示唆された。 さらに、量子オットーマシンを探索し、熱エンジン、冷蔵庫、ヒーター、熱加速器として機能する汎用性を示した。 しかし、主に冷蔵庫やアクセラレーターとして運用されている。 また、対応する熱効率についても検討する。 同様に、熱エンジン、冷蔵庫、ヒーター、熱加速器として機能する量子スターリングマシンも分析しましたが、主に冷凍機と熱加速器として機能します。 また,対応する熱効率についても検討した。 熱エンジンとしてのオットーマシンの性能は、特にMCEの影響を受けており、スターリングマシンの動作モードは、MCE周辺の熱エンジンと加速器の間で切替される。

In this work, we present a theoretical investigation into an antiferromagnetically coupled spin system, specifically $\text{Cu}_{3}-\text{X}(\text{X=As, Sb})$, which exhibits a configuration of a slightly distorted equilateral triangle, as identified in previous literature. This system is modeled using the Heisenberg model within a triangular structure, incorporating exchange interaction, Dzyaloshinskii-Moriya interaction, g-factors, and an external magnetic field. We explore three quantum machines based on the $\text{Cu}_{3}$-like antiferromagnetically coupled spin system. The magnetocaloric effect (MCE), which is notably more significant at low temperatures, around $T\sim1$K, for a perpendicular magnetic field at approximately $\sim5$T, has been analyzed. We examine the Carnot machine, observing the influence of the external magnetic field on its operation as both a heat engine and refrigerator, and discuss the thermal efficiencies under these conditions. Our findings suggest that enhanced MCE allows for broader operation regions as a heat engine. Additionally, we explore the quantum Otto machine, showing its versatility in functioning as a heat engine, refrigerator, heater, and thermal accelerator. However, it mainly operates as a refrigerator and accelerator. We also explore their corresponding thermal efficiencies. Similarly, we have analyzed the quantum Stirling machine, which is capable of functioning as a heat engine, refrigerator, heater, and thermal accelerator, but it mainly operates as a refrigerator and thermal accelerator. We also examined the corresponding thermal efficiencies. It is worth mentioning that the Otto machine performance as a heat engine is notably influenced by the MCE, while the operational mode of the Stirling machine switches between a heat engine and accelerator around MCE is more prominent.
翻訳日:2024-06-05 22:59:31 公開日:2024-06-03
# BMRS: 構造的刈り込みのためのベイズモデル削減

BMRS: Bayesian Model Reduction for Structured Pruning ( http://arxiv.org/abs/2406.01345v1 )

ライセンス: Link先を確認
Dustin Wright, Christian Igel, Raghavendra Selvan, (参考訳) 現代のニューラルネットワークはしばしば過度にパラメータ化され、トレーニングと推論の間に高い計算コストをもたらす。 優れた性能を維持しながら、ニューラルネットワークの計算効率とエネルギー効率を改善する効果的な方法は、モデル出力に限られた影響を持つ完全なネットワーク構造(例えば、ニューロンや畳み込みフィルタ)を除去する構造化プルーニングである。 本研究では,完全にエンドツーエンドの構造化刈り込み手法であるBMRS(Bayesian Model Reduction for Structured Pruning)を提案する。 BMRSは2つの最近の手法に基づいており、ベイジアン構造プルーニングとベイジアンモデルリダクション(BMR)は、ベイジアンモデルの事前変化による効率的な比較を可能にする手法である。 我々は、異なる構造化プルーニング特性をもたらす、異なる事前から派生したBMRSの2つの実現法を提案する。 1) BMRS_Nは、閾値を調整することなく、信頼性の高い圧縮率と精度を提供する、切り詰められたログ正規化前のBMRS_Nである。 2) BMRS_Uはトランケーションの境界に基づいてより攻撃的な圧縮を実現することができる。 全体として、BMRSは、高い圧縮率と精度の両方をもたらすニューラルネットワークの構造的プルーニングに対して理論的に基礎的なアプローチを提供する。 複雑度の異なる複数のデータセットとニューラルネットワークの実験により、2つのBMRS法は、他のプルーニング法と比較して、競合するパフォーマンス効率のトレードオフを提供することが示された。

Modern neural networks are often massively overparameterized leading to high compute costs during training and at inference. One effective method to improve both the compute and energy efficiency of neural networks while maintaining good performance is structured pruning, where full network structures (e.g. neurons or convolutional filters) that have limited impact on the model output are removed. In this work, we propose Bayesian Model Reduction for Structured pruning (BMRS), a fully end-to-end Bayesian method of structured pruning. BMRS is based on two recent methods: Bayesian structured pruning with multiplicative noise, and Bayesian model reduction (BMR), a method which allows efficient comparison of Bayesian models under a change in prior. We present two realizations of BMRS derived from different priors which yield different structured pruning characteristics: 1) BMRS_N with the truncated log-normal prior, which offers reliable compression rates and accuracy without the need for tuning any thresholds and 2) BMRS_U with the truncated log-uniform prior that can achieve more aggressive compression based on the boundaries of truncation. Overall, we find that BMRS offers a theoretically grounded approach to structured pruning of neural networks yielding both high compression rates and accuracy. Experiments on multiple datasets and neural networks of varying complexity showed that the two BMRS methods offer a competitive performance-efficiency trade-off compared to other pruning methods.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# 制御可能な長ビデオ生成によるエンド・ツー・エンド自律運転の解き放つ一般化

Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation ( http://arxiv.org/abs/2406.01349v1 )

ライセンス: Link先を確認
Enhui Ma, Lijun Zhou, Tao Tang, Zhan Zhang, Dong Han, Junpeng Jiang, Kun Zhan, Peng Jia, Xianpeng Lang, Haiyang Sun, Di Lin, Kaicheng Yu, (参考訳) 生成モデルを使用して新しいデータを合成することは、データ不足問題に対処する自律運転におけるデファクトスタンダードとなっている。 既存の手法は知覚モデルを向上させることができるが、生成したビデオは通常8フレーム未満であり、空間的および時間的矛盾は無視できないため、エンド・ツー・エンドの自律走行モデルの設計性能を向上できない。 この目的のために,空間的整合性を高めるために多視点で共有ノイズモデリング機構を備えた拡散型長ビデオ生成手法であるDelphiと,正確な制御性と時間的整合性を両立する特徴整合モジュールを提案する。 本手法は,最先端の手法に比べて約5倍長くなる一貫性を損なうことなく,最大40フレームの映像を生成することができる。 我々は、新しいデータをランダムに生成する代わりに、サンプル効率を改善するために、これらの障害ケースに類似した新しいデータをDelphiが生成できるようにサンプリングポリシーを設計する。 これは、事前トレーニングされたビジュアル言語モデルの助けを借りて、フェールケース駆動フレームワークを構築することで実現される。 我々の大規模な実験は、Delphiが従来の最先端の手法を超越した、より高品質な長編ビデオを生成することを示した。 結果として、トレーニングデータセットの4%しか生成できないため、私たちのフレームワークは、認識と予測タスクを越えて、私たちの知る限りでは初めて、エンドツーエンドの自動運転モデルの計画性能を25%向上することが可能になります。

Using generative models to synthesize new data has become a de-facto standard in autonomous driving to address the data scarcity issue. Though existing approaches are able to boost perception models, we discover that these approaches fail to improve the performance of planning of end-to-end autonomous driving models as the generated videos are usually less than 8 frames and the spatial and temporal inconsistencies are not negligible. To this end, we propose Delphi, a novel diffusion-based long video generation method with a shared noise modeling mechanism across the multi-views to increase spatial consistency, and a feature-aligned module to achieves both precise controllability and temporal consistency. Our method can generate up to 40 frames of video without loss of consistency which is about 5 times longer compared with state-of-the-art methods. Instead of randomly generating new data, we further design a sampling policy to let Delphi generate new data that are similar to those failure cases to improve the sample efficiency. This is achieved by building a failure-case driven framework with the help of pre-trained visual language models. Our extensive experiment demonstrates that our Delphi generates a higher quality of long videos surpassing previous state-of-the-art methods. Consequentially, with only generating 4% of the training dataset size, our framework is able to go beyond perception and prediction tasks, for the first time to the best of our knowledge, boost the planning performance of the end-to-end autonomous driving model by a margin of 25%.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# 量子回路による置換群の実現

Realization of permutation groups by quantum circuit ( http://arxiv.org/abs/2406.01350v1 )

ライセンス: Link先を確認
Junchi Liu, Yangyang Ren, Yan Cao, Hanyi Sun, Lin Chen, (参考訳) 本稿では、CNOTゲートを2つ以上の要素が生成する置換群の実装に用いた。 Lemma 1では、3つのCNOTゲートが必要であり、2ビットスワップゲート操作を実行するのに十分である。 その後、Lemma 2 において、n-qubit 置換演算を行うために必要な CNOT ゲートの最大数は 3(n-1) であることが示される。 第3節では, 5つ以上のCNOTゲートの利用が, 置換要素に対応する3ビットスワップゲートの実装に不十分であることを明らかにする(123)。 したがって、6つのCNOTゲートが必要であり、実装に十分である(123)。 これは、グラフ理論のアプローチを用いて、結果を少なくとも5つのCNOTゲートで厳密に検証することで実現される。 計算ツールを用いて、正確に6つのCNOTゲートを含む有効な回路図を網羅的に探索し、(123)のスワップゲートをうまく実行し、Remark 6 と Table 2 の等価クラスを説明する。 結論は Theorem 7.1 で、解析を多ビットシナリオにまで拡張するために、定義において再現可能かつ既約な置換要素を提示する。 8 マルチキュービット空間における行間の等価性を明確にし、上記の定理の演算を行うための近似上界を多キュービットに対して与える。 9. 本論文の総合的な探索は, 特定の2ビットゲートを多用することにより, 量子回路最適化のさらなる発展を図ることを目的としている。

In this paper, we exclusively utilize CNOT gates for implementing permutation groups generated by more than two elements. In Lemma 1, we recall that three CNOT gates are both necessary and sufficient to execute a two-qubit swap gate operation. Subsequently, in Lemma 2, we show that the maximum number of CNOT gates needed to carry out an n-qubit substitution operation is 3(n-1). Moving forward, our analysis in Section 3 reveals that utilizing five or fewer CNOT gates is insufficient for implementing a three-qubit swap gate corresponding to the permutation element (123). Hence six CNOT gates are both necessary and sufficient for implementing (123). This is done by employing a graph-theoretic approach to rigorously validate the results in terms of at most five CNOT gates. Using computational tools, we exhaustively explore all valid circuit diagrams containing exactly six CNOT gates to successfully execute the swap gate for (123), by explaining the equivalence classes in Remark 6 and Table 2. We conclude them in Theorem 7.To extend our analysis to the multiqubit scenario, we present the reducible and irreducible permutation elements in Definition 8. We clarify the equivalence between rows in the multi-qubit space and provide an approximate upper bound for multi-qubits to perform the aforementioned operations in Theorem 9. The comprehensive exploration of this paper aims to pave the way for further advancements in understanding quantum circuit optimization via multiple use of a specific two-qubit gate.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# 位置紙:認知神経科学の教訓に触発されたAIの内的解釈可能性フレームワーク

Position Paper: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience ( http://arxiv.org/abs/2406.01352v1 )

ライセンス: Link先を確認
Martina G. Vilas, Federico Adolfi, David Poeppel, Gemma Roig, (参考訳) 内的解釈可能性(Inner Interpretability)は、AIシステムの内部メカニズムを明らかにすることを任務とする、有望な新興分野である。 さらに、最近の批判は、AIのより広い目標を前進させるための有用性に疑問を呈する問題を提起している。 しかし、これらの問題は別の分野の認知神経科学と類似していることが見過ごされている。 ここでは、関係する関係を描き、フィールド間で生産的に伝達できる教訓を強調します。 そこで本研究では,AIの内部解釈可能性研究における機械的説明を構築するための,一般的な概念的枠組みを提案し,具体的な方法論的戦略を提案する。 この概念的なフレームワークによって、インナー・インタプリタビリティは批判を排除し、AIシステムを説明する生産的なパスに自らを置くことができる。

Inner Interpretability is a promising emerging field tasked with uncovering the inner mechanisms of AI systems, though how to develop these mechanistic theories is still much debated. Moreover, recent critiques raise issues that question its usefulness to advance the broader goals of AI. However, it has been overlooked that these issues resemble those that have been grappled with in another field: Cognitive Neuroscience. Here we draw the relevant connections and highlight lessons that can be transferred productively between fields. Based on these, we propose a general conceptual framework and give concrete methodological strategies for building mechanistic explanations in AI inner interpretability research. With this conceptual framework, Inner Interpretability can fend off critiques and position itself on a productive path to explain AI systems.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# 拡散モデルの微分プライベート微調整

Differentially Private Fine-Tuning of Diffusion Models ( http://arxiv.org/abs/2406.01355v1 )

ライセンス: Link先を確認
Yu-Lin Tsai, Yizhe Li, Zekai Chen, Po-Yu Chen, Chia-Mu Yu, Xuebin Ren, Francois Buet-Golfouse, (参考訳) 差分プライバシー(DP)と拡散モデル(DM)の統合は、特にかなりのプライバシーリスクをもたらすDMの記憶能力のために、有望だが挑戦的なフロンティアを示す。 差分プライバシーは、モデルトレーニング中に個々のデータポイントを保護するための厳格なフレームワークを提供する。 拡散法は画像生成を反復的なステップに分解し、理論的にはDPのインクリメンタルノイズ付加と整合する。 自然に適合しているにもかかわらず、DMのユニークなアーキテクチャは、プライバシーとユーティリティのトレードオフを効果的にバランスをとるために、カスタマイズされたアプローチを必要とする。 この分野での最近の進歩は、公開データ(イメージネット)で事前学習し、プライベートデータで微調整することで高品質な合成データを生成する可能性を強調しているが、DP設定におけるトレードオフの最適化、特にパラメータ効率とモデルのスケーラビリティに関する研究において、明らかなギャップがある。 我々の研究は、プライベート拡散モデルに最適化されたパラメータ効率の良い微調整戦略を提案し、プライバシーとユーティリティのトレードオフを強化するためにトレーニング可能なパラメータの数を最小化する。 提案手法はDP合成における最先端性を実現し,広く研究されているデータセットのベンチマークを著しく上回り,トレーニング可能なパラメータが0.47Mに留まり,CelebA-64データセットのプライバシ予算が小さく,従来の最先端性よりも35%以上改善されていることを実証的に実証した。 anonymous codes available at https://anonymous.4open.science/r/DP-LORA-F02F

The integration of Differential Privacy (DP) with diffusion models (DMs) presents a promising yet challenging frontier, particularly due to the substantial memorization capabilities of DMs that pose significant privacy risks. Differential privacy offers a rigorous framework for safeguarding individual data points during model training, with Differential Privacy Stochastic Gradient Descent (DP-SGD) being a prominent implementation. Diffusion method decomposes image generation into iterative steps, theoretically aligning well with DP's incremental noise addition. Despite the natural fit, the unique architecture of DMs necessitates tailored approaches to effectively balance privacy-utility trade-off. Recent developments in this field have highlighted the potential for generating high-quality synthetic data by pre-training on public data (i.e., ImageNet) and fine-tuning on private data, however, there is a pronounced gap in research on optimizing the trade-offs involved in DP settings, particularly concerning parameter efficiency and model scalability. Our work addresses this by proposing a parameter-efficient fine-tuning strategy optimized for private diffusion models, which minimizes the number of trainable parameters to enhance the privacy-utility trade-off. We empirically demonstrate that our method achieves state-of-the-art performance in DP synthesis, significantly surpassing previous benchmarks on widely studied datasets (e.g., with only 0.47M trainable parameters, achieving a more than 35% improvement over the previous state-of-the-art with a small privacy budget on the CelebA-64 dataset). Anonymous codes available at https://anonymous.4open.science/r/DP-LORA-F02F.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# MP-PolarMask - コンケーブ画像の高速かつ高速なインスタンスセグメンテーション

MP-PolarMask: A Faster and Finer Instance Segmentation for Concave Images ( http://arxiv.org/abs/2406.01356v1 )

ライセンス: Link先を確認
Ke-Lei Wang, Pin-Hsuan Chou, Young-Ching Chou, Chia-Jen Liu, Cheng-Kuan Lin, Yu-Chee Tseng, (参考訳) 例のセグメンテーションには多くのモデルがあるが、PolarMaskは、Polar座標系によって物体を表すユニークなモデルとして際立っている。 アンカーボックスフリーの設計と一度に検出とセグメンテーションを行う単一ステージのフレームワークにより、PolarMaskは効率と精度のバランスをとることができることが証明された。 したがって、他のダウンストリームリアルタイムアプリケーションと簡単に接続できる。 本研究では,PolarMaskに関連する2つの欠陥について述べる。 一 凹物を表すことができないこと、及び (II)レイレグレッションの非効率性。 複数の極系を利用するMP-PolarMask(Multi-Point PolarMask)を提案する。 主なアイデアは、一つの主極系から4つの補助極系へと拡張し、より複雑な凸と凹凸の混合形状を表現できるようにすることである。 我々はMP-PolarMaskをCOCOデータセットの一般オブジェクトと食品オブジェクトの両方で検証し、この結果は36光のPolarMaskよりもAP_Lで13.69%、APで7.23%の大幅な改善を示した。

While there are a lot of models for instance segmentation, PolarMask stands out as a unique one that represents an object by a Polar coordinate system. With an anchor-box-free design and a single-stage framework that conducts detection and segmentation at one time, PolarMask is proved to be able to balance efficiency and accuracy. Hence, it can be easily connected with other downstream real-time applications. In this work, we observe that there are two deficiencies associated with PolarMask: (i) inability of representing concave objects and (ii) inefficiency in using ray regression. We propose MP-PolarMask (Multi-Point PolarMask) by taking advantage of multiple Polar systems. The main idea is to extend from one main Polar system to four auxiliary Polar systems, thus capable of representing more complicated convex-and-concave-mixed shapes. We validate MP-PolarMask on both general objects and food objects of the COCO dataset, and the results demonstrate significant improvement of 13.69% in AP_L and 7.23% in AP over PolarMask with 36 rays.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# スピナーボース-アインシュタイン凝縮と電流-密度相互作用

Spinor Bose-Einstein condensates subject to current-density interactions ( http://arxiv.org/abs/2406.01357v1 )

ライセンス: Link先を確認
Maria Arazo, Montserrat Guilleumas, Ricardo Mayol, Vicente Delgado, Antonio Muñoz Mateo, (参考訳) 最近達成されたキラル凝縮物は、電流-密度相互作用によって誘導されるキラル特性の研究に興味深い道を開いた。 これらの特徴をスピノル系に含めようとする試みは、スピン成分間の線形結合による保存量の制約とともに、微分軌道電流から生じる非線形で効果的なスピン軌道結合をもたらす。 キラリティは、表面波、暗いソリトンと明るいソリトン、ジョセフソン渦で探索される定常状態のスペクトルとその動的安定性に及んでいる。 我々の解析的および数値的な結果は、偏極とジョセフソン電流の不安定化の役割を明らかにし、平面波の線形重ね合わせで構築された安定な非線形状態の存在を支持する。

Recently achieved chiral condensates open intriguing avenues for the study of the chiral properties induced by current-density interactions. An attempt to include these features in a spinor system is presented, which gives rise to a nonlinear, effective spin-orbit coupling that emerges from the differential orbital currents, along with constraints in the conserved quantities due to the linear coupling between spin components. Chirality pervades the resulting spectrum of stationary states and their dynamical stability, which are explored in plane waves, dark and bright solitons, and Josephson vortices. Our analytical and numerical results reveal the destabilizing role of polarization and Josephson currents, and support the existence of stable nonlinear states built of linear superpositions of plane waves.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# 剣の世界でアタリを弾くことを学ぶ

Learning to Play Atari in a World of Tokens ( http://arxiv.org/abs/2406.01361v1 )

ライセンス: Link先を確認
Pranav Agarwal, Sheldon Andrews, Samira Ebrahimi Kahou, (参考訳) モデルベース強化学習エージェントは、拡張コンテキストをモデル化する能力により、サンプル効率が向上し、より正確な世界モデルが得られる。 しかし、複雑な推論や計画タスクでは、これらの手法は主に連続的な表現に依存している。 これは、補間が可算でないような解離対象クラスのような実世界の離散的性質のモデリングを複雑にする。 本研究では,世界と学習行動の両方をモデル化するための離散表現を利用したサンプル効率の手法である,トランスフォーマーベース学習(DART)のための離散抽象表現を紹介する。 本研究では,自己回帰的世界モデリングのためのトランスフォーマー・デコーダと,世界モデルの離散表現におけるタスク関連キューへの参加による学習行動のためのトランスフォーマー・デコーダを組み込んだ。 部分的な可観測性を扱うために、過去のステップから情報をメモリトークンとして集約する。 DARTは、Atari 100kサンプル効率ベンチマークでルックアヘッド検索を使用しない従来の最先端の手法よりも、平均的な人間正規化スコアが0.790で、26試合中9試合で人間に勝っている。 コードをhttps://pranaval.github.io/DART/でリリースします。

Model-based reinforcement learning agents utilizing transformers have shown improved sample efficiency due to their ability to model extended context, resulting in more accurate world models. However, for complex reasoning and planning tasks, these methods primarily rely on continuous representations. This complicates modeling of discrete properties of the real world such as disjoint object classes between which interpolation is not plausible. In this work, we introduce discrete abstract representations for transformer-based learning (DART), a sample-efficient method utilizing discrete representations for modeling both the world and learning behavior. We incorporate a transformer-decoder for auto-regressive world modeling and a transformer-encoder for learning behavior by attending to task-relevant cues in the discrete representation of the world model. For handling partial observability, we aggregate information from past time steps as memory tokens. DART outperforms previous state-of-the-art methods that do not use look-ahead search on the Atari 100k sample efficiency benchmark with a median human-normalized score of 0.790 and beats humans in 9 out of 26 games. We release our code at https://pranaval.github.io/DART/.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# LLMによるリコメンデーションのプライバシ:最近の進歩と今後の方向性

Privacy in LLM-based Recommendation: Recent Advances and Future Directions ( http://arxiv.org/abs/2406.01363v1 )

ライセンス: Link先を確認
Sichun Luo, Wei Shao, Yuxuan Yao, Jian Xu, Mingyang Liu, Qintong Li, Bowei He, Maolin Wang, Guanzhi Deng, Hanxu Hou, Xinyi Zhang, Linqi Song, (参考訳) 近年,大規模言語モデル (LLM) と従来のレコメンデーションモデルが統合され,レコメンデーション性能が向上している。 しかしながら、既存の作業の多くはモデルパフォーマンスの改善に重点を置いているものの、プライバシ問題は比較的少ない関心しか寄せられていない。 本稿では,LLMに基づくレコメンデーションにおけるプライバシの最近の進歩を概観し,プライバシ攻撃と保護機構に分類する。 さらに、いくつかの課題を強調し、これらの重要な問題に対処するためのコミュニティの今後の方向性を提案する。

Nowadays, large language models (LLMs) have been integrated with conventional recommendation models to improve recommendation performance. However, while most of the existing works have focused on improving the model performance, the privacy issue has only received comparatively less attention. In this paper, we review recent advancements in privacy within LLM-based recommendation, categorizing them into privacy attacks and protection mechanisms. Additionally, we highlight several challenges and propose future directions for the community to address these critical problems.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# BELLS: LLMセーフガードの評価のための将来のベンチマークに向けたフレームワーク

BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards ( http://arxiv.org/abs/2406.01364v1 )

ライセンス: Link先を確認
Diego Dorn, Alexandre Variengien, Charbel-Raphaël Segerie, Vincent Corruble, (参考訳) 入力出力セーフガードは、LLM(Large Language Models)システムによって生成されたトレースの異常を検出するために使用される。 これらの検出器は、リアルタイム監視、トレースのオフライン評価、コンテンツモデレーションなど、多様な安全クリティカルなアプリケーションの中核にある。 しかし、評価する方法論は広く認知されていない。 このギャップを埋めるために,(1) 既定の既定の障害モードのベンチマークに基づいて,既存のインプットアウトプットセーフガードのパフォーマンスを比較することを目的とした,確立された障害テスト,(2) 未確認の障害モードの一般化を計測し,より一般的なセーフガードの開発を促進すること,(3) より複雑なスキャフォールディング(LLMエージェントやマルチエージェントシステムなど)のための次世代アーキテクチャテスト, (3) 安全ガードが存在しない将来のアプリケーションに適応可能な安全ガードの開発を促進すること,の3つのカテゴリに編成された,LLMセーフガードの評価のためのベンチマーク(BELLS)を紹介した。 さらに、MACHIAVELLI環境を使用して、最初の次世代アーキテクチャテストを実装し、共有し、データセットをインタラクティブに可視化する。

Input-output safeguards are used to detect anomalies in the traces produced by Large Language Models (LLMs) systems. These detectors are at the core of diverse safety-critical applications such as real-time monitoring, offline evaluation of traces, and content moderation. However, there is no widely recognized methodology to evaluate them. To fill this gap, we introduce the Benchmarks for the Evaluation of LLM Safeguards (BELLS), a structured collection of tests, organized into three categories: (1) established failure tests, based on already-existing benchmarks for well-defined failure modes, aiming to compare the performance of current input-output safeguards; (2) emerging failure tests, to measure generalization to never-seen-before failure modes and encourage the development of more general safeguards; (3) next-gen architecture tests, for more complex scaffolding (such as LLM-agents and multi-agent systems), aiming to foster the development of safeguards that could adapt to future applications for which no safeguard currently exists. Furthermore, we implement and share the first next-gen architecture test, using the MACHIAVELLI environment, along with an interactive visualization of the dataset.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# 特徴可視化から視覚回路へ:逆モデル操作の効果

From Feature Visualization to Visual Circuits: Effect of Adversarial Model Manipulation ( http://arxiv.org/abs/2406.01365v1 )

ライセンス: Link先を確認
Geraldin Nanfack, Michael Eickenberg, Eugene Belilovsky, (参考訳) 大規模ディープニューラルネットワークの内部動作機能を理解することは、いくつかの高度なアプリケーションでは難しいが重要な課題である。 メカニスティック・インター・プレッタビリティ(Mechanistic Inter-Pretability)は、この課題に対処する創発的な分野である。 視覚に順応したモデルでは、これらのサブグラフは通常、特徴視覚化と呼ばれる一般的な手法でノードの特徴を視覚化することで解釈される。 近年の研究では, 異なる特徴可視化型の安定性を, 対向モデル操作フレームワーク下で解析している。 本稿では,2種類の特徴可視化を同時に操作するProxPulseと呼ばれる新たな攻撃を提案することによって,既存の作業の限界に対処することから始める。 驚くべきことに、これらの攻撃を視覚回路の傘で分析すると、視覚回路がProxPulseに頑丈であることが分かる。 そこで我々は、ProxPulseに基づく新たな攻撃を導入し、視覚回路のマニピュラビリティを明らかにし、堅牢性の欠如に光を当てる。 これらの攻撃の有効性は、ImageNet上でトレーニング済みのAlexNetとResNet-50モデルを使用して検証される。

Understanding the inner working functionality of large-scale deep neural networks is challenging yet crucial in several high-stakes applications. Mechanistic inter- pretability is an emergent field that tackles this challenge, often by identifying human-understandable subgraphs in deep neural networks known as circuits. In vision-pretrained models, these subgraphs are usually interpreted by visualizing their node features through a popular technique called feature visualization. Recent works have analyzed the stability of different feature visualization types under the adversarial model manipulation framework. This paper starts by addressing limitations in existing works by proposing a novel attack called ProxPulse that simultaneously manipulates the two types of feature visualizations. Surprisingly, when analyzing these attacks under the umbrella of visual circuits, we find that visual circuits show some robustness to ProxPulse. We, therefore, introduce a new attack based on ProxPulse that unveils the manipulability of visual circuits, shedding light on their lack of robustness. The effectiveness of these attacks is validated using pre-trained AlexNet and ResNet-50 models on ImageNet.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# D-CPT法:大規模言語モデルのドメイン固有連続事前学習法

D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models ( http://arxiv.org/abs/2406.01375v1 )

ライセンス: Link先を確認
Haoran Que, Jiaheng Liu, Ge Zhang, Chenchen Zhang, Xingwei Qu, Yinghao Ma, Feiyu Duan, Zhiqi Bai, Jiakai Wang, Yuanxing Zhang, Xu Tan, Jie Fu, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng, (参考訳) 大規模言語モデル(LLM)におけるCPT(Continuous Pre-Training)は、特定の下流ドメイン(例えば、数学やコード)に対するモデルの基本的理解を拡大するために広く用いられている。 ドメイン固有LLMに関するCPTでは、一般コーパス(例えば、Dolma、Slim-pajama)と下流ドメインコーパスの最適混合比をどのように選択するかが重要な問題である。 既存の手法では、GPUトレーニングのコストが高い混合比のセットをグリッドサーチすることで、退屈な人間の努力を採用するのが一般的である。 さらに、選択された比率が特定の領域に最適であることを保証できない。 性能予測のためのスケーリング法(Scaling Law for Performance Prediction)に触発された既存手法の限界に対処するため,ドメイン固有連続事前学習法(D-CPT Law)のスケーリング法を検討し,異なるサイズのLCMに対して許容するトレーニングコストと最適混合比を決定することを提案する。 具体的には、D-CPT法を適用すれば、任意の混合比、モデルサイズ、データセットサイズの一般および下流性能を、限られた実験において小規模のトレーニングコストを用いて容易に予測できる。 さらに、クロスドメイン設定に関する標準D-CPT法を拡張し、ターゲットドメインのD-CPT法を予測するクロスドメインD-CPT法を提案し、ターゲットドメインに対して非常に少ないトレーニングコスト(通常のトレーニングコストの約1%)が必要となる。 6つの下流領域における総合的な実験結果から,提案したD-CPT法とクロスドメインD-CPT法の有効性と一般化性を示した。

Continual Pre-Training (CPT) on Large Language Models (LLMs) has been widely used to expand the model's fundamental understanding of specific downstream domains (e.g., math and code). For the CPT on domain-specific LLMs, one important question is how to choose the optimal mixture ratio between the general-corpus (e.g., Dolma, Slim-pajama) and the downstream domain-corpus. Existing methods usually adopt laborious human efforts by grid-searching on a set of mixture ratios, which require high GPU training consumption costs. Besides, we cannot guarantee the selected ratio is optimal for the specific domain. To address the limitations of existing methods, inspired by the Scaling Law for performance prediction, we propose to investigate the Scaling Law of the Domain-specific Continual Pre-Training (D-CPT Law) to decide the optimal mixture ratio with acceptable training costs for LLMs of different sizes. Specifically, by fitting the D-CPT Law, we can easily predict the general and downstream performance of arbitrary mixture ratios, model sizes, and dataset sizes using small-scale training costs on limited experiments. Moreover, we also extend our standard D-CPT Law on cross-domain settings and propose the Cross-Domain D-CPT Law to predict the D-CPT law of target domains, where very small training costs (about 1% of the normal training costs) are needed for the target domains. Comprehensive experimental results on six downstream domains demonstrate the effectiveness and generalizability of our proposed D-CPT Law and Cross-Domain D-CPT Law.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# 時間的コントラスト学習によるマルチエージェントトランスファー学習

Multi-Agent Transfer Learning via Temporal Contrastive Learning ( http://arxiv.org/abs/2406.01377v1 )

ライセンス: Link先を確認
Weihao Zeng, Joseph Campbell, Simon Stepputtis, Katia Sycara, (参考訳) 本稿では,深層多エージェント強化学習のための新しい伝達学習フレームワークを提案する。 このアプローチは、ゴール条件付きポリシーと時間的コントラスト学習を自動的に組み合わせて、意味のあるサブゴールを発見する。 このアプローチでは、目標条件付きエージェントを事前トレーニングし、ターゲットドメイン上でそれを微調整し、対照的な学習を使用して、サブゴールを介してエージェントをガイドする計画グラフを構築する。 オーバークッキングタスクによるマルチエージェント協調実験では、サンプル効率の向上、スパース・リワードとロングホライゾンの問題を解決する能力、ベースラインと比較して解釈可能性の向上が示されている。 その結果、複雑なマルチエージェント変換学習において、目標条件付きポリシーと教師なし時間的抽象学習を統合することの有効性を強調した。 最先端のベースラインと比較して,本手法はトレーニングサンプルの21.7%しか必要とせず,同等あるいはより良い性能を実現している。

This paper introduces a novel transfer learning framework for deep multi-agent reinforcement learning. The approach automatically combines goal-conditioned policies with temporal contrastive learning to discover meaningful sub-goals. The approach involves pre-training a goal-conditioned agent, finetuning it on the target domain, and using contrastive learning to construct a planning graph that guides the agent via sub-goals. Experiments on multi-agent coordination Overcooked tasks demonstrate improved sample efficiency, the ability to solve sparse-reward and long-horizon problems, and enhanced interpretability compared to baselines. The results highlight the effectiveness of integrating goal-conditioned policies with unsupervised temporal abstraction learning for complex multi-agent transfer learning. Compared to state-of-the-art baselines, our method achieves the same or better performances while requiring only 21.7% of the training samples.
翻訳日:2024-06-05 22:49:47 公開日:2024-06-03
# オフライン意思決定における学習可能性の理論

A Theory of Learnability for Offline Decision Making ( http://arxiv.org/abs/2406.01378v1 )

ライセンス: Link先を確認
Chenjie Mao, Qiaosheng Zhang, (参考訳) 本稿では,学習目標に部分的に相関したデータセットから決定を学習することに焦点を当てたオフライン意思決定の課題について検討する。 従来の研究では、オフライン強化学習(RL)やオフ政治評価(OPE)といった特定のオフライン意思決定問題について広範囲に研究されてきたが、統一された枠組みと理論はいまだに存在しない。 このギャップに対処するために、オフラインRL、OPE、オフライン部分観測可能なマルコフ決定プロセス(POMDP)を含む幅広いオフライン意思決定問題をキャプチャする、DMOF(Decision Making with Offline Feedback)と呼ばれる統合フレームワークを導入する。 DMOF フレームワークでは,オフライン推定係数 (OEC) と呼ばれる,オフライン意思決定問題の学習可能性を測定し,導出したミニマックス下界にも反映する難易度尺度を導入する。 さらに、インスタンス依存上界とミニマックス上界の両方を確立するための、EDD(Empirical Decision with Divergence)アルゴリズムを導入する。 ミニマックス上界は、OECによって決定される下界とほぼ一致する。 最後に, 教師付き学習やマルコフ的逐次問題~(例えば, MDPs)などの特定の設定に対して, EDD が高速収束率(例えば, 1/N$ のスケーリングでサンプルサイズが$N$ となる)を達成することを示す。

We study the problem of offline decision making, which focuses on learning decisions from datasets only partially correlated with the learning objective. While previous research has extensively studied specific offline decision making problems like offline reinforcement learning (RL) and off-policy evaluation (OPE), a unified framework and theory remain absent. To address this gap, we introduce a unified framework termed Decision Making with Offline Feedback (DMOF), which captures a wide range of offline decision making problems including offline RL, OPE, and offline partially observable Markov decision processes (POMDPs). For the DMOF framework, we introduce a hardness measure called the Offline Estimation Coefficient (OEC), which measures the learnability of offline decision making problems and is also reflected in the derived minimax lower bounds. Additionally, we introduce an algorithm called Empirical Decision with Divergence (EDD), for which we establish both an instance-dependent upper bound and a minimax upper bound. The minimax upper bound almost matches the lower bound determined by the OEC. Finally, we show that EDD achieves a fast convergence rate (i.e., a rate scaling as $1/N$, where $N$ is the sample size) for specific settings such as supervised learning and Markovian sequential problems~(e.g., MDPs) with partial coverage.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# 外周部を有する多物体追跡のための畳み込みアンセントカルマンフィルタ

Convolutional Unscented Kalman Filter for Multi-Object Tracking with Outliers ( http://arxiv.org/abs/2406.01380v1 )

ライセンス: Link先を確認
Shiqi Liu, Wenhan Cao, Chang Liu, Tianyi Zhang, Shengbo Eben Li, (参考訳) マルチオブジェクトトラッキング(MOT)は、自律運転におけるナビゲーションに不可欠な技術である。 トラッキング・バイ・検出システムでは、複雑なトラフィックシナリオのため、バイアス、偽陽性、ミスが避けられない。 最近の追跡手法は、これらのアウトリーチを見渡すフィルタリングアルゴリズムに基づいており、トラッキングの精度を低下させ、オブジェクトの軌道の損失も減少させる。 この課題に対処するために、実測データの分布とフィルタリングに使用される名目計測モデルとの相違点として、外れ値の生成に関する確率論的視点を採用する。 さらに、畳み込み操作を設計することで、この不特定性を緩和できることを実証する。 一般に採用されている追跡アルゴリズムにおいて、この操作を広く使われているKalmanフィルタ(UKF)に組み込むと、UKF(Convolutional UKF)と呼ばれる外れ値に頑健なUKFの変種を導出する。 本稿では,ConvUKFがガウス共役性を維持し,リアルタイムな追跡を可能にすることを示す。 また,ConvUKFが外乱の存在下で有界な追従誤差を持つことも証明した。 KITTIおよびnuScenesデータセットの実験結果は、MOTタスクの代表的なベースラインアルゴリズムと比較して精度が向上した。

Multi-object tracking (MOT) is an essential technique for navigation in autonomous driving. In tracking-by-detection systems, biases, false positives, and misses, which are referred to as outliers, are inevitable due to complex traffic scenarios. Recent tracking methods are based on filtering algorithms that overlook these outliers, leading to reduced tracking accuracy or even loss of the objects trajectory. To handle this challenge, we adopt a probabilistic perspective, regarding the generation of outliers as misspecification between the actual distribution of measurement data and the nominal measurement model used for filtering. We further demonstrate that, by designing a convolutional operation, we can mitigate this misspecification. Incorporating this operation into the widely used unscented Kalman filter (UKF) in commonly adopted tracking algorithms, we derive a variant of the UKF that is robust to outliers, called the convolutional UKF (ConvUKF). We show that ConvUKF maintains the Gaussian conjugate property, thus allowing for real-time tracking. We also prove that ConvUKF has a bounded tracking error in the presence of outliers, which implies robust stability. The experimental results on the KITTI and nuScenes datasets show improved accuracy compared to representative baseline algorithms for MOT tasks.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# 大規模言語モデルは人々の期待通りに機能するか? : 人間の一般化関数の測定

Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function ( http://arxiv.org/abs/2406.01382v1 )

ライセンス: Link先を確認
Keyon Vafa, Ashesh Rambachan, Sendhil Mullainathan, (参考訳) 大きな言語モデル(LLM)を印象付けるのは、それらを評価するのが難しいことです。 これらのモデルを評価するためには、それらの目的を理解する必要がある。 我々は、これらのデプロイメント決定が人々によってなされる状況、特にLDMがうまく機能する場所についての人々の信念を考える。 我々は、人間の一般化関数の結果としてのそのような信念をモデル化する: LLMが正しいか間違っているかを見て、人々はそれが成功する可能性のある場所を一般化する。 MMLUとBIG-Benchベンチマークから、79のタスクにまたがる一般化の例を19Kのデータセットで収集する。 人間の一般化関数は NLP 法を用いて予測可能であることを示す。 次に,人間の一般化関数とLCMのアライメントを評価する。 我々の結果は、特にミスのコストが高い場合には、より有能なモデル(例えばGPT-4)は、人間の一般化関数に一致しないため、人々が使用するインスタンスに対して、より悪い結果をもたらすことを示しています。

What makes large language models (LLMs) impressive is also what makes them hard to evaluate: their diversity of uses. To evaluate these models, we must understand the purposes they will be used for. We consider a setting where these deployment decisions are made by people, and in particular, people's beliefs about where an LLM will perform well. We model such beliefs as the consequence of a human generalization function: having seen what an LLM gets right or wrong, people generalize to where else it might succeed. We collect a dataset of 19K examples of how humans make generalizations across 79 tasks from the MMLU and BIG-Bench benchmarks. We show that the human generalization function can be predicted using NLP methods: people have consistent structured ways to generalize. We then evaluate LLM alignment with the human generalization function. Our results show that -- especially for cases where the cost of mistakes is high -- more capable models (e.g. GPT-4) can do worse on the instances people choose to use them for, exactly because they are not aligned with the human generalization function.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# 自律型身体システムにおける構造因果モデルの拡張

Extending Structural Causal Models for Use in Autonomous Embodied Systems ( http://arxiv.org/abs/2406.01384v1 )

ライセンス: Link先を確認
Rhys Howard, Lars Kunze, (参考訳) 多くのドメインで因果推論技術を開発するために多くの研究がなされてきたが、自律システムにおける因果性の利用はまだ初期段階にある。 自律システムは、構造因果モデル(SCM)のような表現を使用することによって因果関係の統合から大きな恩恵を受ける。 このシステムには高いレベルの透明性が与えられ、結果のポストホックな説明を可能にし、外因性変数のオンライン推論を支援する。 これらの性質は、自律システムに直接的な利益をもたらすか、公的信頼の構築と規制の通知における貴重なステップとなる。 そこで本稿では,SCMからなるモジュールベース自律運転システムについて述べる。 この課題にアプローチするには、非常に複雑で大きさのシステムを扱う場合、それ自身で長期にわたって運用する必要がある、多くの課題を考慮する必要がある。 ここでは、これらの課題と、その解決策について説明する。 ひとつはSCMのコンテキストで、残りは3つの新しい変数カテゴリで、そのうち2つは関数型プログラミングモナドに基づいています。 最後に,自律運転システムの因果能力の応用例を示す。 この例では,仮想道路衝突事故における車両エージェント間の透水性について考察する。

Much work has been done to develop causal reasoning techniques across a number of domains, however the utilisation of causality within autonomous systems is still in its infancy. Autonomous systems would greatly benefit from the integration of causality through the use of representations such as structural causal models (SCMs). The system would be afforded a higher level of transparency, it would enable post-hoc explanations of outcomes, and assist in the online inference of exogenous variables. These qualities are either directly beneficial to the autonomous system or a valuable step in building public trust and informing regulation. To such an end we present a case study in which we describe a module-based autonomous driving system comprised of SCMs. Approaching this task requires considerations of a number of challenges when dealing with a system of great complexity and size, that must operate for extended periods of time by itself. Here we describe these challenges, and present solutions. The first of these is SCM contexts, with the remainder being three new variable categories -- two of which are based upon functional programming monads. Finally, we conclude by presenting an example application of the causal capabilities of the autonomous driving system. In this example, we aim to attribute culpability between vehicular agents in a hypothetical road collision incident.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# 複合型多言語帯域とエピソード強化学習への応用

Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond ( http://arxiv.org/abs/2406.01386v1 )

ライセンス: Link先を確認
Xutong Liu, Siwei Wang, Jinhang Zuo, Han Zhong, Xuchuang Wang, Zhiyong Wang, Shuai Li, Mohammad Hajiesmaili, John C. S. Lui, Wei Chen, (参考訳) 本稿では,多変量および確率的トリガーアーム(CMAB-MT)を用いたCMAB(combinatorial multi-armed bandits)の新たな枠組みを紹介し,各アームの結果は$d$次元の多変量変数であり,フィードバックは一般的なアームトリガープロセスに従う。 CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。 CMAB-MTに対して,確率変調スムーズな条件を誘導する一般1ノルム多変量法と,この条件に基づく楽観的なCUCB-MTアルゴリズムを提案する。 提案手法は, 商品流通におけるエピソード強化学習 (RL) や確率的最大カバレッジなど, 上記の滑らかさ条件を満たすとともに, 既存の作品と比較して, 一致あるいは改善された後悔境界を達成できるような多くの重要な問題を含むことができる。 我々の新しい枠組みにより、この2つの重要な方向の相互作用を促進するために、CMABのレンズを通して、エピソードRLを解くための新しい角度を提供することにより、エピソードRLとCMABの文献の間の最初の接続を構築する。

We introduce a novel framework of combinatorial multi-armed bandits (CMAB) with multivariant and probabilistically triggering arms (CMAB-MT), where the outcome of each arm is a $d$-dimensional multivariant random variable and the feedback follows a general arm triggering process. Compared with existing CMAB works, CMAB-MT not only enhances the modeling power but also allows improved results by leveraging distinct statistical properties for multivariant random variables. For CMAB-MT, we propose a general 1-norm multivariant and triggering probability-modulated smoothness condition, and an optimistic CUCB-MT algorithm built upon this condition. Our framework can include many important problems as applications, such as episodic reinforcement learning (RL) and probabilistic maximum coverage for goods distribution, all of which meet the above smoothness condition and achieve matching or improved regret bounds compared to existing works. Through our new framework, we build the first connection between the episodic RL and CMAB literature, by offering a new angle to solve the episodic RL through the lens of CMAB, which may encourage more interactions between these two important directions.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# AutoStudio:マルチターンインタラクティブ画像生成における一貫性のある主題の作成

AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation ( http://arxiv.org/abs/2406.01388v1 )

ライセンス: Link先を確認
Junhao Cheng, Xi Lu, Hanhui Li, Khun Loun Zai, Baiqiao Yin, Yuhao Cheng, Yiqiang Yan, Xiaodan Liang, (参考訳) 最先端のテキスト・ツー・イメージ(T2I)生成モデルは、既に優れた単一画像の生成に優れており、さらに難しい課題であるマルチターン・インタラクティブな画像生成が、関連研究コミュニティの注目を集め始めている。 このタスクでは、複数のターンでユーザーと対話し、一貫性のある画像列を生成する必要がある。 しかし、ユーザが頻繁に主題を切り替える可能性があるため、現在の取り組みは多様な画像を生成しながら主題の一貫性を維持するのに苦労している。 この問題に対処するために、AutoStudioと呼ばれるトレーニング不要のマルチエージェントフレームワークを導入する。 AutoStudioは、対話を処理するために大きな言語モデル(LLM)に基づく3つのエージェントと、高品質な画像を生成するための安定した拡散(SD)ベースのエージェントを使用している。 特にAutoStudioは 一 対話の対話を解釈し、各主題の文脈を管理する主観管理者 二 被写体位置を制御するためのきめ細かいバウンディングボックスを生成するレイアウト生成装置 三 レイアウト改良の提案をする監督官、及び (iv)画像生成を完了させる引き出し。 さらに,従来のUNetを置き換えるためにParallel-UNetを導入する。 また,小被写体を保存しやすくするための被写体初期化生成手法も導入した。 当社のAutoStudioでは,対話的かつ一貫したマルチオブジェクト画像のシーケンスを生成することができる。 パブリックなCMIGBenchベンチマークと人間による評価による大規模な実験では、AutoStudioは複数のターンにまたがる複数オブジェクトの一貫性を維持しており、Frechet Inception Distanceの平均は13.65%、平均的な文字-文字類似度は2.83%向上している。

As cutting-edge Text-to-Image (T2I) generation models already excel at producing remarkable single images, an even more challenging task, i.e., multi-turn interactive image generation begins to attract the attention of related research communities. This task requires models to interact with users over multiple turns to generate a coherent sequence of images. However, since users may switch subjects frequently, current efforts struggle to maintain subject consistency while generating diverse images. To address this issue, we introduce a training-free multi-agent framework called AutoStudio. AutoStudio employs three agents based on large language models (LLMs) to handle interactions, along with a stable diffusion (SD) based agent for generating high-quality images. Specifically, AutoStudio consists of (i) a subject manager to interpret interaction dialogues and manage the context of each subject, (ii) a layout generator to generate fine-grained bounding boxes to control subject locations, (iii) a supervisor to provide suggestions for layout refinements, and (iv) a drawer to complete image generation. Furthermore, we introduce a Parallel-UNet to replace the original UNet in the drawer, which employs two parallel cross-attention modules for exploiting subject-aware features. We also introduce a subject-initialized generation method to better preserve small subjects. Our AutoStudio hereby can generate a sequence of multi-subject images interactively and consistently. Extensive experiments on the public CMIGBench benchmark and human evaluations show that AutoStudio maintains multi-subject consistency across multiple turns well, and it also raises the state-of-the-art performance by 13.65% in average Frechet Inception Distance and 2.83% in average character-character similarity.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# 潜在MDPにおけるRLはトラクタブルである:オフ・プライシ・アセスメントによるオンライン保証

RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation ( http://arxiv.org/abs/2406.01389v1 )

ライセンス: Link先を確認
Jeongyeol Kwon, Shie Mannor, Constantine Caramanis, Yonathan Efroni, (参考訳) 多くの実世界の決定問題では、部分的に観察された、隠された、あるいは潜伏した情報が、相互作用を通して固定されている。 このような決定問題は、遅延マルコフ決定過程(LMDP)としてモデル化することができ、遅延変数は相互作用の開始時に選択され、エージェントには開示されない。 過去10年間で、異なる構造的仮定の下でのLMDPの解法は著しく進歩した。 しかし、一般のLMDPでは、既存の下界~\cite{kwon2021rl}と確実に一致するような学習アルゴリズムは存在しない。 付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。 本研究は、LMDPにおける外部評価保証とカバレッジ係数の役割に関する新たな視点を、部分的に観察された環境における探索の文脈で見落としている視点から構築したものである。 具体的には,新たな非政治評価レムマを確立し,LMDPに対する新しいカバレッジ係数を導入する。 次に,これらの手法を用いて,楽観的な探索アルゴリズムの最適に近い保証を導出する方法を示す。 これらの結果は,LMDPを超えた幅広い対話型学習問題,特に部分的に観察された環境において有用であると考えられる。

In many real-world decision problems there is partially observed, hidden or latent information that remains fixed throughout an interaction. Such decision problems can be modeled as Latent Markov Decision Processes (LMDPs), where a latent variable is selected at the beginning of an interaction and is not disclosed to the agent. In the last decade, there has been significant progress in solving LMDPs under different structural assumptions. However, for general LMDPs, there is no known learning algorithm that provably matches the existing lower bound~\cite{kwon2021rl}. We introduce the first sample-efficient algorithm for LMDPs without any additional structural assumptions. Our result builds off a new perspective on the role of off-policy evaluation guarantees and coverage coefficients in LMDPs, a perspective, that has been overlooked in the context of exploration in partially observed environments. Specifically, we establish a novel off-policy evaluation lemma and introduce a new coverage coefficient for LMDPs. Then, we show how these can be used to derive near-optimal guarantees of an optimistic exploration algorithm. These results, we believe, can be valuable for a wide range of interactive learning problems beyond LMDPs, and especially, for partially observed environments.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# 大規模言語モデルのための空間加速訓練

Sparsity-Accelerated Training for Large Language Models ( http://arxiv.org/abs/2406.01392v1 )

ライセンス: Link先を確認
Da Ma, Lu Chen, Pengyu Wang, Hongshen Xu, Hanqi Li, Liangtai Sun, Su Zhu, Shuai Fan, Kai Yu, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクの習熟度を示すが、連続的な事前学習や教師付き微調整のような追加の訓練を必要とすることが多い。 しかし、これに関連するコストは、主にパラメータ数が大きいため、依然として高いままである。 本稿では,プレトレーニングLDMにおけるemph{sparsity}の利用により,この学習プロセスを高速化することを提案する。 前方反復中の活性化ニューロンの間隔を観察することにより、不活性ニューロンを排除して計算速度を上げる可能性を同定する。 我々は、既存のニューロン重要度評価指標を拡張し、ラダー省略率スケジューラを導入することで、関連する課題に対処する。 Llama-2の実験では、Sparsity-Accelerated Training (SAT) は標準トレーニングと同等あるいは優れた性能を示しながら、プロセスの大幅な高速化を実現している。 具体的には、SATは連続的な事前トレーニングで45 %$スループットの改善を達成し、実際に教師付き微調整で38 %$トレーニング時間を節約する。 ハードウェアに依存しないシンプルで、デプロイが容易なフレームワークで、追加のLLMトレーニングを提供する。 私たちのコードはhttps://github.com/OpenDFM/SAT.comで公開されています。

Large language models (LLMs) have demonstrated proficiency across various natural language processing (NLP) tasks but often require additional training, such as continual pre-training and supervised fine-tuning. However, the costs associated with this, primarily due to their large parameter count, remain high. This paper proposes leveraging \emph{sparsity} in pre-trained LLMs to expedite this training process. By observing sparsity in activated neurons during forward iterations, we identify the potential for computational speed-ups by excluding inactive neurons. We address associated challenges by extending existing neuron importance evaluation metrics and introducing a ladder omission rate scheduler. Our experiments on Llama-2 demonstrate that Sparsity-Accelerated Training (SAT) achieves comparable or superior performance to standard training while significantly accelerating the process. Specifically, SAT achieves a $45\%$ throughput improvement in continual pre-training and saves $38\%$ training time in supervised fine-tuning in practice. It offers a simple, hardware-agnostic, and easily deployable framework for additional LLM training. Our code is available at https://github.com/OpenDFM/SAT.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# プライバシストア:プライバシ削除とリカバリによる大規模言語モデルにおけるプライバシ保護推論

PrivacyRestore: Privacy-Preserving Inference in Large Language Models via Privacy Removal and Restoration ( http://arxiv.org/abs/2406.01394v1 )

ライセンス: Link先を確認
Ziqian Zeng, Jianwei Wang, Zhengdong Lu, Huiping Zhuang, Cen Chen, (参考訳) オンラインのLarge Language Models (LLMs) 推論サービスが広く使われていることで、eavesdropperや信頼できないサービスプロバイダへのユーザ入力にプライベート情報が暴露される可能性があるというプライバシー上の懸念が高まっている。 LLMの既存のプライバシー保護方法は、プライバシ保護の不足、性能劣化、厳しい推論時間オーバーヘッドに悩まされている。 本稿では,LLM推論におけるユーザ入力のプライバシ保護のためのプライバシストアを提案する。 PrivacyRestoreは、ユーザ入力のプライバシスパンを直接削除し、推論中のアクティベーションステアリングを通じてプライバシ情報を復元する。 プライバシスパンは復元ベクトルとしてエンコードされる。 本稿では,AWA(Attention-Aware Weighted Aggregation)を提案する。AWAは,入力中のすべてのプライバシの復元ベクトルをメタ復元ベクトルに集約する。 AWAはすべてのプライバシスパンの適切な表現を保証するだけでなく、攻撃者がメタ復元ベクタのみからプライバシスパンを推測することを防ぐ。 このメタ復元ベクタは、プライバシが削除されたクエリとともに、サーバに送信される。 実験の結果,PrivacyRestoreは,許容レベルのパフォーマンスと推論効率を維持しつつ,個人情報を保護できることがわかった。

The widespread usage of online Large Language Models (LLMs) inference services has raised significant privacy concerns about the potential exposure of private information in user inputs to eavesdroppers or untrustworthy service providers. Existing privacy protection methods for LLMs suffer from insufficient privacy protection, performance degradation, or severe inference time overhead. In this paper, we propose PrivacyRestore to protect the privacy of user inputs during LLM inference. PrivacyRestore directly removes privacy spans in user inputs and restores privacy information via activation steering during inference. The privacy spans are encoded as restoration vectors. We propose Attention-aware Weighted Aggregation (AWA) which aggregates restoration vectors of all privacy spans in the input into a meta restoration vector. AWA not only ensures proper representation of all privacy spans but also prevents attackers from inferring the privacy spans from the meta restoration vector alone. This meta restoration vector, along with the query with privacy spans removed, is then sent to the server. The experimental results show that PrivacyRestore can protect private information while maintaining acceptable levels of performance and inference efficiency.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# TE-NeXt: トラバーサビリティ推定のためのLiDARベースの3次元スパース畳み込みネットワーク

TE-NeXt: A LiDAR-Based 3D Sparse Convolutional Network for Traversability Estimation ( http://arxiv.org/abs/2406.01395v1 )

ライセンス: Link先を確認
Antonio Santo, Juan J. Cabrera, David Valiente, Carlos Viegas, Arturo Gil, (参考訳) 本稿では,残差畳み込みブロックに基づく疎LiDAR点雲からのトラバーサビリティ推定(TE)の新規かつ効率的なアーキテクチャであるTE-NeXtを提案する。 TE-NeXtブロックは、注意機構や3次元スパース畳み込みといった現在のトレンドの概念を融合させる。 TE-NeXtは、SemanticKITTI、Rellis-3D、SemanticUSLといったよく知られた、アクセス可能なデータセットを使用して、さまざまな都市および自然環境における一般化のための高い能力を示すことを目的としている。 このように、設計されたアーキテクチャは、セマンティックセグメンテーションの問題における最先端の手法を再構築し、非構造化環境におけるより良い結果を示し、都市環境における高い信頼性と堅牢性を維持し、より良い抽象化をもたらす。 実装は、結果の再現性を確保することを目的として、科学コミュニティへのオープンリポジトリで利用可能である。

This paper presents TE-NeXt, a novel and efficient architecture for Traversability Estimation (TE) from sparse LiDAR point clouds based on a residual convolution block. TE-NeXt block fuses notions of current trends such as attention mechanisms and 3D sparse convolutions. TE-NeXt aims to demonstrate high capacity for generalisation in a variety of urban and natural environments, using well-known and accessible datasets such as SemanticKITTI, Rellis-3D and SemanticUSL. Thus, the designed architecture ouperforms state-of-the-art methods in the problem of semantic segmentation, demonstrating better results in unstructured environments and maintaining high reliability and robustness in urbans environments, which leads to better abstraction. Implementation is available in a open repository to the scientific community with the aim of ensuring the reproducibility of results.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# ストロンチウムの円リドバーグ状態のコヒーレント重ね合わせのスローダウン

Slowing Down a Coherent Superposition of Circular Rydberg States of Strontium ( http://arxiv.org/abs/2406.01396v1 )

ライセンス: Link先を確認
L. Lachaud, B. Muraz, A. Couto, J. -M. Raimond, M. Brune, S. Gleyzes, (参考訳) ライドバーグアルカリ土類原子は量子シミュレーションと気象学のための有望な道具である。 2つの価電子のうちの1つが長寿命の環状状態に進むと、第2価電子は大きな自己イオン化なしに光学的に操作できる。 この特徴を利用して、円形ストロンチウム原子の熱原子ビームのレーザー減速を実証する。 主イオンコア422nmの波長共振を駆動することにより、大きな自己イオン化を伴わずに50m/sの速度低下を観測する。 また, 冷却過程における円形状態の重ね合わせは, 数千光子の散乱まで非常に弱い脱コヒーレンスを示す。 このロバスト性は、その運動状態を同時に冷却しながら、円形の原子を持つ長い時間スケールでの量子シミュレーションの新しい視点を開く。 これにより、量子シミュレーション中のスピンモーションカップリングによる避けられない加熱による有害な効果を軽減することができる。

Rydberg alkaline earth atoms are promising tools for quantum simulation and metrology. When one of the two valence electrons is promoted to long-lived circular states, the second valence electron can be optically manipulated without significant autoionization. We harness this feature to demonstrate laser slowing of a thermal atomic beam of circular strontium atoms. By driving the main ion core 422 nm wavelength resonance, we observe a velocity reduction of 50 m/s without significant autoionization. We also show that a superposition of circular states undergoes very weak decoherence during the cooling process, up to the scattering of more than thousand photons. This robustness opens new perspectives for quantum simulations over long timescales with circular atoms, while simultaneously cooling their motional state. It makes it possible to mitigate the harmful effects of unavoidable heating due to spin-motion coupling during a quantum simulation.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# Null Compliance:NYCローカルロー144とアルゴリズムアカウンタビリティの課題

Null Compliance: NYC Local Law 144 and the Challenges of Algorithm Accountability ( http://arxiv.org/abs/2406.01399v1 )

ライセンス: Link先を確認
Lucas Wright, Roxana Mike Muenster, Briana Vecchione, Tianyao Qu, Pika, Cai, COMM/INFO 2450 Student Investigators, Jacob Metcalf, J. Nathan Matias, (参考訳) 2023年7月、ニューヨーク市は、商業的なアルゴリズムシステム、特に雇用と昇進に使用される自動雇用決定システム(AEDT)に対するバイアス監査を義務付ける世界で最初の司法管轄区域となった。 地方法144 (LL 144) は、人種と性別の偏見について毎年独立して監査することを義務付けており、監査報告書を公表しなければならない。 さらに、雇用主は、求職者リストに透明性通知を投稿する義務がある。 本研究では,学生調査員155人がLL 144に対する雇用主のコンプライアンスと求職希望者のユーザ体験を391名記録した。 これらの雇用者のうち、18人が監査報告、13人が透明性通知を投稿した。 これらの値は、LL 144によって制定された説明責任機構の大幅な制限によって説明できる可能性がある。 この法律は、雇用主に対して、自分たちのシステムが法律の範囲内であるかどうかについて、かなりの裁量を与えるので、nullの結果が非準拠であるとは言い切れない。 従業員の判断は、ほぼ全ての監査が0.8以上の影響因子を報告しているということも説明できるかもしれない。 また、通常の求職者に対するLL 144の利点は、アクセシビリティとユーザビリティの不足により制限されていることも判明した。 本研究は,アルゴリズムシステムを規制する政策立案者にとって重要な教訓であり,特に規制当事者に付与する判断の度合い,透明性とエンドユーザの責任への依存の限界について考察した。

In July 2023, New York City became the first jurisdiction globally to mandate bias audits for commercial algorithmic systems, specifically for automated employment decisions systems (AEDTs) used in hiring and promotion. Local Law 144 (LL 144) requires AEDTs to be independently audited annually for race and gender bias, and the audit report must be publicly posted. Additionally, employers are obligated to post a transparency notice with the job listing. In this study, 155 student investigators recorded 391 employers' compliance with LL 144 and the user experience for prospective job applicants. Among these employers, 18 posted audit reports and 13 posted transparency notices. These rates could potentially be explained by a significant limitation in the accountability mechanisms enacted by LL 144. Since the law grants employers substantial discretion over whether their system is in scope of the law, a null result cannot be said to indicate non-compliance, a condition we call ``null compliance." Employer discretion may also explain our finding that nearly all audits reported an impact factor over 0.8, a rule of thumb often used in employment discrimination cases. We also find that the benefit of LL 144 to ordinary job seekers is limited due to shortcomings in accessibility and usability. Our findings offer important lessons for policy-makers as they consider regulating algorithmic systems, particularly the degree of discretion to grant to regulated parties and the limitations of relying on transparency and end-user accountability.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# 空間フォトニックイジングマシンを用いた効率的な計算:低ランク・循環行列制約を用いた計算

Efficient Computation Using Spatial-Photonic Ising Machines: Utilizing Low-Rank and Circulant Matrix Constraints ( http://arxiv.org/abs/2406.01400v1 )

ライセンス: Link先を確認
Richard Zhipeng Wang, James S. Cummins, Marvin Syed, Nikita Stroev, George Pastras, Jason Sakellariou, Symeon Tsintzos, Alexis Askitopoulos, Daniele Veraldi, Marcello Calvanese Strinati, Silvia Gentilini, Davide Pierangeli, Claudio Conti, Natalia G. Berloff, (参考訳) 我々は空間フォトニックIsing Machine (SPIM) の可能性を探り、低ランクおよび循環結合行列を用いた計算集約Ising問題に対処する。 以上の結果から,SPIMの性能は結合行列のランクと精度に大きく影響していることが明らかとなった。 高度な分解技術を開発し,評価することにより,従来のマティス型行列の限界を克服し,SPIMが解決できる問題の範囲を広げる。 提案手法は,NP完全問題に適用可能な,本質的に低いランクの行列を含む,多種多様な結合行列に適合する。 本研究では,SPIMの現実的応用を実証するために,最適化タスク,特に金融最適化における低ランク近似の実用的メリットについて検討する。 最後に,SPIMハードウェアのハードウェア精度に課される計算制限を評価し,これらの制約の中でこれらのシステムの性能を最適化するための戦略を提案する。

We explore the potential of spatial-photonic Ising machines (SPIMs) to address computationally intensive Ising problems that employ low-rank and circulant coupling matrices. Our results indicate that the performance of SPIMs is critically affected by the rank and precision of the coupling matrices. By developing and assessing advanced decomposition techniques, we expand the range of problems SPIMs can solve, overcoming the limitations of traditional Mattis-type matrices. Our approach accommodates a diverse array of coupling matrices, including those with inherently low ranks, applicable to complex NP-complete problems. We explore the practical benefits of low-rank approximation in optimization tasks, particularly in financial optimization, to demonstrate the real-world applications of SPIMs. Finally, we evaluate the computational limitations imposed by SPIM hardware precision and suggest strategies to optimize the performance of these systems within these constraints.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# ローレンツがカシミール効果を増強

Size Matters: Lorentz Boosted Casimir Effect ( http://arxiv.org/abs/2406.01401v1 )

ライセンス: Link先を確認
Yu-Song Cao, YanXia Liu, Ding-Fang Zeng, (参考訳) 過去数十年の間に多くの証拠が現れ、カシミールエネルギーの負性性がエキゾチックな機械的および重力的効果の原因であることを示した。 この研究において、ロレンツはカシミールの空洞を拡大し、歴史研究におけるその勢いにはほとんど注意を払わない。 キャビティが持つ真空エネルギーと運動量は,キャビティの膨張特性により,点粒子の運動量とは異なることが判明した。 しかし、両者の質量殻状態は、空洞が移動方向のみに沿って有限である限りは同一である。

Many evidences appear in the past decades and show that the negativity of Casimir energy is responsible for exotic mechanical and gravitational effects. We study in this work the Lorentz boost of a Casimir cavity, on which little attention is paid to its momentum in historical works. We find that the vacuum energy and momentum carried by the cavity transform differently from those of point particles due to the cavity's extension feature. However, the mass-shell condition of the two are identical as long as the cavity is finite along the moving direction only.
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# Rationaleの混合:視覚質問応答のためのマルチモーダル推論混合

Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering ( http://arxiv.org/abs/2406.01402v1 )

ライセンス: Link先を確認
Tao Li, Linjun Shou, Xuejun Liu, (参考訳) ゼロショット視覚質問応答(Zero-shot visual question answering, VQA)は、モダリティ間の推論を必要とする課題である。 既存の方法の中には、Chain of Thoughts (CoT)フレームワーク内の1つの理論的根拠に依存しているものもあるが、VQA問題の複雑さを捉えるには不足しているものもある。 一方、複数の有理数を用いる他の方法では、低多様性、モダリティアライメントの低さ、非効率な検索と融合に悩まされている。 これらの課題に対応するために、VQAの複数の論理を混合した新しいマルチモーダル推論法である \emph{Mixture of Rationales (MoR)} を提案する。 MoRは、単一の凍結されたビジョン・アンド・ランゲージ事前訓練モデル(VLPM)モデルを使用して、動的にマルチモーダル思考を生成、検索、融合する。 我々は、NLVR2とOKVQAの2つの挑戦的VQAデータセットに対して、2つの代表的バックボーンOFAとVL-T5でMoRを評価する。 MoR は NLVR2 の 12.43 % の精度向上、OKVQA-S (OKVQA の科学技術カテゴリ) の 2.45 % の精度向上を実現している。

Zero-shot visual question answering (VQA) is a challenging task that requires reasoning across modalities. While some existing methods rely on a single rationale within the Chain of Thoughts (CoT) framework, they may fall short of capturing the complexity of the VQA problem. On the other hand, some other methods that use multiple rationales may still suffer from low diversity, poor modality alignment, and inefficient retrieval and fusion. In response to these challenges, we propose \emph{Mixture of Rationales (MoR)}, a novel multi-modal reasoning method that mixes multiple rationales for VQA. MoR uses a single frozen Vision-and-Language Pre-trained Models (VLPM) model to {dynamically generate, retrieve and fuse multi-modal thoughts}. We evaluate MoR on two challenging VQA datasets, i.e. NLVR2 and OKVQA, with two representative backbones OFA and VL-T5. MoR achieves a 12.43\% accuracy improvement on NLVR2, and a 2.45\% accuracy improvement on OKVQA-S( the science and technology category of OKVQA).
翻訳日:2024-06-05 22:39:57 公開日:2024-06-03
# 組織画像のための専門家駆動型データ生成パイプライン

An expert-driven data generation pipeline for histological images ( http://arxiv.org/abs/2406.01403v1 )

ライセンス: Link先を確認
Roberto Basla, Loris Giulivi, Luca Magri, Giacomo Boracchi, (参考訳) 深層学習(DL)モデルは、生体細胞分画や組織像の分類など、多くの応用に成功している。 これらのモデルは、アノテーションが不足し高価である医療分野において、必ずしも利用できない大量の注釈付きデータを必要とする。 この制限を克服するため,我々はセルセグメンテーションのための合成データセットを生成する新しいパイプラインを提案する。 本手法は,少数の注釈付き画像のみを前提として,DLインスタンスセグメンテーションモデルを効果的に訓練できる大規模な画像データセットを生成する。 私たちのソリューションは、データセットの生成中に専門家がドメイン知識を組み込むことによって、現実的な形状と配置のセルを生成するように設計されています。

Deep Learning (DL) models have been successfully applied to many applications including biomedical cell segmentation and classification in histological images. These models require large amounts of annotated data which might not always be available, especially in the medical field where annotations are scarce and expensive. To overcome this limitation, we propose a novel pipeline for generating synthetic datasets for cell segmentation. Given only a handful of annotated images, our method generates a large dataset of images which can be used to effectively train DL instance segmentation models. Our solution is designed to generate cells of realistic shapes and placement by allowing experts to incorporate domain knowledge during the generation of the dataset.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# 制約を用いたスパースと代替サブグループ記述の発見

Using Constraints to Discover Sparse and Alternative Subgroup Descriptions ( http://arxiv.org/abs/2406.01411v1 )

ライセンス: Link先を確認
Jakob Bach, (参考訳) サブグループ発見法により、ユーザはデータセットで興味深い領域の簡単な記述を取得できる。 サブグループ発見における制約の使用は、さらに解釈可能性を高めることができる。 まず、サブグループ記述で使用される機能の数を制限することで、後者はスパース化します。 第二に、与えられたサブグループと類似したデータオブジェクトの集合をカバーするが、異なる特徴を持つ代替サブグループ記述を見つけるための新しい最適化問題を提案する。 両制約型をヒューリスティックなサブグループ発見手法に統合する方法を述べる。 さらに, ホワイトボックス最適化問題として, サブグループ探索のSMT (Satifiability Modulo Theories) の新たな定式化を提案する。 さらに、両制約型がNP-ハード最適化問題につながることを証明した。 最後に,27のバイナリ分類データセットを用いて,非制約・制約付きサブグループ探索のヒューリスティック検索とソルバ検索を比較した。 ヒューリスティック探索法は,制約のあるシナリオにおいても,短時間で高品質なサブグループを生成することが多い。

Subgroup-discovery methods allow users to obtain simple descriptions of interesting regions in a dataset. Using constraints in subgroup discovery can enhance interpretability even further. In this article, we focus on two types of constraints: First, we limit the number of features used in subgroup descriptions, making the latter sparse. Second, we propose the novel optimization problem of finding alternative subgroup descriptions, which cover a similar set of data objects as a given subgroup but use different features. We describe how to integrate both constraint types into heuristic subgroup-discovery methods. Further, we propose a novel Satisfiability Modulo Theories (SMT) formulation of subgroup discovery as a white-box optimization problem, which allows solver-based search for subgroups and is open to a variety of constraint types. Additionally, we prove that both constraint types lead to an NP-hard optimization problem. Finally, we employ 27 binary-classification datasets to compare heuristic and solver-based search for unconstrained and constrained subgroup discovery. We observe that heuristic search methods often yield high-quality subgroups within a short runtime, also in scenarios with constraints.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# CE-NAS: エンド・ツー・エンドのカーボン効率の良いニューラルネットワーク検索フレームワーク

CE-NAS: An End-to-End Carbon-Efficient Neural Architecture Search Framework ( http://arxiv.org/abs/2406.01414v1 )

ライセンス: Link先を確認
Yiyang Zhao, Yunzhuo Liu, Bo Jiang, Tian Guo, (参考訳) 本研究は,モデル設計プロセスにおける炭素効率の向上を目的とした,ニューラルアーキテクチャ探索(NAS)に対する新しいアプローチを提案する。 提案したフレームワークCE-NASは、NASアルゴリズムのエネルギーの炭素放出変化とエネルギー差を探索することにより、NASに関連する高炭素コストの鍵となる課題に対処する。 高レベルでは、CE-NASは強化学習エージェントを利用して、時系列変換器によって予測される炭素強度に基づいてGPUリソースを動的に調整し、エネルギー効率の高いサンプリングとエネルギー集約評価タスクのバランスをとる。 さらに、CE-NASは、最近提案された多目的最適化器を利用して、NAS探索空間を効果的に削減する。 我々は,NASデータセットとオープンドメインNASタスクのSOTA結果を達成しつつ,CE-NASの炭素排出量低減効果を実証した。 例えば、HW-NasBenchデータセットでは、CE-NASはバニラNASに匹敵する探索効率を維持しながら、二酸化炭素排出量を最大7.22倍削減する。 オープンドメインNASタスクでは、CE-NASはCIFAR-10で97.35%の精度でSOTAを達成し、パラメータはわずか1.68M、二酸化炭素は38.53ポンドである。 ImageNetでは、NVIDIA V100上でFP16を使用して0.78msのTensorRTレイテンシで80.6%のトップ1の精度を実現し、909.86 lbのCO2を消費するだけで、他のワンショットベースのNASベースラインに匹敵する。

This work presents a novel approach to neural architecture search (NAS) that aims to increase carbon efficiency for the model design process. The proposed framework CE-NAS addresses the key challenge of high carbon cost associated with NAS by exploring the carbon emission variations of energy and energy differences of different NAS algorithms. At the high level, CE-NAS leverages a reinforcement-learning agent to dynamically adjust GPU resources based on carbon intensity, predicted by a time-series transformer, to balance energy-efficient sampling and energy-intensive evaluation tasks. Furthermore, CE-NAS leverages a recently proposed multi-objective optimizer to effectively reduce the NAS search space. We demonstrate the efficacy of CE-NAS in lowering carbon emissions while achieving SOTA results for both NAS datasets and open-domain NAS tasks. For example, on the HW-NasBench dataset, CE-NAS reduces carbon emissions by up to 7.22X while maintaining a search efficiency comparable to vanilla NAS. For open-domain NAS tasks, CE-NAS achieves SOTA results with 97.35% top-1 accuracy on CIFAR-10 with only 1.68M parameters and a carbon consumption of 38.53 lbs of CO2. On ImageNet, our searched model achieves 80.6% top-1 accuracy with a 0.78 ms TensorRT latency using FP16 on NVIDIA V100, consuming only 909.86 lbs of CO2, making it comparable to other one-shot-based NAS baselines.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# ラベルのない配電シフトへの等角予測の適用

Adapting Conformal Prediction to Distribution Shifts Without Labels ( http://arxiv.org/abs/2406.01416v1 )

ライセンス: Link先を確認
Kevin Kasa, Zhiyu Zhang, Heng Yang, Graham W. Taylor, (参考訳) コンフォーマル予測(CP)により、機械学習モデルは、交換可能なデータを想定した、保証されたカバレッジレートで予測セットを出力できる。 残念なことに、交換可能性の仮定は実際には分布のシフトによってしばしば破られ、その課題はテスト時に基礎となる真理ラベルの欠如によって複雑化される。 本研究の目的は,テスト領域からのラベルなしデータのみを用いてCP生成予測セットの品質を向上させることである。 これは、未ラベルテストデータに対するベースモデルの不確実性に応じてCPのスコア関数を調整する、ECP と EACP と呼ばれる2つの新しい手法によって達成される。 大規模データセットとニューラルネットワークアーキテクチャの広範な実験を通じて、我々の手法は既存のベースラインよりも一貫した改善を提供し、教師付きアルゴリズムの性能とほぼ一致していることを示す。

Conformal prediction (CP) enables machine learning models to output prediction sets with guaranteed coverage rate, assuming exchangeable data. Unfortunately, the exchangeability assumption is frequently violated due to distribution shifts in practice, and the challenge is often compounded by the lack of ground truth labels at test time. Focusing on classification in this paper, our goal is to improve the quality of CP-generated prediction sets using only unlabeled data from the test domain. This is achieved by two new methods called ECP and EACP, that adjust the score function in CP according to the base model's uncertainty on the unlabeled test data. Through extensive experiments on a number of large-scale datasets and neural network architectures, we show that our methods provide consistent improvement over existing baselines and nearly match the performance of supervised algorithms.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# 多重補間による混合増幅

Mixup Augmentation with Multiple Interpolations ( http://arxiv.org/abs/2406.01417v1 )

ライセンス: Link先を確認
Lifeng Shen, Jincheng Yu, Hansi Yang, James T. Kwok, (参考訳) 乱数サンプルペアを用いて、入力とラベルの線形補間により新しいサンプルを生成する。 しかし、1つの補間しか生成できないため、増強能力は制限される。 本稿では,サンプルペアから複数の補間を生成するマルチミックスという,シンプルで効果的な拡張を提案する。 生成されたサンプルの順序を順序付けすることで、マルチミックスは、標準的なミックスアップよりもトレーニングプロセスのガイドに役立てることができる。 さらに理論的には、これは確率勾配の分散を減少させることもできる。 多数の合成および大規模データセットに対する広範囲な実験により、マルチミックスは、一般化、堅牢性、キャリブレーションの点で様々なミックスアップ変種および非ミックスアップベースラインより優れていることが示された。

Mixup and its variants form a popular class of data augmentation techniques.Using a random sample pair, it generates a new sample by linear interpolation of the inputs and labels. However, generating only one single interpolation may limit its augmentation ability. In this paper, we propose a simple yet effective extension called multi-mix, which generates multiple interpolations from a sample pair. With an ordered sequence of generated samples, multi-mix can better guide the training process than standard mixup. Moreover, theoretically, this can also reduce the stochastic gradient variance. Extensive experiments on a number of synthetic and large-scale data sets demonstrate that multi-mix outperforms various mixup variants and non-mixup-based baselines in terms of generalization, robustness, and calibration.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# ランドスケープアーキテクチャにおけるAIの理解の課題

Problematizing AI Omnipresence in Landscape Architecture ( http://arxiv.org/abs/2406.01421v1 )

ライセンス: Link先を確認
Phillip Fernberg, Zihao Zhang, (参考訳) このポジションペーパーは、ランドスケープアーキテクチャの専門職における現在のAIの狂気を調べるための、重要なレンズを論じ、提供します。 著者らは、AIを考える際にランドスケープアーキテクトが住むことができる5つのアーキタイプやメンタルモードを提案している。 AIの判断を加速度の1軸に制限するのではなく、これらのアーチタイプと対応する物語は関係スペクトルに沿って存在し、透過可能であり、文脈に応じてLAがそれらを受け取り、切り替えることができる。 我々は、これらのアーチタイプとそれらのAI進歩への貢献の間の関係を、因果ループ図(CLD)を用いてモデル化し、それらの相互作用により、AIに近づいたよりニュアンスな方法が、新しいデジタル経済において新しいプラクティスのモードを開くかもしれないと主張している。

This position paper argues for, and offers, a critical lens through which to examine the current AI frenzy in the landscape architecture profession. In it, the authors propose five archetypes or mental modes that landscape architects might inhabit when thinking about AI. Rather than limiting judgments of AI use to a single axis of acceleration, these archetypes and corresponding narratives exist along a relational spectrum and are permeable, allowing LAs to take on and switch between them according to context. We model these relationships between the archetypes and their contributions to AI advancement using a causal loop diagram (CLD), and with those interactions argue that more nuanced ways of approaching AI might also open new modes of practice in the new digital economy.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# ソフトウェアリポジトリ全体を理解するには?

How to Understand Whole Software Repository? ( http://arxiv.org/abs/2406.01422v1 )

ライセンス: Link先を確認
Yingwei Ma, Qingping Yang, Rongyu Cao, Binhua Li, Fei Huang, Yongbin Li, (参考訳) 近年,Large Language Model (LLM) をベースとしたエージェントが,自動ソフトウェア工学 (ASE) の大幅な発展を遂げている。 有効性は検証されているが、既存の手法の設計は主にコードのローカル情報、例えば問題、クラス、関数に焦点を合わせており、ソフトウェアシステム内のグローバルコンテキストと相互依存を捉えるのに限界がある。 人間のSE開発者の実践的な経験から、リポジトリ全体の優れた理解がASEにとって重要な道であると論じます。 しかし、リポジトリ全体を理解することは、非常に長いコード入力、ノイズの多いコード情報、複雑な依存関係関係など、さまざまな課題を引き起こします。 この目的のために,リポジトリ全体を包括的に理解するエージェントを誘導することにより,RepoUnderstanderという新しいASE手法を開発した。 具体的には、まずリポジトリ全体の重要な情報をトップダウンモードでリポジトリ知識グラフに格納し、リポジトリの複雑さを減らします。 その後、モンテカルロ木探索に基づくリポジトリ探索戦略を提案することにより、エージェントにリポジトリ全体を理解する能力を与える。 さらに、リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画するように指導します。 そして、ツールを操作して情報を動的に取得し、パッチを生成して実際のGitHubの問題を解決する。 大規模な実験は、提案されたRepoUnderstanderの優位性と有効性を示している。 SWE-bench LiteベンチマークではSWE-agentと比較して18.5\%改善した。

Recently, Large Language Model (LLM) based agents have advanced the significant development of Automatic Software Engineering (ASE). Although verified effectiveness, the designs of the existing methods mainly focus on the local information of codes, e.g., issues, classes, and functions, leading to limitations in capturing the global context and interdependencies within the software system. From the practical experiences of the human SE developers, we argue that an excellent understanding of the whole repository will be the critical path to ASE. However, understanding the whole repository raises various challenges, e.g., the extremely long code input, the noisy code information, the complex dependency relationships, etc. To this end, we develop a novel ASE method named RepoUnderstander by guiding agents to comprehensively understand the whole repositories. Specifically, we first condense the critical information of the whole repository into the repository knowledge graph in a top-to-down mode to decrease the complexity of repository. Subsequently, we empower the agents the ability of understanding whole repository by proposing a Monte Carlo tree search based repository exploration strategy. In addition, to better utilize the repository-level knowledge, we guide the agents to summarize, analyze, and plan. Then, they can manipulate the tools to dynamically acquire information and generate the patches to solve the real-world GitHub issues. Extensive experiments demonstrate the superiority and effectiveness of the proposed RepoUnderstander. It achieved 18.5\% relative improvement on the SWE-bench Lite benchmark compared to SWE-agent.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# アクター批判アルゴリズムの値改善

Value Improved Actor Critic Algorithms ( http://arxiv.org/abs/2406.01423v1 )

ライセンス: Link先を確認
Yaniv Oren, Moritz A. Zanger, Pascal R. van der Vaart, Matthijs T. J. Spaan, Wendelin Bohmer, (参考訳) 多くの現代的な強化学習アルゴリズムはアクター・クリティカル(AC)フレームワークに基づいて構築されており、ポリシー改善演算子を使用したポリシー(アクター)の反復的改善とポリシーの価値の反復的近似(批評家)である。 対照的に、人気のある値ベースのアルゴリズムファミリーは、値更新に改善演算子を使用し、値関数を直接反復的に改善する。 本稿では、ポリシーベースのアルゴリズムの精神におけるポリシーに適用されるものと、価値ベースのアルゴリズムの精神における価値に適用されるものとの2つの異なる改善演算子を用いたACフレームワークの一般的な拡張を提案する。 本稿では,オンラインオフラインACアルゴリズムTD3とDDPGの2つの実用的なVI-ACアルゴリズムを設計する。 我々は,MujocoベンチマークのVI-TD3とVI-DDPGを評価し,テスト対象のすべての環境において,それぞれのベースラインの性能を改善したり適合させたりすることを発見した。

Many modern reinforcement learning algorithms build on the actor-critic (AC) framework: iterative improvement of a policy (the actor) using policy improvement operators and iterative approximation of the policy's value (the critic). In contrast, the popular value-based algorithm family employs improvement operators in the value update, to iteratively improve the value function directly. In this work, we propose a general extension to the AC framework that employs two separate improvement operators: one applied to the policy in the spirit of policy-based algorithms and one applied to the value in the spirit of value-based algorithms, which we dub Value-Improved AC (VI-AC). We design two practical VI-AC algorithms based in the popular online off-policy AC algorithms TD3 and DDPG. We evaluate VI-TD3 and VI-DDPG in the Mujoco benchmark and find that both improve upon or match the performance of their respective baselines in all environments tested.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# フルリカレントモデルによる普遍的インコンテキスト近似

Universal In-Context Approximation By Prompting Fully Recurrent Models ( http://arxiv.org/abs/2406.01424v1 )

ライセンス: Link先を確認
Aleksandar Petrov, Tom A. Lamb, Alasdair Paren, Philip H. S. Torr, Adel Bibi, (参考訳) ゼロショットおよびインコンテキスト学習は、モデル微調整なしでタスクを解決し、生成モデルソリューションの開発に不可欠である。 したがって、事前訓練されたモデルが任意の関数、すなわち、普遍的なインコンテキスト近似器であるかどうかを近似させることができるかどうかを理解することが重要である。 近年、トランスモデルにこの特性があることが示されているが、これらの結果は彼らの注意機構に依存している。 したがって、これらの発見は、RNN、LSTM、そしてますます人気のあるSSMのような、完全に反復するアーキテクチャには適用されない。 我々は、RNN、LSTM、GRU、線形RNN、およびMambaやHawk/Griffinのような線形ゲートアーキテクチャが、普遍的なインコンテキスト近似としても機能できることを実証した。 議論を合理化するために、我々はLSRLと呼ばれるプログラミング言語を導入し、これら完全に再帰的なアーキテクチャにコンパイルする。 LSRLは、解釈可能性ベンチマークの構築など、完全再帰モデルのさらなる研究には、独立した関心があるかもしれない。 このようなゲーティング(LSTM、GRU、Hawk/Griffin)を組み込んだアーキテクチャは、より安定して特定の操作を実装できるので、より実用的なコンテキスト内普遍近似の候補となる。

Zero-shot and in-context learning enable solving tasks without model fine-tuning, making them essential for developing generative model solutions. Therefore, it is crucial to understand whether a pretrained model can be prompted to approximate any function, i.e., whether it is a universal in-context approximator. While it was recently shown that transformer models do possess this property, these results rely on their attention mechanism. Hence, these findings do not apply to fully recurrent architectures like RNNs, LSTMs, and the increasingly popular SSMs. We demonstrate that RNNs, LSTMs, GRUs, Linear RNNs, and linear gated architectures such as Mamba and Hawk/Griffin can also serve as universal in-context approximators. To streamline our argument, we introduce a programming language called LSRL that compiles to these fully recurrent architectures. LSRL may be of independent interest for further studies of fully recurrent models, such as constructing interpretability benchmarks. We also study the role of multiplicative gating and observe that architectures incorporating such gating (e.g., LSTMs, GRUs, Hawk/Griffin) can implement certain operations more stably, making them more viable candidates for practical in-context universal approximation.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# EAGLE: クロスビュー理解における適応幾何学に基づく効率的な学習

EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding ( http://arxiv.org/abs/2406.01429v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Utsav Prabhu, Dongyi Wang, Bhiksha Raj, Susan Gauch, Jeyamkondan Subbiah, Khoa Luu, (参考訳) 教師なしドメイン適応は、データ分散間でセマンティックセグメンテーションモデルを転送する効率的なアプローチである。 一方、大規模視覚言語モデルに基づく最近のオープン語彙セマンティックシーン理解は、多様な概念やカテゴリを学習できるため、オープンセット設定に有効である。 しかし、これらの先行手法は、クロスビュー幾何モデリングが欠如しているため、異なるカメラビューをまたいだ一般化に失敗する。 現在、クロスビュー学習の分析は限られている。 この問題を解決するために,セマンティックシーン理解におけるビュー間の幾何学的構造変化をモデル化するための,教師なしクロスビュー適応学習手法を提案する。 まず,カメラ間における画像やセグメンテーションマスクの構造変化をモデル化するための,非ペアデータに関するクロスビュー幾何学的制約を提案する。 第2に、カメラビュー間の幾何学的構造変化を効率的に測定するための、新しい測地流に基づく相関指標を提案する。 第3に、クロスビュー適応学習において、オープン語彙セグメンテーションネットワークのビュー情報モデリングを強化するために、新しいビュー条件プロンプト機構を導入する。 本研究では,従来の教師なし領域適応やオープンボキャブラリセマンティックセマンティックセグメンテーション手法と比較して,SOTA(State-of-the-Art)の性能を達成できることを実証した。

Unsupervised Domain Adaptation has been an efficient approach to transferring the semantic segmentation model across data distributions. Meanwhile, the recent Open-vocabulary Semantic Scene understanding based on large-scale vision language models is effective in open-set settings because it can learn diverse concepts and categories. However, these prior methods fail to generalize across different camera views due to the lack of cross-view geometric modeling. At present, there are limited studies analyzing cross-view learning. To address this problem, we introduce a novel Unsupervised Cross-view Adaptation Learning approach to modeling the geometric structural change across views in Semantic Scene Understanding. First, we introduce a novel Cross-view Geometric Constraint on Unpaired Data to model structural changes in images and segmentation masks across cameras. Second, we present a new Geodesic Flow-based Correlation Metric to efficiently measure the geometric structural changes across camera views. Third, we introduce a novel view-condition prompting mechanism to enhance the view-information modeling of the open-vocabulary segmentation network in cross-view adaptation learning. The experiments on different cross-view adaptation benchmarks have shown the effectiveness of our approach in cross-view modeling, demonstrating that we achieve State-of-the-Art (SOTA) performance compared to prior unsupervised domain adaptation and open-vocabulary semantic segmentation methods.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# ED-SAM:視覚言語基礎モデルにおけるドメイン一般化のための効率的な拡散サンプリング手法

ED-SAM: An Efficient Diffusion Sampling Approach to Domain Generalization in Vision-Language Foundation Models ( http://arxiv.org/abs/2406.01432v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Xin Li, Bhiksha Raj, Jackson Cothren, Khoa Luu, (参考訳) Vision-Language Foundation Modelは、近年、様々な認知学習タスクにおいて優れたパフォーマンスを示している。 視覚言語モデルの卓越した性能は、主に大規模事前学習データセットと異なるデータ拡張技術に依存している。 しかし、ビジョン言語基盤モデルの領域一般化の問題に対処する必要がある。 この問題は、視覚言語基礎モデルの未知のデータ分布への一般化性に制限を与えている。 本稿では、視覚言語基盤モデルの一般化性を改善するために、ドメイン一般化(ED-SAM)に対する簡易かつ効率的な拡散サンプリング手法を提案する。 本研究の理論的解析は,視覚言語基礎モデルにおける拡散モデルと領域一般化の批判的役割と関係を明らかにする。 そこで,本研究では,拡散サンプリング法に簡易かつ効果的なトランスポートトランスフォーメーションを導入する。 敵のサンプルを効果的に生成し、未知のデータ分布に対する基礎モデルの一般化性を向上させる。 CC3M, CC12M, LAION400Mなど, 視覚言語による事前学習データセットのさまざまなスケールに関する実験結果から, 提案したED-SAMアプローチの最先端性能とスケーラビリティが他の手法と比較して一貫して示されている。

The Vision-Language Foundation Model has recently shown outstanding performance in various perception learning tasks. The outstanding performance of the vision-language model mainly relies on large-scale pre-training datasets and different data augmentation techniques. However, the domain generalization problem of the vision-language foundation model needs to be addressed. This problem has limited the generalizability of the vision-language foundation model to unknown data distributions. In this paper, we introduce a new simple but efficient Diffusion Sampling approach to Domain Generalization (ED-SAM) to improve the generalizability of the vision-language foundation model. Our theoretical analysis in this work reveals the critical role and relation of the diffusion model to domain generalization in the vision-language foundation model. Then, based on the insightful analysis, we introduce a new simple yet effective Transport Transformation to diffusion sampling method. It can effectively generate adversarial samples to improve the generalizability of the foundation model against unknown data distributions. The experimental results on different scales of vision-language pre-training datasets, including CC3M, CC12M, and LAION400M, have consistently shown State-of-the-Art performance and scalability of the proposed ED-SAM approach compared to the other recent methods.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# 非対称なカーネル学習を用いたカーネルリッジレス回帰の学習解析

Learning Analysis of Kernel Ridgeless Regression with Asymmetric Kernel Learning ( http://arxiv.org/abs/2406.01435v1 )

ライセンス: Link先を確認
Fan He, Mingzhen He, Lei Shi, Xiaolin Huang, Johan A. K. Suykens, (参考訳) リッジレス回帰は研究者の間で注目を集めており、特に'Benign Overfitting' 現象に照らして、ノイズのあるサンプルを補間するモデルが堅牢な一般化を示す。 しかしながら、カーネルのリッジレスレグレッションは、柔軟性の欠如のため、必ずしもうまく機能しない。 本稿では,局所適応バンド幅(LAB)RBFカーネルを用いたカーネルリッジレス回帰を改良し,実験と理論の両方における性能向上を目的としたカーネル学習手法を取り入れた。 初めて、LAB RBFカーネルから学んだ関数は、Reproducible Kernel Hilbert Spaces (RKHSs) の積分空間に属することを示した。 提案モデルに明示的な正規化がないにもかかわらず、その最適化は RKHS の積分空間における$\ell_0$-regularized問題の解法と等価であり、一般化能力の起源を解明する。 近似解析の観点から,提案モデルに対する学習率を軽度条件下で導出するために,$l_q$-norm解析手法($0<q<1$)を導入する。 この結果は我々の理論的な理解を深め、我々のアルゴリズムの頑健な近似能力はRKHSの積分空間の容量が大きいことから生じると説明し、その一般化能力はサポートベクトルの数によって制御される疎性によって保証される。 合成データと実データの両方の実験結果から, 理論的結論が得られた。

Ridgeless regression has garnered attention among researchers, particularly in light of the ``Benign Overfitting'' phenomenon, where models interpolating noisy samples demonstrate robust generalization. However, kernel ridgeless regression does not always perform well due to the lack of flexibility. This paper enhances kernel ridgeless regression with Locally-Adaptive-Bandwidths (LAB) RBF kernels, incorporating kernel learning techniques to improve performance in both experiments and theory. For the first time, we demonstrate that functions learned from LAB RBF kernels belong to an integral space of Reproducible Kernel Hilbert Spaces (RKHSs). Despite the absence of explicit regularization in the proposed model, its optimization is equivalent to solving an $\ell_0$-regularized problem in the integral space of RKHSs, elucidating the origin of its generalization ability. Taking an approximation analysis viewpoint, we introduce an $l_q$-norm analysis technique (with $0<q<1$) to derive the learning rate for the proposed model under mild conditions. This result deepens our theoretical understanding, explaining that our algorithm's robust approximation ability arises from the large capacity of the integral space of RKHSs, while its generalization ability is ensured by sparsity, controlled by the number of support vectors. Experimental results on both synthetic and real datasets validate our theoretical conclusions.
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# ジャイアンツの心を編集する:大規模言語モデルにおける知識編集の落とし穴の詳細な探索

Editing the Mind of Giants: An In-Depth Exploration of Pitfalls of Knowledge Editing in Large Language Models ( http://arxiv.org/abs/2406.01436v1 )

ライセンス: Link先を確認
Cheng-Hsun Hsueh, Paul Kuo-Ming Huang, Tzu-Han Lin, Che-Wei Liao, Hung-Chieh Fang, Chao-Wei Huang, Yun-Nung Chen, (参考訳) 知識編集は、パラメータの変更を最小限に抑えて、大規模言語モデル(LLM)における事実知識を効率的に更新する技術である。 しかし、近年の研究では、知識の歪みや一般的な能力の劣化など、編集後に現れた副作用が特定されている。 本調査は,これらの副作用を包括的に研究し,LLMにおける知識編集に関わる課題を統一的に考察する。 関連研究を議論し、これらの限界を克服するための潜在的研究の方向性を要約する。 本研究は,従来の知識編集手法の限界を強調し,LLMの内部知識構造をより深く理解する必要性を強調し,知識編集手法の改善を図っている。 今後の研究を促進するため、私たちはhttps://github.com/MiuLab/EditLLM-Surveyで論文収集などの補完資料を公開しました。

Knowledge editing is a rising technique for efficiently updating factual knowledge in Large Language Models (LLMs) with minimal alteration of parameters. However, recent studies have identified concerning side effects, such as knowledge distortion and the deterioration of general abilities, that have emerged after editing. This survey presents a comprehensive study of these side effects, providing a unified view of the challenges associated with knowledge editing in LLMs. We discuss related works and summarize potential research directions to overcome these limitations. Our work highlights the limitations of current knowledge editing methods, emphasizing the need for deeper understanding of inner knowledge structures of LLMs and improved knowledge editing methods. To foster future research, we have released the complementary materials such as paper collection publicly at https://github.com/MiuLab/EditLLM-Survey
翻訳日:2024-06-05 22:30:12 公開日:2024-06-03
# Asynchronous Byzantine Federated Learning

Asynchronous Byzantine Federated Learning ( http://arxiv.org/abs/2406.01438v1 )

ライセンス: Link先を確認
Bart Cox, Abele Mălan, Jérémie Decouchant, Lydia Y. Chen, (参考訳) フェデレートラーニング(FL)は、地理的に分散した一連のクライアントが、サーバを通じてモデルを集合的に訓練することを可能にする。 古典的には、トレーニングプロセスは同期的であるが、遅いクライアントや異種ネットワークで、その速度を維持するために非同期にすることができる。 しかしながら、ビザンティンのフォールトトレラントFLシステムの大部分は同期トレーニングプロセスに依存している。 私たちのソリューションは、補助的なサーバデータセットを必要とせず、以前の作業の欠点であるストラグラーによって遅延しない、最初のビザンチン耐性で非同期なFLアルゴリズムの1つである。 直感的には、ソリューション内のサーバは最新モデルのクライアントから最小限のアップデートを受信して安全に更新するのを待ちます。 我々は、勾配インバージョン、摂動、バックドアアタックによる画像およびテキストデータセットの最先端アルゴリズムと比較した。 提案手法は, 従来の同期FLソリューションよりも高速にモデルを訓練し, 従来の非同期FLソリューションよりもビザンチンクライアントの存在下で, 摂動および勾配反転攻撃に対して最大1.54x, 1.75xの精度を維持した。

Federated learning (FL) enables a set of geographically distributed clients to collectively train a model through a server. Classically, the training process is synchronous, but can be made asynchronous to maintain its speed in presence of slow clients and in heterogeneous networks. The vast majority of Byzantine fault-tolerant FL systems however rely on a synchronous training process. Our solution is one of the first Byzantine-resilient and asynchronous FL algorithms that does not require an auxiliary server dataset and is not delayed by stragglers, which are shortcomings of previous works. Intuitively, the server in our solution waits to receive a minimum number of updates from clients on its latest model to safely update it, and is later able to safely leverage the updates that late clients might send. We compare the performance of our solution with state-of-the-art algorithms on both image and text datasets under gradient inversion, perturbation, and backdoor attacks. Our results indicate that our solution trains a model faster than previous synchronous FL solution, and maintains a higher accuracy, up to 1.54x and up to 1.75x for perturbation and gradient inversion attacks respectively, in the presence of Byzantine clients than previous asynchronous FL solutions.
翻訳日:2024-06-05 22:20:28 公開日:2024-06-03
# 地理的分散クライアントのための非同期マルチサーバフェデレーション学習

Asynchronous Multi-Server Federated Learning for Geo-Distributed Clients ( http://arxiv.org/abs/2406.01439v1 )

ライセンス: Link先を確認
Yuncong Zuo, Bart Cox, Jérémie Decouchant, Lydia Y. Chen, (参考訳) フェデレートラーニング(FL)システムは、複数のクライアントが単一のサーバで中間モデルの重みを同期的に交換することで、機械学習モデルを反復的にトレーニングすることができる。 このようなFLシステムのスケーラビリティは、同期通信によるサーバアイドル時間と、ひとつのサーバがボトルネックになるリスクの2つの要因によって制限することができる。 本稿では,完全に非同期な最初のマルチサーバFLシステムであるFLアーキテクチャを提案する。 私たちのソリューションは、サーバとクライアントの両方を継続的にアクティブにします。 従来のマルチサーバメソッドと同様に、クライアントは最も近いサーバとのみ対話し、モデルへの効率的なアップデート統合を保証する。 しかし、異なることに、サーバは定期的に互いに非同期に更新し、クライアントとのやりとりを延期しない。 我々は、MNISTとCIFAR-10の画像分類データセットとWikiText-2言語モデリングデータセットの3つの代表的なベースラインであるFedAvg、FedAsync、HierFAVGを比較した。 我々のソリューションは、以前のベースラインと類似または高い精度レベルに収束し、地理的に分散した設定でそれを行うのに61%の時間を要する。

Federated learning (FL) systems enable multiple clients to train a machine learning model iteratively through synchronously exchanging the intermediate model weights with a single server. The scalability of such FL systems can be limited by two factors: server idle time due to synchronous communication and the risk of a single server becoming the bottleneck. In this paper, we propose a new FL architecture, to our knowledge, the first multi-server FL system that is entirely asynchronous, and therefore addresses these two limitations simultaneously. Our solution keeps both servers and clients continuously active. As in previous multi-server methods, clients interact solely with their nearest server, ensuring efficient update integration into the model. Differently, however, servers also periodically update each other asynchronously, and never postpone interactions with clients. We compare our solution to three representative baselines - FedAvg, FedAsync and HierFAVG - on the MNIST and CIFAR-10 image classification datasets and on the WikiText-2 language modeling dataset. Our solution converges to similar or higher accuracy levels than previous baselines and requires 61% less time to do so in geo-distributed settings.
翻訳日:2024-06-05 22:20:28 公開日:2024-06-03
# 連続四周期駆動時のPXPモデルにおける予熱

Prethermalization in the PXP Model under Continuous Quasiperiodic Driving ( http://arxiv.org/abs/2406.01440v1 )

ライセンス: Link先を確認
Pinaki Dutta, Sayan Choudhury, Vishwanath Shukla, (参考訳) 周期的に駆動される量子多体系の長寿命非平衡状態を実現する最近の実験により、強いリドベルク閉塞状態における準周期的に駆動されるリドベルク原子鎖の力学を考察した。 この体制では、システムは運動論的に制約され、 'PXP' モデルはその力学を記述する。 運転なしでも、PXPモデルは、N\'{e}el-順序付き初期状態から発せられる力学に対して、多体スカーリングおよび結果として生じる持続的な振動を示す。 システムに連続駆動を施すと,動的な動作の豊富な配列が出現することを示した。 高周波系では、この系は周期駆動と準周期駆動の両方でN\'{e}el順序の初期状態の再生と振動を示す。 我々は、この非エルゴディディティの起源を、この体制におけるこれらの駆動プロトコルの両方に対して効果的なPXPハミルトニアンに遡る。 さらに,高振幅状態下での非単調な非単調性を示す。 これは、N\'{e}el-次数と完全偏極初期状態の両方に対して、いくつかの再帰的スカーリング遷移をもたらす。 この結果から, 連続準周期駆動プロトコルは, 速度論的に制約された系において, 物質の予熱相を実現するための有望な経路を導出できることが示唆された。

Motivated by recent experiments realizing long-lived non-equilibrium states in aperiodically driven quantum many-body systems, we investigate the dynamics of a quasiperiodically driven Rydberg atom chain in the strong Rydberg blockage regime. In this regime, the system is kinetically constrained and the `PXP' model describes its dynamics. Even without driving, the PXP model exhibits many-body scarring and resultant persistent oscillations for dynamics originating from the N\'{e}el-ordered initial state. We demonstrate that a rich array of dynamical behaviors emerge when the system is subjected to a continuous drive. In the high-frequency regime, the system exhibits revivals and oscillations for the N\'{e}el ordered initial state both for periodic and quasi-periodic drives. We trace the origin of this non-ergodicity to an effective PXP Hamiltonian for both of these driving protocols in this regime. Furthermore, we demonstrate that the behavior of the fidelity and the entanglement entropy is non-monotonic at low frequencies in the high-amplitude regime. This leads to several re-entrant scarring transitions both for both the N\'{e}el-ordered and the fully polarized initial state. Our results demonstrate that continuous quasi-periodic drive protocols can provide a promising route to realize prethermal phases of matter in kinetically constrained systems.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# LexMatcher: LLMを用いた機械翻訳のための辞書中心のデータ収集

LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation ( http://arxiv.org/abs/2406.01441v1 )

ライセンス: Link先を確認
Yongjing Yin, Jiali Zeng, Yafu Li, Fandong Meng, Yue Zhang, (参考訳) 機械翻訳のためのオープンソースの大規模言語モデル(LLM)の微調整が最近注目され、従来のニューラルネットワーク翻訳からデータ中心の研究へとシフトした。 しかし、機械翻訳における微調整のためのデータ収集の領域は、いまだに未探索である。 本稿では,バイリンガル辞書を利用してデータセットを生成する簡易かつ効果的なデータ収集手法であるLexMatcherについて述べる。 データセットは、既存のコーパスから取得したサブセットと、多文語の頻繁な感覚を補うより小さな合成サブセットとを含む。 提案手法は,LLaMA2をベースモデルとして,WMT2022テストセットの確立したベースラインよりも優れ,単語感覚の曖昧さや専門用語の翻訳に関わるタスクにおいて,大幅な性能向上を示す。 これらの結果は、LxMatcherがLLMベースの機械翻訳の強化に有効であることを示す。

The fine-tuning of open-source large language models (LLMs) for machine translation has recently received considerable attention, marking a shift towards data-centric research from traditional neural machine translation. However, the area of data collection for instruction fine-tuning in machine translation remains relatively underexplored. In this paper, we present LexMatcher, a simple yet effective method for data collection that leverages bilingual dictionaries to generate a dataset, the design of which is driven by the coverage of senses found in these dictionaries. The dataset comprises a subset retrieved from an existing corpus and a smaller synthesized subset which supplements the infrequent senses of polysemous words. Utilizing LLaMA2 as our base model, our approach outperforms the established baselines on the WMT2022 test sets and also exhibits significant performance improvements in tasks related to word sense disambiguation and specialized terminology translation. These results underscore the effectiveness of LexMatcher in enhancing LLM-based machine translation.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# 低リソース言語のためのASRの実装:包括的データセット作成アプローチ

Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach ( http://arxiv.org/abs/2406.01446v1 )

ライセンス: Link先を確認
Ara Yeroyan, Nikolay Karpov, (参考訳) 近年, 音声認識システム(ASR)は, 特に大量の音声データを持つ言語において, 大幅に改善されている。 しかし、ASRシステムは少数言語や地域言語のようなリソースが少ない低リソース言語では性能が劣る傾向にある。 この研究では、オーディオブックからASRトレーニングデータセットを生成するために設計された、新しいパイプラインを紹介した。 これらのオーディオブックの共通構造は、オーディオセグメントの幅が広いため、ユニークな課題となっているが、最適なASRトレーニングには4秒から15秒のセグメントが必要である。 そこで本研究では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。 本稿では,低リソース言語におけるASRシステムのデータ準備を簡略化し,アルメニア語を含むケーススタディを通じてその応用を実証する。 提案手法は,データ不足の問題を緩和するだけでなく,表現不足言語に対するASRモデルの性能向上にも寄与する。

In recent years, automatic speech recognition (ASR) systems have significantly improved, especially in languages with a vast amount of transcribed speech data. However, ASR systems tend to perform poorly for low-resource languages with fewer resources, such as minority and regional languages. This study introduces a novel pipeline designed to generate ASR training datasets from audiobooks, which typically feature a single transcript associated with hours-long audios. The common structure of these audiobooks poses a unique challenge due to the extensive length of audio segments, whereas optimal ASR training requires segments ranging from 4 to 15 seconds. To address this, we propose a method for effectively aligning audio with its corresponding text and segmenting it into lengths suitable for ASR training. Our approach simplifies data preparation for ASR systems in low-resource languages and demonstrates its application through a case study involving the Armenian language. Our method, which is "portable" to many low-resource languages, not only mitigates the issue of data scarcity but also enhances the performance of ASR models for underrepresented languages.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# 非退化4レベル原子系による円筒型ベクトルビームの線形及び非線形伝播

Linear and nonlinear propagation of cylindrical vector beam through a non-degenerate four level atomic system ( http://arxiv.org/abs/2406.01447v1 )

ライセンス: Link先を確認
Partha Das, Tarak Nath Dey, (参考訳) 原子系におけるプローブベクトルビーム(PVB)の両成分の相依存性について検討した。 原子は非縮退した4レベル構成で合成される。 遷移は、$\pi$の偏光制御場とPVBの直交偏光成分によって結合される。 媒体の線形感受性は制御フィールドとPVBの位相シフトに依存し,損失や利得を特徴づけることを示す。 さらに、位相シフトは、ベクトルビーム(VB)が伝播するときに偏光回転を引き起こす。 さらに, 2 つのRayleigh 長さの媒質を経由した VB 伝播に及ぼす非線形性の影響について検討した。 自己焦点および脱離現象は、半径、方位、渦巻VBに対して観察される。 特別な鎖状自己焦点と脱離は、適度な利得を持つ連続的な小さなスポットサイズを形成する。 したがって、感受性と自己焦点の制御のメカニズムは、吸収体から増幅器への遷移、高分解能顕微鏡、光トラップシステムといった応用の可能性を秘めている。

We investigate the phase-induced susceptibilities for both components of the probe vector beam (PVB) within an atomic system. The atoms are prepared in a non-degenerate four-level configuration. The transitions are coupled by a $\pi$ polarized control field and two orthogonally polarized components of a PVB. We show that the linear susceptibility of the medium depends on the phase shift between the control field and PVB, characterizing loss or gain in the system. Additionally, the phase shift causes polarization rotation in the vector beams (VBs) as they propagate. We further study the effect of nonlinearity on the VB propagation through the medium for a couple of Rayleigh lengths. The self-focusing and defocusing phenomena are observed for radial, azimuthal, and spiral VBs. The special chain-like self-focusing and defocusing leads to the formation of consecutive smaller spot sizes with moderate gain. Therefore, the mechanism of control of susceptibility and self-focusing may hold promise for applications such as transitioning from an absorber to an amplifier, high-resolution microscopy, and optical trap systems.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# 固有状態熱化理論

Theory of Eigenstate Thermalisation ( http://arxiv.org/abs/2406.01448v1 )

ライセンス: Link先を確認
Tobias Helbig, Tobias Hofmann, Ronny Thomale, Martin Greiter, (参考訳) 孤立して相互作用する量子系を固有状態に準備し、初期時に局所観測可能を摂動すると、その期待値は、系の時間進化が決定論的であるにもかかわらず、熱期待値に向かって緩和される。 Deutsch と Srednicki の固有状態熱化仮説 (ETH) は、全量子系の固有状態がそのサブシステムへの熱浴として機能し、サブシステムの密度行列が熱密度行列に類似していることを示唆している。 ここでは、相互作用する量子系の固有値分布は、非常に一般的な状況下ではガウス的であり、ダイソン・ブラウン運動ランダム行列論(英語版)は、ETHを導出し、仮説から理論へ高める。 我々の分析は、エルゴード性や典型性の概念やエントロピーの概念を必要としない統計力学の導出を提供する。 熱力学平衡は、大系への量子力学の適用性と積分性の欠如にのみ従う。

If we prepare an isolated, interacting quantum system in an eigenstate and perturb a local observable at an initial time, its expectation value will relax towards a thermal expectation value, even though the time evolution of the system is deterministic. The eigenstate thermalization hypothesis (ETH) of Deutsch and Srednicki suggests that this is possible because each eigenstate of the full quantum system acts as a thermal bath to its subsystems, such that the reduced density matrices of the subsystems resemble thermal density matrices. Here, we use the observation that the eigenvalue distribution of interacting quantum systems is a Gaussian under very general circumstances, and Dyson Brownian motion random matrix theory, to derive the ETH and thereby elevate it from hypothesis to theory. Our analysis provides a derivation of statistical mechanics which neither requires the concepts of ergodicity or typicality, nor that of entropy. Thermodynamic equilibrium follows solely from the applicability of quantum mechanics to large systems and the absence of integrability.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# SLANT:Spurious Logo Analysis Toolkit

SLANT: Spurious Logo ANalysis Toolkit ( http://arxiv.org/abs/2406.01449v1 )

ライセンス: Link先を確認
Maan Qraitem, Piotr Teterwak, Kate Saenko, Bryan A. Plummer, (参考訳) オンラインコンテンツは、広告やソーシャルメディアの投稿からウェブサイトのブランディングや製品の配置まで、ロゴでいっぱいだ。 その結果、これらのロゴは、広範囲なタスク(コンテンツモデレーション、オブジェクト分類)に使用されるビジョン・ランゲージ・モデル(Vision-Language Models)の事前トレーニングに使用される広範囲なWebスクラッドデータセットで広く使われている。 これらのモデルは様々なタスクにおいて有害な相関関係を学習することが示されているが、これらの相関関係がロゴを含むかどうかはまだ調査されていない。 このことを理解することは、ブランドや政府機関のような公共向け機関でよく使われているロゴのため、特に重要である。 そこで我々はSLANT: A Spurious Logo ANalysis Toolkitを開発した。 例えば、人の写真にAdidasのロゴを追加すると、モデルがその人物を欲張りと分類する。 SLANTには、このような「すっきりとした」ロゴをマイニングするための半自動メカニズムが含まれている。 この仕組みは、総合的なロゴバンクCC12M-LogoBankと、VLMがユーザが提供する下流認識ターゲットと急激な相関関係を持つロゴを銀行に検索するアルゴリズムで構成されている。 VLモデルと相関するさまざまな無害なロゴを発見 1)陰性な人形容詞 2)「無害」の概念により、有害なオンラインコンテンツを無害と誤分類させ、 3) ImageNetゼロショット分類では認識精度が低い。 さらに、SLANTのロゴは、基本的なモデルに対する効果的な攻撃と見なすことができ、攻撃者は有害なコンテンツに刺激的なロゴを配置することができ、モデルが無害であると誤分類する原因となった。 この脅威は、ロゴアタックの単純さを考慮して警戒されており、VLモデルのアタックサーフェスを増加させている。 防御として、基礎モデルのゼロショット推論とシームレスに統合する2つの効果的な緩和戦略をツールキットに含めています。

Online content is filled with logos, from ads and social media posts to website branding and product placements. Consequently, these logos are prevalent in the extensive web-scraped datasets used to pretrain Vision-Language Models, which are used for a wide array of tasks (content moderation, object classification). While these models have been shown to learn harmful correlations in various tasks, whether these correlations include logos remains understudied. Understanding this is especially important due to logos often being used by public-facing entities like brands and government agencies. To that end, we develop SLANT: A Spurious Logo ANalysis Toolkit. Our key finding is that some logos indeed lead to spurious incorrect predictions, for example, adding the Adidas logo to a photo of a person causes a model classify the person as greedy. SLANT contains a semi-automatic mechanism for mining such "spurious" logos. The mechanism consists of a comprehensive logo bank, CC12M-LogoBank, and an algorithm that searches the bank for logos that VLMs spuriously correlate with a user-provided downstream recognition target. We uncover various seemingly harmless logos that VL models correlate 1) with negative human adjectives 2) with the concept of `harmlessness'; causing models to misclassify harmful online content as harmless, and 3) with user-provided object concepts; causing lower recognition accuracy on ImageNet zero-shot classification. Furthermore, SLANT's logos can be seen as effective attacks against foundational models; an attacker could place a spurious logo on harmful content, causing the model to misclassify it as harmless. This threat is alarming considering the simplicity of logo attacks, increasing the attack surface of VL models. As a defense, we include in our Toolkit two effective mitigation strategies that seamlessly integrate with zero-shot inference of foundation models.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation

SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation ( http://arxiv.org/abs/2406.01451v1 )

ライセンス: Link先を確認
Danni Yang, Jiayi Ji, Yiwei Ma, Tianyu Guo, Haowei Wang, Xiaoshuai Sun, Rongrong Ji, (参考訳) 本稿では、ラベル付きデータとラベルなしデータの組み合わせを効果的に活用してRESを実行する半教師付きフレームワークであるSemiRESを紹介する。 RESに半教師付き技法を適用する際の重要なハードルは、特に物体の境界において、ノイズの多い擬似ラベルの出現である。 SemiRESはSegment Anything Model (SAM) を組み込み、これらの擬似ラベルの精度を向上させる。 SemiRES内では、IoUベースの最適マッチング(IOM)と複合部品統合(CPI)の2つの代替マッチング戦略を提供する。 これらの戦略はSAMの出力から最も正確なマスクを抽出し、より精度の高い学生モデルのトレーニングを導くように設計されている。 利用可能な候補と正確なマスクが一致しない場合,Pixel-Wise Adjustment(PWA)戦略を開発し,学生モデルのトレーニングを擬似ラベルで直接指導する。 RefCOCO、RefCOCO+、G-Refの3つのRESベンチマークの大規模な実験は、完全に教師された手法に比べて優れたパフォーマンスを示している。 注目すべきは、1%のラベル付きデータしか持たないSemiRESは、RefCOCO valセットにおいて、教師付きベースラインを大きなマージンで上回り、eg + 18.64%のゲインを達成していることだ。 プロジェクトのコードは \url{https://github.com/nini0919/SemiRES} で公開されている。

In this paper, we introduce SemiRES, a semi-supervised framework that effectively leverages a combination of labeled and unlabeled data to perform RES. A significant hurdle in applying semi-supervised techniques to RES is the prevalence of noisy pseudo-labels, particularly at the boundaries of objects. SemiRES incorporates the Segment Anything Model (SAM), renowned for its precise boundary demarcation, to improve the accuracy of these pseudo-labels. Within SemiRES, we offer two alternative matching strategies: IoU-based Optimal Matching (IOM) and Composite Parts Integration (CPI). These strategies are designed to extract the most accurate masks from SAM's output, thus guiding the training of the student model with enhanced precision. In instances where a precise mask cannot be matched from the available candidates, we develop the Pixel-Wise Adjustment (PWA) strategy, guiding the student model's training directly by the pseudo-labels. Extensive experiments on three RES benchmarks--RefCOCO, RefCOCO+, and G-Ref reveal its superior performance compared to fully supervised methods. Remarkably, with only 1% labeled data, our SemiRES outperforms the supervised baseline by a large margin, e.g. +18.64% gains on RefCOCO val set. The project code is available at \url{https://github.com/nini0919/SemiRES}.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# 植物同定のための自動融合型マルチモーダル深層学習

Automatic Fused Multimodal Deep Learning for Plant Identification ( http://arxiv.org/abs/2406.01455v1 )

ライセンス: Link先を確認
Alfreds Lapkovskis, Natalia Nefedova, Ali Beikmohammadi, (参考訳) 植物分類は, 生態系の保全と農業の生産性, 植物の成長動態の理解の向上, 種保全支援に不可欠である。 ディープラーニング(DL)技術の出現は、自律的な特徴抽出を可能にし、手作業の専門知識への依存を大幅に減らし、この分野に革命をもたらした。 しかし、従来のDLモデルは単一のデータソースのみに依存しており、植物種の完全な生物学的多様性を包括的に捉えていないことが多い。 最近の研究は、植物の特徴の表現を豊かにする複数のデータ型を統合することで、この制限を克服するマルチモーダル学習に転換している。 このシフトは、モダリティ融合の最適点を決定するという課題をもたらす。 本稿では,自動モダリティ融合を用いた植物分類における先駆的マルチモーダルDLに基づくアプローチを提案する。 マルチモーダル・フュージョン・アーキテクチャー・サーチを用いて,複数の植物器官の花,葉,果実,茎のイメージを凝集モデルに統合する。 PlantCLEF2015データセットの956クラスに対して83.48%の精度を達成し、最先端の手法を超越した。 後期融合よりも11.07%優れ、欠落したモダリティに対してより堅牢である。 我々は、標準的なパフォーマンス指標とMcNemarのテストを用いて、確立されたベンチマークに対してモデルを検証し、その優位性をさらに強調する。

Plant classification is vital for ecological conservation and agricultural productivity, enhancing our understanding of plant growth dynamics and aiding species preservation. The advent of deep learning (DL) techniques has revolutionized this field by enabling autonomous feature extraction, significantly reducing the dependence on manual expertise. However, conventional DL models often rely solely on single data sources, failing to capture the full biological diversity of plant species comprehensively. Recent research has turned to multimodal learning to overcome this limitation by integrating multiple data types, which enriches the representation of plant characteristics. This shift introduces the challenge of determining the optimal point for modality fusion. In this paper, we introduce a pioneering multimodal DL-based approach for plant classification with automatic modality fusion. Utilizing the multimodal fusion architecture search, our method integrates images from multiple plant organs-flowers, leaves, fruits, and stems-into a cohesive model. Our method achieves 83.48% accuracy on 956 classes of the PlantCLEF2015 dataset, surpassing state-of-the-art methods. It outperforms late fusion by 11.07% and is more robust to missing modalities. We validate our model against established benchmarks using standard performance metrics and McNemar's test, further underscoring its superiority.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# 大規模言語モデルを用いた微分プライベートタブラルデータ合成

Differentially Private Tabular Data Synthesis using Large Language Models ( http://arxiv.org/abs/2406.01457v1 )

ライセンス: Link先を確認
Toan V. Tran, Li Xiong, (参考訳) 差分プライバシを持つ合成表データ生成は、正式なプライバシを持つデータ共有を実現する上で重要な問題である。 方法論的な研究と開発の歴史は豊富だが、現実的な合成データセットを提供するための、微分的にプライベートな表型データジェネレータを開発することは、依然として困難である。 本稿ではDP-LLMTGenについて述べる。DP-LLMTGenは、事前学習された大規模言語モデル(LLM)を利用する、微分プライベートな表形式データ合成のための新しいフレームワークである。 DP-LLMTGenは、2段階の微調整手順と表データに特化して設計された新しい損失関数を用いて、センシティブなデータセットをモデル化する。 その後、微調整LDMをサンプリングして合成データを生成する。 我々の経験的評価は、DP-LLMTGenが複数のデータセットとプライバシ設定にまたがる様々な既存のメカニズムより優れていることを示している。 さらに、この重要な問題に対処する上で、LLMの理解を深めるために、アブレーション研究といくつかの実験的分析を行う。 最後に,DP-LLMTGenの制御可能な生成能力を,公平性に制約された生成設定により強調する。

Synthetic tabular data generation with differential privacy is a crucial problem to enable data sharing with formal privacy. Despite a rich history of methodological research and development, developing differentially private tabular data generators that can provide realistic synthetic datasets remains challenging. This paper introduces DP-LLMTGen -- a novel framework for differentially private tabular data synthesis that leverages pretrained large language models (LLMs). DP-LLMTGen models sensitive datasets using a two-stage fine-tuning procedure with a novel loss function specifically designed for tabular data. Subsequently, it generates synthetic data through sampling the fine-tuned LLMs. Our empirical evaluation demonstrates that DP-LLMTGen outperforms a variety of existing mechanisms across multiple datasets and privacy settings. Additionally, we conduct an ablation study and several experimental analyses to deepen our understanding of LLMs in addressing this important problem. Finally, we highlight the controllable generation ability of DP-LLMTGen through a fairness-constrained generation setting.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# マニフォールド仮説に基づくニューラルネットワーク学習の難しさ

Hardness of Learning Neural Networks under the Manifold Hypothesis ( http://arxiv.org/abs/2406.01461v1 )

ライセンス: Link先を確認
Bobak T. Kiani, Jason Wang, Melanie Weber, (参考訳) 多様体仮説は、高次元データが低次元多様体上または近辺にあると仮定する。 幾何学的構造を符号化する実用性は実証的に実証されているが、ニューラルネットワークの学習性に対するその影響の厳密な分析はほとんど欠落している。 いくつかの最近の結果は、ガウス的あるいは均一なブールデータ分布の下でフィードフォワードおよび同変ニューラルネットワークを学習するための硬度結果を確立している。 本稿では,多様体仮説に基づく学習の難しさについて考察する。 多様体の曲率と正則性に関する最小の仮定を問うが、もしある場合、学習問題を効率的に学習できる。 我々は、SQにおける硬さの証明とBooleanデータ入力の暗号設定を幾何学的設定に拡張することにより、有界曲率の入力多様体の下で学習が難しいことを証明した。 一方、データ多様体の体積に関する仮定は、これらの基本的な制限を緩和し、単純な補間引数を通して学習可能性を保証する。 この状態の顕著な例は多様体の学習を通じて確実に再構成できる多様体である。 今後は、実世界のデータによく見られる不均一な特徴を持つ多様体の中間規則についてコメントし、実証的に検討する。

The manifold hypothesis presumes that high-dimensional data lies on or near a low-dimensional manifold. While the utility of encoding geometric structure has been demonstrated empirically, rigorous analysis of its impact on the learnability of neural networks is largely missing. Several recent results have established hardness results for learning feedforward and equivariant neural networks under i.i.d. Gaussian or uniform Boolean data distributions. In this paper, we investigate the hardness of learning under the manifold hypothesis. We ask which minimal assumptions on the curvature and regularity of the manifold, if any, render the learning problem efficiently learnable. We prove that learning is hard under input manifolds of bounded curvature by extending proofs of hardness in the SQ and cryptographic settings for Boolean data inputs to the geometric setting. On the other hand, we show that additional assumptions on the volume of the data manifold alleviate these fundamental limitations and guarantee learnability via a simple interpolation argument. Notable instances of this regime are manifolds which can be reliably reconstructed via manifold learning. Looking forward, we comment on and empirically explore intermediate regimes of manifolds, which have heterogeneous features commonly found in real world data.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# 被被覆レンズによる選好微調整の理解

Understanding Preference Fine-Tuning Through the Lens of Coverage ( http://arxiv.org/abs/2406.01462v1 )

ライセンス: Link先を確認
Yuda Song, Gokul Swamy, Aarti Singh, J. Andrew Bagnell, Wen Sun, (参考訳) 人間の嗜好データからの学習が,大規模言語モデル (LLM) を微調整する主要なパラダイムとして浮上している。 PPO(Proximal Policy Optimization)のようなオンライン強化学習(RL)と、DPO(Direct Preference Optimization)のようなオフラインのコントラスト的手法は、どちらも同一のオフライン優先データセットから開始する必要があるため、以前の作業では同等と位置づけられていた。 選好微調整のためのオンラインとオフラインの技法の類似点と相違点に関する理論的理解をさらに深めるため、データセットカバレッジのレンズを通して厳密な分析を行い、トレーニングデータがテスト分布をどのようにカバーしているかを捉え、RLで広く使われている概念である。 グローバルなカバレッジ条件は,オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示すが,オンラインRL手法ではより弱い部分カバレッジ条件で十分である。 この分離によって、オンラインRLメソッドがオフラインメソッドよりも優れたパフォーマンスを得られる理由が説明できる。 最後に, 従来の理論的観測をベースとして, オフラインデータをコントラッシブな選好最適化に用いるハイブリッド選好最適化(HyPO)アルゴリズムと, KL正則化のためのオンラインデータを導出する。 理論的かつ実証的に、HyPOは純粋なオフラインのDPOよりも高性能でありながら、その計算とメモリ効率を保っていることを実証する。

Learning from human preference data has emerged as the dominant paradigm for fine-tuning large language models (LLMs). The two most common families of techniques -- online reinforcement learning (RL) such as Proximal Policy Optimization (PPO) and offline contrastive methods such as Direct Preference Optimization (DPO) -- were positioned as equivalent in prior work due to the fact that both have to start from the same offline preference dataset. To further expand our theoretical understanding of the similarities and differences between online and offline techniques for preference fine-tuning, we conduct a rigorous analysis through the lens of dataset coverage, a concept that captures how the training data covers the test distribution and is widely used in RL. We prove that a global coverage condition is both necessary and sufficient for offline contrastive methods to converge to the optimal policy, but a weaker partial coverage condition suffices for online RL methods. This separation provides one explanation of why online RL methods can perform better than offline methods, especially when the offline preference data is not diverse enough. Finally, motivated by our preceding theoretical observations, we derive a hybrid preference optimization (HyPO) algorithm that uses offline data for contrastive-based preference optimization and online data for KL regularization. Theoretically and empirically, we demonstrate that HyPO is more performant than its pure offline counterpart DPO, while still preserving its computation and memory efficiency.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# RaDe-GS: ガウシアン・スティングの深さをラスタライズ

RaDe-GS: Rasterizing Depth in Gaussian Splatting ( http://arxiv.org/abs/2406.01467v1 )

ライセンス: Link先を確認
Baowen Zhang, Chuan Fang, Rakesh Shrestha, Yixun Liang, Xiaoxiao Long, Ping Tan, (参考訳) Gaussian Splatting (GS) は、高品質でリアルタイムなレンダリングを実現するために、新しいビュー合成に非常に効果的であることが証明されている。 しかし, 詳細な3次元形状を復元する可能性については, 十分に調査されていない。 既存の方法はしばしば、形状抽出を複雑にするガウススプレートの離散的かつ非構造的な性質のために、限られた形状精度に悩まされる。 2D GSのような最近の技術は形状再構成の改善を試みているが、レンダリング品質と計算効率の両方を下げる方法でガウス原始を再構成することが多い。 これらの問題に対処するため,本研究では,一般の3次元ガウススプラットの深度マップと表面正規写像をレンダリングするラスタ化手法を提案する。 提案手法は形状復元精度を大幅に向上させるだけでなく,ガウススプラッティングに固有の計算効率も維持する。 提案手法は,DTUデータセット上でのNeuraLangeloに匹敵するチャムファー距離誤差と,タンク&テンプルデータセット上での従来のガウススプラッティングと同様のトレーニングとレンダリング時間を実現する。 本手法はガウススプラッティングにおける重要な進歩であり,既存のガウススプラッティング法に直接組み込むことができる。

Gaussian Splatting (GS) has proven to be highly effective in novel view synthesis, achieving high-quality and real-time rendering. However, its potential for reconstructing detailed 3D shapes has not been fully explored. Existing methods often suffer from limited shape accuracy due to the discrete and unstructured nature of Gaussian splats, which complicates the shape extraction. While recent techniques like 2D GS have attempted to improve shape reconstruction, they often reformulate the Gaussian primitives in ways that reduce both rendering quality and computational efficiency. To address these problems, our work introduces a rasterized approach to render the depth maps and surface normal maps of general 3D Gaussian splats. Our method not only significantly enhances shape reconstruction accuracy but also maintains the computational efficiency intrinsic to Gaussian Splatting. Our approach achieves a Chamfer distance error comparable to NeuraLangelo on the DTU dataset and similar training and rendering time as traditional Gaussian Splatting on the Tanks & Temples dataset. Our method is a significant advancement in Gaussian Splatting and can be directly integrated into existing Gaussian Splatting-based methods.
翻訳日:2024-06-05 22:20:27 公開日:2024-06-03
# 出力埋め込みにおけるトークン確率エンコーディングの理解

Understanding Token Probability Encoding in Output Embeddings ( http://arxiv.org/abs/2406.01468v1 )

ライセンス: Link先を確認
Hakaze Cho, Yoshihiro Sakai, Kenshiro Tanaka, Mariko Kato, Naoya Inoue, (参考訳) 本稿では,言語モデルの出力埋め込みにおける出力トークン確率情報について検討する。 出力埋め込みベクトル内の出力トークン確率の近似共通対数線形符号化を行い、出力空間が大きく、出力ロジットが集中している場合に、それが正確でスパースであることを示す。 このような結果に基づいて,出力の埋め込みにおける符号化を編集し,出力確率分布を正確に修正する。 さらに、出力確率エンコーディングにおける空間性は、出力埋め込みにおける多数の次元が因果言語モデリングに寄与しないことを示唆している。 したがって、出力非関連次元を除去し、出力分布やシーケンス生成のデジェネレーションに大きな動きを伴わずに、30%以上の次元を削除できることを確かめる。 さらに、トレーニング力学において、そのようなエンコーディングをプローブとして使用し、明らかな収束が始まる前の初期段階において、出力埋め込みがトークンの周波数情報をキャプチャするのを見つける。

In this paper, we investigate the output token probability information in the output embedding of language models. We provide an approximate common log-linear encoding of output token probabilities within the output embedding vectors and demonstrate that it is accurate and sparse when the output space is large and output logits are concentrated. Based on such findings, we edit the encoding in output embedding to modify the output probability distribution accurately. Moreover, the sparsity we find in output probability encoding suggests that a large number of dimensions in the output embedding do not contribute to causal language modeling. Therefore, we attempt to delete the output-unrelated dimensions and find more than 30% of the dimensions can be deleted without significant movement in output distribution and degeneration on sequence generation. Additionally, in training dynamics, we use such encoding as a probe and find that the output embeddings capture token frequency information in early steps, even before an obvious convergence starts.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# 検索空間の拡大と全変動を考慮した断層画像再構成と正規化

Tomographic Reconstruction and Regularisation with Search Space Expansion and Total Variation ( http://arxiv.org/abs/2406.01469v1 )

ライセンス: Link先を確認
Mohammad Majid al-Rifaie, Tim Blackwell, (参考訳) 画像再構成におけるレイプロジェクションの使用は、医用画像の一般的な技術である。 不完全なデータの処理は、患者が潜在的に放射線を損傷したり、長いスキャン時間に対処できない場合に特に重要である。 本稿では,問題を最適化タスクに再構成し,さらに画像空間内を粒子が移動する高度アンサンプデータからSwarmベースの再構成を用いて再構成誤差を最小化する。 最近導入された探索空間拡張技術に加えて,よりスムースなプロセスである全変分正規化も適応し,検討した。 提案手法は, 標準トモグラフィ再構成ツールボックスアルゴリズムよりも低い再生誤差を生じさせるとともに, 臨床的に重要なShepp-Loganファントムの高次元オプティマイザの1つである。

The use of ray projections to reconstruct images is a common technique in medical imaging. Dealing with incomplete data is particularly important when a patient is vulnerable to potentially damaging radiation or is unable to cope with the long scanning time. This paper utilises the reformulation of the problem into an optimisation tasks, followed by using a swarm-based reconstruction from highly undersampled data where particles move in image space in an attempt to minimise the reconstruction error. The process is prone to noise and, in addition to the recently introduced search space expansion technique, a further smoothing process, total variation regularisation, is adapted and investigated. The proposed method is shown to produce lower reproduction errors compared to standard tomographic reconstruction toolbox algorithms as well as one of the leading high-dimensional optimisers on the clinically important Shepp-Logan phantom.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# 雑音測定による絡み合った状態の検証

Verification of entangled states under noisy measurements ( http://arxiv.org/abs/2406.01470v1 )

ライセンス: Link先を確認
Lan Zhang, Yinfei Li, Ye-Chao Liu, Jiangwei Shang, (参考訳) 絡み合いは、多くの量子情報や量子計算タスクにおいて欠かせない役割を担い、絡み合った状態を効率的に検証する必要性を浮き彫りにする。 近年、量子状態検証が注目されているが、このアプローチを実装する際のノイズ効果に対処する上での課題は未解決のままである。 本研究では,計測ノイズの存在下での量子状態検証プロトコルの性能を系統的に評価する。 この分析に基づいて、ノイズ測定の下でターゲット状態を一意に識別するために必要かつ十分な条件が提供される。 さらに,雑音測定を用いた対称仮説試験検証アルゴリズムを提案する。 その後、GHZと安定化器状態のノイズ非適応検証戦略を用いて、検証効率に対するノイズ効果を示す。 解析的および数値的両面から、ノイズ検証プロトコルは、サンプルの複雑さと不確かさの間に負の二次的関係を示すことを示す。 提案手法は実実験環境に容易に適用でき,将来性を示すことができる。

Entanglement plays an indispensable role in numerous quantum information and quantum computation tasks, underscoring the need for efficiently verifying entangled states. In recent years, quantum state verification has received increasing attention, yet the challenge of addressing noise effects in implementing this approach remains unsolved. In this work, we provide a systematic assessment of the performance of quantum state verification protocols in the presence of measurement noise. Based on the analysis, a necessary and sufficient condition is provided to uniquely identify the target state under noisy measurements. Moreover, we propose a symmetric hypothesis testing verification algorithm with noisy measurements. Subsequently, using a noisy nonadaptive verification strategy of GHZ and stabilizer states, the noise effects on the verification efficiency are illustrated. From both analytical and numerical perspectives, we demonstrate that the noisy verification protocol exhibits a negative quadratic relationship between the sample complexity and the infidelity. Our method can be easily applied to real experimental settings, thereby demonstrating its promising prospects.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# 多要素機械学習アンサンブルフレームワークと高スループットフェムト秒レーザー処理によるInconel上のフォトニック面の逆設計

Inverse design of photonic surfaces on Inconel via multi-fidelity machine learning ensemble framework and high throughput femtosecond laser processing ( http://arxiv.org/abs/2406.01471v1 )

ライセンス: Link先を確認
Luka Grbcic, Minok Park, Mahmoud Elzouka, Ravi Prasher, Juliane Müller, Costas P. Grigoropoulos, Sean D. Lubner, Vassilia Zorba, Wibe Albert de Jong, (参考訳) 我々は、高スループットフェムト秒レーザー処理を用いて作製した11,759個のサンプルのデータセットに基づいて、フォトニック表面の逆設計のためのMF(Multi-fidelity)機械学習アンサンブルフレームワークを実演する。 MFアンサンブルは、設計ソリューションを生成するための初期低忠実度モデルと、これらのソリューションを局所最適化によって洗練する高忠実度モデルを組み合わせる。 組み合わせられたMFアンサンブルは、複数の異なるレーザー処理パラメータを生成でき、それぞれが高い精度で同じターゲットの入力スペクトル放射率(ルート平均2乗誤差<2%)を生成できる。 SHapley Additive exPlanations解析は、レーザーパラメータと分光放射率の複雑な関係の透過的なモデル解釈可能性を示している。 最後に、MFアンサンブルは、効率エネルギー回収装置の改善のために生成するフォトニック表面の設計を作製し、評価することによって実験的に検証される。 本手法は, エネルギー収穫への応用において, フォトニック表面の逆設計を推し進めるための強力なツールを提供する。

We demonstrate a multi-fidelity (MF) machine learning ensemble framework for the inverse design of photonic surfaces, trained on a dataset of 11,759 samples that we fabricate using high throughput femtosecond laser processing. The MF ensemble combines an initial low fidelity model for generating design solutions, with a high fidelity model that refines these solutions through local optimization. The combined MF ensemble can generate multiple disparate sets of laser-processing parameters that can each produce the same target input spectral emissivity with high accuracy (root mean squared errors < 2%). SHapley Additive exPlanations analysis shows transparent model interpretability of the complex relationship between laser parameters and spectral emissivity. Finally, the MF ensemble is experimentally validated by fabricating and evaluating photonic surface designs that it generates for improved efficiency energy harvesting devices. Our approach provides a powerful tool for advancing the inverse design of photonic surfaces in energy harvesting applications.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# DreamPhysics:ビデオ拡散プリミティブを用いた動的3次元ガウスの物理特性の学習

DreamPhysics: Learning Physical Properties of Dynamic 3D Gaussians with Video Diffusion Priors ( http://arxiv.org/abs/2406.01476v1 )

ライセンス: Link先を確認
Tianyu Huang, Yihan Zeng, Hui Li, Wangmeng Zuo, Rynson W. H. Lau, (参考訳) ダイナミックな3Dインタラクションは、最近の作品で大きな関心を集めている。 1つの解決策は物理シミュレーションによる3Dシーンのアニメーションであり、もう1つはビデオ生成モデルの蒸留により静的な3Dオブジェクトの変形を学習することである。 前者はターゲットオブジェクトに正確な物理的プロパティを割り当てる必要があり、そうでなければシミュレーション結果が不自然なものになる。 後者は、変形学習における物理的な制約がないため、動画を小さな動きと不連続なフレームで定式化する傾向がある。 映像生成モデルは実世界の撮影データを用いて訓練されており、シミュレーション環境における物理現象を判断できると考えている。 そこで本研究では,映像拡散前の3次元ガウス散乱の物理特性を推定するDreamPhysicsを提案する。 DreamPhysicsは画像とテキストによるガイダンスの両方をサポートし、フレーム補間とログ勾配によるスコア蒸留サンプリングによって物理パラメータを最適化する。 本手法は,適切な物理パラメータを持つ物質点法シミュレータに基づいて,現実的な動きを持つ4次元コンテンツを生成する。 実験結果から,ビデオ拡散モデルの事前知識を蒸留することにより,不正確な物理特性を徐々に洗練し,高品質なシミュレーションを行うことができた。 コードはhttps://github.com/tyhuang0428/DreamPhysics.comで公開されている。

Dynamic 3D interaction has witnessed great interest in recent works, while creating such 4D content remains challenging. One solution is to animate 3D scenes with physics-based simulation, and the other is to learn the deformation of static 3D objects with the distillation of video generative models. The former one requires assigning precise physical properties to the target object, otherwise the simulated results would become unnatural. The latter tends to formulate the video with minor motions and discontinuous frames, due to the absence of physical constraints in deformation learning. We think that video generative models are trained with real-world captured data, capable of judging physical phenomenon in simulation environments. To this end, we propose DreamPhysics in this work, which estimates physical properties of 3D Gaussian Splatting with video diffusion priors. DreamPhysics supports both image- and text-conditioned guidance, optimizing physical parameters via score distillation sampling with frame interpolation and log gradient. Based on a material point method simulator with proper physical parameters, our method can generate 4D content with realistic motions. Experimental results demonstrate that, by distilling the prior knowledge of video diffusion models, inaccurate physical properties can be gradually refined for high-quality simulation. Codes are released at: https://github.com/tyhuang0428/DreamPhysics.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# 凹凸最大化による最適ロバストデータ混合の探索

Finding Optimally Robust Data Mixtures via Concave Maximization ( http://arxiv.org/abs/2406.01477v1 )

ライセンス: Link先を確認
Anvith Thudi, Chris J. Maddison, (参考訳) データ分散の混合に関するトレーニングは、現在の多くの機械学習パイプラインで一般的であり、いくつかの下流タスクでうまく機能するのに役立つ。 群分布的ロバスト最適化(群DRO)は、特定のモデルクラスを訓練するための混合重み付けを学習する一般的な方法であるが、群DRO法は非凸損失関数とモデルが非パラメトリックであるために非線形モデルに苦しむ。 そこで我々は,より一般的なDRO問題の解法を提案し,MixMaxと呼ぶ手法を提案する。 MixMaxは、特定の凹面目標をエントロピーミラーの上昇で最大化することにより混合重量を選択し、重要なことに、この混合分布を有界予測器の集合に最適に適合させることでグループDRO最適モデルを返すことを証明した。 実験では、変換器を用いたシーケンスモデリングタスクと、様々な非パラメトリック学習問題でMixMaxを検証した。 すべてのケースにおいて、MixMaxは標準のデータミキシングとグループDROベースラインにマッチまたは性能を向上し、特にACSIncomeとCelebAアノテーションデータセットのバリエーションに対して、データバランシングの唯一のベースラインよりもXGBoostのパフォーマンスを改善した。

Training on mixtures of data distributions is now common in many modern machine learning pipelines, useful for performing well on several downstream tasks. Group distributionally robust optimization (group DRO) is one popular way to learn mixture weights for training a specific model class, but group DRO methods suffer for non-linear models due to non-convex loss functions and when the models are non-parametric. We address these challenges by proposing to solve a more general DRO problem, giving a method we call MixMax. MixMax selects mixture weights by maximizing a particular concave objective with entropic mirror ascent, and, crucially, we prove that optimally fitting this mixture distribution over the set of bounded predictors returns a group DRO optimal model. Experimentally, we tested MixMax on a sequence modeling task with transformers and on a variety of non-parametric learning problems. In all instances MixMax matched or outperformed the standard data mixing and group DRO baselines, and in particular, MixMax improved the performance of XGBoost over the only baseline, data balancing, for variations of the ACSIncome and CelebA annotations datasets.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# 確率的ニュートン近位勾配法

Stochastic Newton Proximal Extragradient Method ( http://arxiv.org/abs/2406.01478v1 )

ライセンス: Link先を確認
Ruichen Jiang, Michał Dereziński, Aryan Mokhtari, (参考訳) 確率的二階法は、雑音の多いヘッセン推定を用いて強凸最適化において高速な局所収束を達成する。 しかし、これらの手法は通常、確率的ヘッセン雑音が減少するときにのみ超線形収束し、時間の経過とともに1点当たりのコストが増大する。 最近の[arXiv:2204.09266]の研究は、高精細化コストを伴わずに超線型収束を実現するヘッセン平均化スキームでこの問題に対処している。 それにもかかわらず、この手法はグローバル収束が遅いため、$\tilde{O}(\kappa^2)$イテレーションを$\tilde{O}((1/t)^{t/2})$に到達させる必要がある。 本稿では,これらの境界を改良し,より高速な大域線形速度を実現し,$\tilde{O}(\kappa)$繰り返しで同じ高速な超線形速度に達するような,確率的ニュートン近位勾配法を提案する。 我々は,Hybrid Proximal Extragradient (HPE) フレームワークを拡張して,強凸関数に対する高速な大域的および局所的な収束率と,ノイズの多いヘッセンオラクルへのアクセスを実現する。

Stochastic second-order methods achieve fast local convergence in strongly convex optimization by using noisy Hessian estimates to precondition the gradient. However, these methods typically reach superlinear convergence only when the stochastic Hessian noise diminishes, increasing per-iteration costs over time. Recent work in [arXiv:2204.09266] addressed this with a Hessian averaging scheme that achieves superlinear convergence without higher per-iteration costs. Nonetheless, the method has slow global convergence, requiring up to $\tilde{O}(\kappa^2)$ iterations to reach the superlinear rate of $\tilde{O}((1/t)^{t/2})$, where $\kappa$ is the problem's condition number. In this paper, we propose a novel stochastic Newton proximal extragradient method that improves these bounds, achieving a faster global linear rate and reaching the same fast superlinear rate in $\tilde{O}(\kappa)$ iterations. We accomplish this by extending the Hybrid Proximal Extragradient (HPE) framework, achieving fast global and local convergence rates for strongly convex functions with access to a noisy Hessian oracle.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# BIMモデルの再検討の自動化に向けて:構築された環境の3次元セマンティック再構築のための統一フレームワーク

Towards Automating the Retrospective Generation of BIM Models: A Unified Framework for 3D Semantic Reconstruction of the Built Environment ( http://arxiv.org/abs/2406.01480v1 )

ライセンス: Link先を確認
Ka Lung Cheung, Chi Chung Lee, (参考訳) 建築情報モデリング(BIM)の導入は建設プロジェクトにおいて有益である。 しかし、3Dモデルの詳細をBIMに変換する統一的でスケーラブルなフレームワークがないため、課題に直面している。 本稿では,BIM生成のための統一的セマンティック再構築アーキテクチャであるSRBIMを紹介する。 提案手法の有効性は, 定性的, 定量的な評価を通じて実証され, 自動BIMモデリングの新しいパラダイムが確立された。

The adoption of Building Information Modeling (BIM) is beneficial in construction projects. However, it faces challenges due to the lack of a unified and scalable framework for converting 3D model details into BIM. This paper introduces SRBIM, a unified semantic reconstruction architecture for BIM generation. Our approach's effectiveness is demonstrated through extensive qualitative and quantitative evaluations, establishing a new paradigm for automated BIM modeling.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# ユーザが選択したストリーミングデータから学ぶ

Learning from Streaming Data when Users Choose ( http://arxiv.org/abs/2406.01481v1 )

ライセンス: Link先を確認
Jinyan Su, Sarah Dean, (参考訳) 多くの競合するサービスからなるデジタルマーケットでは、ユーザーは好みに応じて複数のサービスプロバイダを選択し、選択したサービスはユーザーデータを使用してモデルを漸進的に改善する。 サービス提供者のモデルが次のステップでどのサービスを選択するかに影響し、その代わりにユーザの選択がモデルの更新に影響を与え、フィードバックループにつながる。 本稿では、上記のダイナミクスを形式化し、ユーザ全体の損失を局所的に最小化するために、単純で効率的な分散アルゴリズムを開発する。 理論的には、我々のアルゴリズムは漸近的に全体の損失の定常点にほぼ確実に収束することを示す。 また,実世界のデータを用いたアルゴリズムの有用性を実験的に実証した。

In digital markets comprised of many competing services, each user chooses between multiple service providers according to their preferences, and the chosen service makes use of the user data to incrementally improve its model. The service providers' models influence which service the user will choose at the next time step, and the user's choice, in return, influences the model update, leading to a feedback loop. In this paper, we formalize the above dynamics and develop a simple and efficient decentralized algorithm to locally minimize the overall user loss. Theoretically, we show that our algorithm asymptotically converges to stationary points of of the overall loss almost surely. We also experimentally demonstrate the utility of our algorithm with real world data.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# 高忠実性2ビットゲートに対する$^{171}$Yb Rydberg状態の分光とモデリング

Spectroscopy and modeling of $^{171}$Yb Rydberg states for high-fidelity two-qubit gates ( http://arxiv.org/abs/2406.01482v1 )

ライセンス: Link先を確認
Michael Peper, Yiyi Li, Daniel Y. Knapp, Mila Bileska, Shuo Ma, Genyue Liu, Pai Peng, Bichen Zhang, Sebastian P. Horvath, Alex P. Burgers, Jeff D. Thompson, (参考訳) 我々は、高度に励起された$^{174}$Ybおよび$^{171}$Yb Rydberg状態に対して、$L \leq 2$のマルチチャネル量子欠陥(MQDT)モデルを示す。 これらのモデルは、既存の文献データと、原子ビーム中の新しい高精度レーザーとマイクロ波分光法を組み合わせて開発され、実験的に測定されたスタークシフトと磁気モーメントとの詳細な比較によって検証される。 次に、これらのモデルを用いて、2つのYb原子間の相互作用ポテンシャルを計算し、光学的ツイーザアレイにおける直接測定と良好な一致を見出す。 計算された相互作用ポテンシャルから、F=3/2$Rydberg状態を用いて、以前のエンタングゲートの忠実度を$^{171}$Ybで低下させるような異常なF\"オースター共鳴を同定する。 次に、より適切な$F=1/2$の状態を特定し、その残差を既知の情報源で完全に説明しながら、最先端の制御されたZゲートの忠実度を$\mathcal{F}=0.994(1)$とする。 この研究は、Yb中性原子配列による量子コンピューティング、シミュレーション、エンタングルメント強化メトロジーの継続的な発展の基礎を確立する。

We present multichannel quantum defect (MQDT) models for highly excited $^{174}$Yb and $^{171}$Yb Rydberg states with $L \leq 2$. The models are developed using a combination of existing literature data and new, high-precision laser and microwave spectroscopy in an atomic beam, and validated by detailed comparison with experimentally measured Stark shifts and magnetic moments. We then use these models to compute interaction potentials between two Yb atoms, and find excellent agreement with direct measurements in an optical tweezer array. From the computed interaction potential, we identify an anomalous F\"orster resonance that likely degraded the fidelity of previous entangling gates in $^{171}$Yb using $F=3/2$ Rydberg states. We then identify a more suitable $F=1/2$ state, and achieve a state-of-the-art controlled-Z gate fidelity of $\mathcal{F}=0.994(1)$, with the remaining error fully explained by known sources. This work establishes a solid foundation for the continued development quantum computing, simulation and entanglement-enhanced metrology with Yb neutral atom arrays.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# オンライン最適化による一階・零階分散非平滑非凸確率最適化

Online Optimization Perspective on First-Order and Zero-Order Decentralized Nonsmooth Nonconvex Stochastic Optimization ( http://arxiv.org/abs/2406.01484v1 )

ライセンス: Link先を確認
Emre Sahinoglu, Shahin Shahrampour, (参考訳) 分散確率最適化における非滑らかな非凸目的に対する(\delta,\epsilon$)-定常点の有限時間解析について検討する。 エージェントのセットは、ネットワークを介して対話することで、ローカル情報のみを使用してグローバル関数を最小化することを目的としている。 本稿では,多言語多言語分散オンライン学習(ME-DOL, Multi Epoch Decentralized Online Learning)と呼ばれる新しいアルゴリズムを提案する。 まず,最近提案したオンライン・非凸手法を用いて,滑らかな非凸対象の最適収束率を復元する手法を提案する。 次に、無作為な滑らか化とゴールドスタイン偏微分集合の性質に基づいて、解析を非滑らかな設定に拡張する。 我々は、$O(\delta^{-1}\epsilon^{-3})$のサンプル複雑性を確立し、これは我々の知る限り、分散化された非滑らかな非凸確率最適化を(弱凸性を伴わない)1次設定で最初の有限時間保証である。 さらに, 分散還元を使わずに, ゼロオーダーのオラクル設定に対して同じ速度を証明した。

We investigate the finite-time analysis of finding ($\delta,\epsilon$)-stationary points for nonsmooth nonconvex objectives in decentralized stochastic optimization. A set of agents aim at minimizing a global function using only their local information by interacting over a network. We present a novel algorithm, called Multi Epoch Decentralized Online Learning (ME-DOL), for which we establish the sample complexity in various settings. First, using a recently proposed online-to-nonconvex technique, we show that our algorithm recovers the optimal convergence rate of smooth nonconvex objectives. We then extend our analysis to the nonsmooth setting, building on properties of randomized smoothing and Goldstein-subdifferential sets. We establish the sample complexity of $O(\delta^{-1}\epsilon^{-3})$, which to the best of our knowledge is the first finite-time guarantee for decentralized nonsmooth nonconvex stochastic optimization in the first-order setting (without weak-convexity), matching its optimal centralized counterpart. We further prove the same rate for the zero-order oracle setting without using variance reduction.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# タスクグラフ学習の差別化:エゴセントリックビデオからの手続き的活動表現とオンライン誤検出

Differentiable Task Graph Learning: Procedural Activity Representation and Online Mistake Detection from Egocentric Videos ( http://arxiv.org/abs/2406.01486v1 )

ライセンス: Link先を確認
Luigi Seminara, Giovanni Maria Farinella, Antonino Furnari, (参考訳) 手続き的活動は、特定の目標を達成するための重要なステップのシーケンスである。 彼らは、ユーザーを効果的に支援できるインテリジェントなエージェントを構築することが不可欠だ。 この文脈では、タスクグラフは手続き的活動の人間の理解可能な表現として現れ、キーステップ上の部分順序を符号化している。 従来,ビデオからタスクグラフを抽出するための手作り手法が一般的であったのに対して,本稿では,エッジの重みを直接最適化する手法を提案し,タスクグラフの勾配に基づく学習を可能にし,ニューラルネットワークアーキテクチャに自然にプラグインできる。 CaptainCook4Dデータセットの実験では、アクションシーケンスの観測から正確なタスクグラフを予測できることが示され、以前のアプローチよりも+16.7%向上した。 また,提案フレームワークの相違点から,キーステップのテキストやビデオの埋め込みからタスクグラフを予測し,新たな映像理解能力を観察することを目的とした機能ベースのアプローチも導入する。 提案手法を用いて学習したタスクグラフは、手続き的エゴセントリックなビデオにおけるオンライン誤検出を著しく向上させ、アセンブリ101およびEPIC-Tentデータセットにおいて、+19.8%および+7.5%の顕著なゲインを達成した。 実験を複製するためのコードはhttps://github.com/fpv-iplab/Differentiable-Task-Graph-Learningで公開されている。

Procedural activities are sequences of key-steps aimed at achieving specific goals. They are crucial to build intelligent agents able to assist users effectively. In this context, task graphs have emerged as a human-understandable representation of procedural activities, encoding a partial ordering over the key-steps. While previous works generally relied on hand-crafted procedures to extract task graphs from videos, in this paper, we propose an approach based on direct maximum likelihood optimization of edges' weights, which allows gradient-based learning of task graphs and can be naturally plugged into neural network architectures. Experiments on the CaptainCook4D dataset demonstrate the ability of our approach to predict accurate task graphs from the observation of action sequences, with an improvement of +16.7% over previous approaches. Owing to the differentiability of the proposed framework, we also introduce a feature-based approach, aiming to predict task graphs from key-step textual or video embeddings, for which we observe emerging video understanding abilities. Task graphs learned with our approach are also shown to significantly enhance online mistake detection in procedural egocentric videos, achieving notable gains of +19.8% and +7.5% on the Assembly101 and EPIC-Tent datasets. Code for replicating experiments is available at https://github.com/fpv-iplab/Differentiable-Task-Graph-Learning.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# ラベル平滑化とデータモロフィケーションの結合によるロバスト分類

Robust Classification by Coupling Data Mollification with Label Smoothing ( http://arxiv.org/abs/2406.01494v1 )

ライセンス: Link先を確認
Markus Heinonen, Ba-Hien Tran, Michael Kampffmeyer, Maurizio Filippone, (参考訳) トレーニング時間拡張の導入は、一般化を強化し、テスト時間の破損に対してディープニューラルネットワークを準備するための重要なテクニックである。 生成拡散モデルの成功に触発されて,ラベルの滑らか化を図り,ラベルの信頼度を画像劣化と整合させる手法として,画像のノイズ化とぼやけという形で,新たな結合データ拡張を提案する。 このメソッドは実装が簡単で、無視可能なオーバーヘッドを導入し、既存の拡張と組み合わせることができる。 CIFARおよびTinyImageNetデータセットの劣化画像ベンチマークにおいて、ロバスト性および不確実性の定量化が向上したことを示す。

Introducing training-time augmentations is a key technique to enhance generalization and prepare deep neural networks against test-time corruptions. Inspired by the success of generative diffusion models, we propose a novel approach coupling data augmentation, in the form of image noising and blurring, with label smoothing to align predicted label confidences with image degradation. The method is simple to implement, introduces negligible overheads, and can be combined with existing augmentations. We demonstrate improved robustness and uncertainty quantification on the corrupted image benchmarks of the CIFAR and TinyImageNet datasets.
翻訳日:2024-06-05 22:10:43 公開日:2024-06-03
# 言語エージェントのための反射強化自己学習

Reflection-Reinforced Self-Training for Language Agents ( http://arxiv.org/abs/2406.01495v1 )

ライセンス: Link先を確認
Zi-Yi Dou, Cheng-Fu Yang, Xueqing Wu, Kai-Wei Chang, Nanyun Peng, (参考訳) 自己学習は、人間やより強力なモデルによるデモンストレーションに頼ることなく、言語エージェントのパフォーマンスを向上させる可能性がある。 一般的なプロセスでは、モデルからサンプルを生成し、品質を評価し、高品質なサンプルをトレーニングすることでモデルを更新する。 しかし, 自己学習は, 優れた性能を実現するためには, 高い品質のサンプルを必要とするため, モデルサンプリングのみに頼っているため, 効率が悪くなるため, 限界に直面することがある。 さらに、これらの手法は、しばしば低品質のサンプルを無視し、効果的に利用できない。 これらの制約に対処するため,リフレクション強化自己訓練(Re-ReST)を提案する。 リフレクションモデルは、モデル出力と外部環境(例えば、コード生成における単体テスト結果)からのフィードバックの両方を入力として、改善されたサンプルを出力として生成する。 この手法を用いることで、劣悪なサンプルの品質を効果的に向上させ、高品質なサンプルで自己学習データセットを効率的に強化する。 我々は,マルチホップ質問応答,シーケンシャルな意思決定,コード生成,視覚的質問応答,テキスト・ツー・イメージ生成など,タスクにまたがるオープンソースの言語エージェントに関する広範な実験を行った。 結果は、設定間での自己学習ベースラインの改善を示す。 さらに、アブレーション研究は、高品質な自己学習サンプルの生成における反射モデルの効率と、自己整合性復号化との整合性を確認した。

Self-training can potentially improve the performance of language agents without relying on demonstrations from humans or stronger models. The general process involves generating samples from a model, evaluating their quality, and updating the model by training on high-quality samples. However, self-training can face limitations because achieving good performance requires a good amount of high-quality samples, yet relying solely on model sampling for obtaining such samples can be inefficient. In addition, these methods often disregard low-quality samples, failing to leverage them effectively. To address these limitations, we present Reflection-Reinforced Self-Training (Re-ReST), which leverages a reflection model to refine low-quality samples and subsequently uses these improved samples to augment self-training. The reflection model takes both the model output and feedback from an external environment (e.g., unit test results in code generation) as inputs and produces improved samples as outputs. By employing this technique, we effectively enhance the quality of inferior samples, and enrich the self-training dataset with higher-quality samples efficiently. We perform extensive experiments on open-source language agents across tasks, including multi-hop question answering, sequential decision-making, code generation, visual question answering, and text-to-image generation. Results demonstrate improvements over self-training baselines across settings. Moreover, ablation studies confirm the reflection model's efficiency in generating quality self-training samples and its compatibility with self-consistency decoding.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# 大規模言語モデルにおける分類的・階層的概念の幾何学

The Geometry of Categorical and Hierarchical Concepts in Large Language Models ( http://arxiv.org/abs/2406.01506v1 )

ライセンス: Link先を確認
Kiho Park, Yo Joong Choe, Yibo Jiang, Victor Veitch, (参考訳) 大言語モデルの表現空間において意味の意味がどのようにコード化されているかを理解することは、解釈可能性の根本的な問題である。 本稿では,本分野における2つの基礎的課題について考察する。 まず、 {'mammal'、'bird'、'reptile'、'fish'} のような分類学的概念はどのように表現されるのか? 第二に、概念間の階層的関係はどのように符号化されるのか? 例えば、"dog"が"mammal"エンコードされた一種の"mammal"であるという事実はどうでしょう? これらの疑問に答えるために線形表現仮説を拡張する方法を示す。 単純な分類的概念はsimpliceとして表現され、階層的関連概念は直交的であり、(結果として)複素概念はsimpliceの直和から構築されたポリトープとして表現され、階層的構造を反映する。 我々は、これらの理論結果をGemmaの大規模言語モデルで検証し、WordNetのデータを用いて、957の階層的な概念の表現を推定する。

Understanding how semantic meaning is encoded in the representation spaces of large language models is a fundamental problem in interpretability. In this paper, we study the two foundational questions in this area. First, how are categorical concepts, such as {'mammal', 'bird', 'reptile', 'fish'}, represented? Second, how are hierarchical relations between concepts encoded? For example, how is the fact that 'dog' is a kind of 'mammal' encoded? We show how to extend the linear representation hypothesis to answer these questions. We find a remarkably simple structure: simple categorical concepts are represented as simplices, hierarchically related concepts are orthogonal in a sense we make precise, and (in consequence) complex concepts are represented as polytopes constructed from direct sums of simplices, reflecting the hierarchical structure. We validate these theoretical results on the Gemma large language model, estimating representations for 957 hierarchically related concepts using data from WordNet.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# 駆動型二段系における外部・内部ダイナミクスの疎結合

Decoupling of External and Internal Dynamics in Driven Two-level Systems ( http://arxiv.org/abs/2406.01511v1 )

ライセンス: Link先を確認
Samuel Böhringer, Alexander Friedrich, (参考訳) 本研究では、各状態に対する量子化された外部自由度を含むレーザ駆動の2レベル系を、外部自由度のみに作用する振動子方程式の集合に分解し、デチューニングを表す演算子値の減衰を図示する。 我々は、時間依存減衰を持つ古典振動子に訴えることにより、この問題の解法を特徴づける方法を提供する。 この分類の結果、私たちは (a)外部線形ポテンシャルをもたない自由度を含むラビ振動の解析的・表現的表現自由表現 (b)デチューニング作用素が(解析的あるいは数値的に)対角化されるとき、問題は古典方程式の集合に分解されることを示す。 (c) 振動子方程式を摂動基底として、弱いがそれ以外の任意の外部ポテンシャルにおけるラビ振動を記述することができる。 さらに、駆動磁場相のチャープは、駆動位相ノイズの存在がランゲヴィン型の確率進化方程式につながる間、デチューニング作用素の力学のエレンフェスト/平均値部分を補償する手段として自然に現れる。 最後に、我々のアプローチは外部自由度に関して自由表現であり、その結果、所望の応用に応じて適切な表現や基底展開を選択することができる。

We show how a laser driven two-level system including quantized external degrees of freedom for each state can be decoupled into a set of oscillator equations acting only on the external degrees of freedom with operator valued damping representing the detuning. We give a way of characterizing the solvability of this family of problems by appealing to a classical oscillator with time-dependent damping. As a consequence of this classification we (a) obtain analytic and representation-free expressions for Rabi oscillations including external degrees of freedom with and without an external linear potential, (b) show that whenever the detuning operator can be diagonalized (analytically or numerically) the problem decomposes into a set of classical equations and (c) we can use the oscillator equations as a perturbative basis to describe Rabi oscillations in weak but otherwise arbitrary external potentials. Moreover, chirping of the driving fields phase emerges naturally as a means of compensating the Ehrenfest/mean-value part of the detuning operator's dynamics while the presence of driving phase noise leads to a stochastic evolution equation of Langevin type. Lastly, our approach is representation free with respect to the external degrees of freedom and as consequence a suitable representation or basis expansion can be chosen a posteriori depending on the desired application at hand.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# MAD:マルチアライメントMEG-to-Textデコーディング

MAD: Multi-Alignment MEG-to-Text Decoding ( http://arxiv.org/abs/2406.01512v1 )

ライセンス: Link先を確認
Yiqian Yang, Hyejeong Jo, Yiqun Duan, Qiang Zhang, Jinni Zhou, Won Hee Lee, Renjing Xu, Hui Xiong, (参考訳) 脳活動から言語を解読することは脳-コンピュータインターフェース(BCI)研究において重要な課題である。 脳波(EEG)や脳磁図(MEG)などの非侵襲的な脳シグナル伝達技術は、その安全性と実用性から、侵襲的な電極移植を避けることで、ますます人気が高まっている。 しかし、現在の研究は以下の3点を定めていない。 1)より優れた信号品質を提供するMEGの探索が限定された脳波に主眼を置いている。 2) 未知のテキストの性能が劣り,多様な言語的文脈によりよい一般化が可能なモデルの必要性が示される。 3)他のモダリティからの情報の不十分な統合は、脳活動の複雑なダイナミクスを包括的に理解するために我々の能力を制限する可能性がある。 本研究では,複数のアライメントを持つ音声復号化フレームワークを用いて,MEG信号をテキストに変換する手法を提案する。 提案手法は,MEG信号から完全に見えないテキストを生成するための,エンドツーエンドのマルチアライメントフレームワークを初めて導入した手法である。 我々は、$\textit{GWilliams}$データセット上でBLEU-1の印象的なスコアを達成し、BLEU-1測定値のベースラインを5.49から10.44に大幅に上回った。 この改良は、実世界の応用に向けての我々のモデルの進歩を実証し、BCI研究の進展の可能性を裏付けるものである。 コードは $\href{https://github.com/NeuSpeech/MAD-MEG2text}{https://github.com/NeuSpeech/MAD-MEG2text}$で入手できる。

Deciphering language from brain activity is a crucial task in brain-computer interface (BCI) research. Non-invasive cerebral signaling techniques including electroencephalography (EEG) and magnetoencephalography (MEG) are becoming increasingly popular due to their safety and practicality, avoiding invasive electrode implantation. However, current works under-investigated three points: 1) a predominant focus on EEG with limited exploration of MEG, which provides superior signal quality; 2) poor performance on unseen text, indicating the need for models that can better generalize to diverse linguistic contexts; 3) insufficient integration of information from other modalities, which could potentially constrain our capacity to comprehensively understand the intricate dynamics of brain activity. This study presents a novel approach for translating MEG signals into text using a speech-decoding framework with multiple alignments. Our method is the first to introduce an end-to-end multi-alignment framework for totally unseen text generation directly from MEG signals. We achieve an impressive BLEU-1 score on the $\textit{GWilliams}$ dataset, significantly outperforming the baseline from 5.49 to 10.44 on the BLEU-1 metric. This improvement demonstrates the advancement of our model towards real-world applications and underscores its potential in advancing BCI research. Code is available at $\href{https://github.com/NeuSpeech/MAD-MEG2text}{https://github.com/NeuSpeech/MAD-MEG2text}$.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# 量子計測に基づくエンジンのエンタングリングによる効率向上

Enhancing the efficiency of quantum measurement-based engines with entangling measurements ( http://arxiv.org/abs/2406.01513v1 )

ライセンス: Link先を確認
Franco Mayo, Augusto J. Roncaglia, (参考訳) 量子計測に基づくエンジンの効率に及ぼすエンタングル計測の影響について検討する。 まず,多くのサブシステムからなるエンジンにおいて,各サブシステム上の局所的な測定とは対照的に,エンタングル計測を行うことにより効率を向上させることができることを示す。 集団測定が個々の局所測定と同じ局所状態を生成する場合、効率の改善は相関の量に比例する。 最後に、2つのレベルシステムにおいて、これらのエンジンは有限の作業量しか得られず、限界が大きいサブシステムの数で、完全な効率で動作可能であることを示す。

We study the impact of entangling measurements on the efficiency of quantum measurement- based engines. We first show that for engines comprising many subsystems their efficiency can be enhanced by performing entangling measurements, as opposed to local measurements over each subsystem. When the collective measurement produces the same local state for the subsystems as individual local measurements, the improvement in the efficiency is proportional to the amount of correlations. Finally, we show that for two level systems these type of engine can operate at perfect efficiency while yielding a finite amount of work, in the limit large the number of subsystems.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# 対称性の超越:(非)有向グラフの有効隣接行列と再正規化

Beyond symmetrization: effective adjacency matrices and renormalization for (un)singed directed graphs ( http://arxiv.org/abs/2406.01517v1 )

ライセンス: Link先を確認
Bruno Messias Farias de Resende, (参考訳) 有向グラフや符号グラフの特異性に対処するために、新しいラプラシア作用素が現れた。 例えば、方向性の場合、磁気演算子、ディレーション(探索不足)、ランダムウォークに基づく演算子等に遭遇する。 これらの新しい演算子の定義は、新しい研究や概念の必要性をもたらし、その結果、新しい計算ツールの開発へと繋がる。 しかし、これは本当に必要か? 本研究では、磁気、拡張、信号などの変形ラプラシア作用素の定義から生じる効果的な隣接行列の概念を定義する。 これらの効果的な行列は、一般的なグラフを符号のない非方向グラフの族にマッピングすることができ、よく探索された測度ツールキット、機械学習方法、および非方向グラフの再正規化グループの適用を可能にする。 変形作用素と実効行列の相互作用を探索するために、ホッジ・ヘルムホルツ分解がこの複雑さをナビゲートするのにどのように役立つかを示す。

To address the peculiarities of directed and/or signed graphs, new Laplacian operators have emerged. For instance, in the case of directionality, we encounter the magnetic operator, dilation (which is underexplored), operators based on random walks, and so forth. The definition of these new operators leads to the need for new studies and concepts, and consequently, the development of new computational tools. But is this really necessary? In this work, we define the concept of effective adjacency matrices that arise from the definition of deformed Laplacian operators such as magnetic, dilation, and signal. These effective matrices allow mapping generic graphs to a family of unsigned, undirected graphs, enabling the application of the well-explored toolkit of measures, machine learning methods, and renormalization groups of undirected graphs. To explore the interplay between deformed operators and effective matrices, we show how the Hodge-Helmholtz decomposition can assist us in navigating this complexity.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# BISON:ステートレススコープ特異的誘導体によるブラインド同定

BISON: Blind Identification through Stateless scOpe-specific derivatioN ( http://arxiv.org/abs/2406.01518v1 )

ライセンス: Link先を確認
Jakob Heher, Lena Heimberger, Stefan More, (参考訳) GoogleやFacebookのような認証プロバイダに認証を委譲することは便利だが、ユーザーのプライバシーを侵害する。 グローバルな識別子はインターネット全体の追跡を可能にし、さらに、IDプロバイダはユーザの関連性を記録できる。 Oblivious Pseudorandom関数にインスパイアされたBISONの仮称派生プロトコルを提示することで、どちらも必要悪ではないことを示す。 サービスプロバイダのIDをIDプロバイダから隠しますが、信頼され、スコープ化され、不変の偽名を生成します。 コローディングサービスプロバイダは、BISONのニックネームをリンクできない。 これにより、ユーザの追跡が防止される。 BISONはユーザーデバイスに長期間の状態を必要とせず、認証プロセスにアクターを追加する必要はない。 BISONは軽量暗号を使用している。 擬似関数の導出には、楕円曲線スカラー点乗法と4つのハッシュ関数評価の合計4つが必要である。 BISONは既存の認証プロトコルに統合されるように設計されている。 我々は、OIDCのPPIDをBISONを用いて引き出すことができるOpenID Connect拡張を提供する。 このことは、BISONのプライバシー保証が実際に実現可能であることを示している。 これらの理由から、BISONは明日のプライバシーを守るインターネットを実現するための重要な一歩だ。

Delegating authentication to identity providers like Google or Facebook, while convenient, compromises user privacy. Global identifiers enable internet-wide tracking; furthermore, identity providers can also record users' associations. We show that neither is a necessary evil by presenting the BISON pseudonym derivation protocol, inspired by Oblivious Pseudorandom Functions. It hides the service provider's identity from the identity provider, yet produces a trusted, scoped, immutable pseudonym. Colluding service providers cannot link BISON pseudonyms. This prevents user tracking. BISON does not require long-lived state on the user device, and does not add additional actors to the authentication process. BISON uses lightweight cryptography. Pseudonym derivation requires a total of four elliptic curve scalar-point multiplications and four hash function evaluations, totaling to ~3 ms in our proof of concept implementation. BISON is designed to integrate into existing authentication protocols. We provide an OpenID Connect extension that allows OIDC's PPID pseudonyms to be derived using BISON. This demonstrates that BISON's privacy guarantees can be realized in practice. For these reasons, BISON is a crucial stepping stone towards realizing the privacy-preserving internet of tomorrow.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# MOSEAC: ストリーム化された可変時間ステップ強化学習

MOSEAC: Streamlined Variable Time Step Reinforcement Learning ( http://arxiv.org/abs/2406.01521v1 )

ライセンス: Link先を確認
Dong Wang, Giovanni Beltrame, (参考訳) 従来の強化学習(RL)法は、通常、各サイクルがアクションに対応する固定制御ループを用いる。 この剛性は、最適制御周波数がタスク依存であるため、実用的な応用において課題を生じさせる。 最適以下の選択は、高い計算要求と探索効率の低下につながる可能性がある。 可変時間ステップ強化学習(VTS-RL)は、制御ループに適応周波数を用いることでこれらの問題に対処し、必要な時にのみ動作を実行する。 このアプローチはリアクティブプログラミングの原則に根ざして、計算負荷を減らし、アクション時間を含めることでアクション空間を拡張する。 しかしながら、VTS-RLの実装は、多目的アクションデュレーション空間(すなわち、目標を達成するためにタスク性能と時間ステップのバランスをとる)での探索を司る複数のハイパーパラメータをチューニングする必要があるため、しばしば複雑である。 これらの課題を克服するために、我々はMOSEAC法(Multi-Objective Soft Elastic Actor-Critic)を導入する。 本手法は、トレーニング中のタスク報酬の観測傾向に基づいて、ハイパーパラメータを調整する適応型報酬方式を特徴とする。 このスキームは、ハイパーパラメータチューニングの複雑さを低減し、探索をガイドするために単一のハイパーパラメータを必要とするため、学習プロセスを簡素化し、デプロイメントコストを削減できる。 ニュートンのキネマティクス環境でのシミュレーションによりMOSEAC法の有効性を検証し,より少ない時間ステップで高いタスクと訓練性能を示し,最終的にエネルギー消費を低減した。 この検証により、MOSEACは単一のパラメータを用いてエージェント制御ループ周波数を自動的に調整することで、RLアルゴリズムの展開を効率化する。 その原理は任意のRLアルゴリズムを強化するために適用でき、様々な用途に汎用的な解である。

Traditional reinforcement learning (RL) methods typically employ a fixed control loop, where each cycle corresponds to an action. This rigidity poses challenges in practical applications, as the optimal control frequency is task-dependent. A suboptimal choice can lead to high computational demands and reduced exploration efficiency. Variable Time Step Reinforcement Learning (VTS-RL) addresses these issues by using adaptive frequencies for the control loop, executing actions only when necessary. This approach, rooted in reactive programming principles, reduces computational load and extends the action space by including action durations. However, VTS-RL's implementation is often complicated by the need to tune multiple hyperparameters that govern exploration in the multi-objective action-duration space (i.e., balancing task performance and number of time steps to achieve a goal). To overcome these challenges, we introduce the Multi-Objective Soft Elastic Actor-Critic (MOSEAC) method. This method features an adaptive reward scheme that adjusts hyperparameters based on observed trends in task rewards during training. This scheme reduces the complexity of hyperparameter tuning, requiring a single hyperparameter to guide exploration, thereby simplifying the learning process and lowering deployment costs. We validate the MOSEAC method through simulations in a Newtonian kinematics environment, demonstrating high task and training performance with fewer time steps, ultimately lowering energy consumption. This validation shows that MOSEAC streamlines RL algorithm deployment by automatically tuning the agent control loop frequency using a single parameter. Its principles can be applied to enhance any RL algorithm, making it a versatile solution for various applications.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# 物理知識とデータに制限のある動的プロセス操作のための物理インフォームニューラルネットワーク

Physics-Informed Neural Networks for Dynamic Process Operations with Limited Physical Knowledge and Data ( http://arxiv.org/abs/2406.01528v1 )

ライセンス: Link先を確認
Mehmet Velioglu, Song Zhai, Sophia Rupprecht, Alexander Mitsos, Andreas Jupke, Manuel Dahmen, (参考訳) 化学工学において、プロセスデータは取得するのに高価であり、複雑な現象は厳密にモデル化することは困難であり、完全にデータ駆動と純粋に機械的モデリングのアプローチは非現実的である。 プロセスデータが不足し,完全な機械的知識が欠如している場合に,微分代数方程式系が支配する動的プロセスをモデル化するために,物理情報ニューラルネットワーク(PINN)を用いて検討する。 特に,直接観測データも構成方程式も利用できない状態の推定に着目する。 実験目的のために, 連続加熱槽と液液分離器について検討した。 PINNは、測定されていない状態を妥当な精度で推測でき、純粋にデータ駆動モデルよりも低データシナリオでよりよく一般化できる。 したがって、PINNは、ハイブリッド力学/データ駆動モデルと同様、比較的少数の実験データと部分的に知られている機械的記述が利用可能である場合に、プロセスのモデリングが可能であることを示し、さらなる調査を保証できる有望な経路を構成すると結論付けた。

In chemical engineering, process data is often expensive to acquire, and complex phenomena are difficult to model rigorously, rendering both entirely data-driven and purely mechanistic modeling approaches impractical. We explore using physics-informed neural networks (PINNs) for modeling dynamic processes governed by differential-algebraic equation systems when process data is scarce and complete mechanistic knowledge is missing. In particular, we focus on estimating states for which neither direct observational data nor constitutive equations are available. For demonstration purposes, we study a continuously stirred tank reactor and a liquid-liquid separator. We find that PINNs can infer unmeasured states with reasonable accuracy, and they generalize better in low-data scenarios than purely data-driven models. We thus show that PINNs, similar to hybrid mechanistic/data-driven models, are capable of modeling processes when relatively few experimental data and only partially known mechanistic descriptions are available, and conclude that they constitute a promising avenue that warrants further investigation.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# Coughsの数え方: 自動カフ検出アルゴリズムの性能を評価するイベントベースフレームワーク

How to Count Coughs: An Event-Based Framework for Evaluating Automatic Cough Detection Algorithm Performance ( http://arxiv.org/abs/2406.01529v1 )

ライセンス: Link先を確認
Lara Orlandic, Jonathan Dan, Jerome Thevenot, Tomas Teijeiro, Alain Sauty, David Atienza, (参考訳) 慢性うっ血性疾患は、その頻度に関する主観的な患者アンケートに頼っているため、広く評価が困難である。 機械学習(ML)アルゴリズムを実行するウェアラブルデバイスは、毎日のうなり声の定量化、症状の追跡と治療評価のための客観的指標の提供を約束している。 しかし、コーカウンティングアルゴリズムの最先端メトリクスと、臨床医に関連する情報との間にはミスマッチがある。 ほとんどの研究は、コウイベントの数や時間的パターンなど、臨床的に関係のある結果を直接提供しない非コウサンプルとコーを区別することに焦点を当てている。 さらに、特異性や精度といった典型的な指標は、クラス不均衡によってバイアスを受けることができる。 本稿では,臨床ガイドラインと整合したイベントベース評価指標を用いて,有意なコーカウンティングエンドポイントについて検討する。 ML分類器を用いて、従来のサンプルベース精度測定の欠点を説明し、データセットクラス不均衡とサンプルウィンドウ長による差異を明らかにする。 また、コーグイベントを特定し、偽陽性を否定するアルゴリズム性能をテストするための、オープンソースのイベントベース評価フレームワークを提案する。 臨床関連性でアルゴリズムの性能を評価するための第1ステップとして,イベントベースコーカウンティングの事例とベストプラクティスガイドラインを提供する。

Chronic cough disorders are widespread and challenging to assess because they rely on subjective patient questionnaires about cough frequency. Wearable devices running Machine Learning (ML) algorithms are promising for quantifying daily coughs, providing clinicians with objective metrics to track symptoms and evaluate treatments. However, there is a mismatch between state-of-the-art metrics for cough counting algorithms and the information relevant to clinicians. Most works focus on distinguishing cough from non-cough samples, which does not directly provide clinically relevant outcomes such as the number of cough events or their temporal patterns. In addition, typical metrics such as specificity and accuracy can be biased by class imbalance. We propose using event-based evaluation metrics aligned with clinical guidelines on significant cough counting endpoints. We use an ML classifier to illustrate the shortcomings of traditional sample-based accuracy measurements, highlighting their variance due to dataset class imbalance and sample window length. We also present an open-source event-based evaluation framework to test algorithm performance in identifying cough events and rejecting false positives. We provide examples and best practice guidelines in event-based cough counting as a necessary first step to assess algorithm performance with clinical relevance.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# 大規模言語モデルと脳内マッピング : 脳スコアの過度信頼に対する一事例

What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores ( http://arxiv.org/abs/2406.01538v1 )

ライセンス: Link先を確認
Ebrahim Feghhi, Nima Hadidi, Bryan Song, Idan A. Blank, Jonathan C. Kao, (参考訳) 大きな言語モデル(LLM)の顕著な能力を考えると、人間の脳との類似性を評価することへの関心が高まっている。 この類似性を定量化するための1つのアプローチは、モデルがいかに神経信号を予測するかを測定することである。 LLMの内部表現は最先端の脳スコアを達成し、人間の言語処理と計算原理を共有するという憶測に繋がる。 この推論は、LLMによって予測される神経活動のサブセットが言語処理のコア要素を反映している場合にのみ有効である。 本稿では、LLM-to-Brainマッピングの衝撃的な研究で使用される3つのニューラルネットワークを解析することにより、この仮定を疑問視する。 最初に、これらのデータセットを用いた以前の研究で示されたように、シャッフルトレインテストのスプリットを使用すると、時間的自己相関がLLMより優れているだけでなく、LLMが説明しているほとんどの神経の分散も説明できる。 したがって、私たちは前進する連続的な分割を使用します。 第二に、トレーニングされていないLLMの驚くほど高い脳のスコアは、それらが2つの単純な特徴である文の長さと文の位置以外の追加的な神経の分散を考慮しないことを示すことによって説明される。 このことは、トランスフォーマーアーキテクチャが計算をもっと脳に似たものに偏っているという証拠を弱めている。 第3に、このデータセット上で訓練されたLLMの脳のスコアは、文の長さ、位置、代名詞の推論による静的単語の埋め込みによって説明できる。 脳のスコアの過度な信頼は、LLMと脳の類似性を過度に解釈し、LLMが神経信号にマッピングしているものをデコンストラクションすることの重要性を強調した。

Given the remarkable capabilities of large language models (LLMs), there has been a growing interest in evaluating their similarity to the human brain. One approach towards quantifying this similarity is by measuring how well a model predicts neural signals, also called "brain score". Internal representations from LLMs achieve state-of-the-art brain scores, leading to speculation that they share computational principles with human language processing. This inference is only valid if the subset of neural activity predicted by LLMs reflects core elements of language processing. Here, we question this assumption by analyzing three neural datasets used in an impactful study on LLM-to-brain mappings, with a particular focus on an fMRI dataset where participants read short passages. We first find that when using shuffled train-test splits, as done in previous studies with these datasets, a trivial feature that encodes temporal autocorrelation not only outperforms LLMs but also accounts for the majority of neural variance that LLMs explain. We therefore use contiguous splits moving forward. Second, we explain the surprisingly high brain scores of untrained LLMs by showing they do not account for additional neural variance beyond two simple features: sentence length and sentence position. This undermines evidence used to claim that the transformer architecture biases computations to be more brain-like. Third, we find that brain scores of trained LLMs on this dataset can largely be explained by sentence length, position, and pronoun-dereferenced static word embeddings; a small, additional amount is explained by sense-specific embeddings and contextual representations of sentence structure. We conclude that over-reliance on brain scores can lead to over-interpretations of similarity between LLMs and brains, and emphasize the importance of deconstructing what LLMs are mapping to in neural signals.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# 物理インフォームド深層学習と高次元拡散反応方程式の圧縮コロケーション:実用的存在論と数値

Physics-informed deep learning and compressive collocation for high-dimensional diffusion-reaction equations: practical existence theory and numerics ( http://arxiv.org/abs/2406.01539v1 )

ライセンス: Link先を確認
Simone Brugiapaglia, Nick Dexter, Samir Karam, Weiqi Wang, (参考訳) 科学計算の最前線では、Deep Learning(DL)、すなわちDeep Neural Networks(DNN)による機械学習が、部分微分方程式(PDE)を解く強力な新しいツールとして登場した。 DNNは特に、50年代後半にリチャード・ベルマン(Richard E. Bellman)が提唱した「次元の呪い」の効果を弱めるのに適している。 しかし、DNNは90年代以降、PDEの解法として使われてきたが、数値解析(安定性、精度、サンプルの複雑さなど)でそれらの数学的効率を支えている文献は、最近現れ始めたばかりである。 本稿では,分散度に基づく手法とランダムサンプリングを用いた関数近似の最近の進歩を活用し,DLに基づく効率的な高次元PDEソルバの開発と解析を行う。 理論的にも数値的にも,新しい安定かつ高精度なスペクトルコロケーション法と競合できることを示す。 特に,ネットワークアーキテクチャに適切な境界を持つ訓練可能なDNNのクラスと,サンプルの複雑性に十分な条件が存在すること,対数的あるいは最悪の場合,ネットワークが安定かつ正確に拡散反応PDEを高い確率で近似できるような次元の線形スケーリングが存在すること,という新たな実用的存在定理を実証する。

On the forefront of scientific computing, Deep Learning (DL), i.e., machine learning with Deep Neural Networks (DNNs), has emerged a powerful new tool for solving Partial Differential Equations (PDEs). It has been observed that DNNs are particularly well suited to weakening the effect of the curse of dimensionality, a term coined by Richard E. Bellman in the late `50s to describe challenges such as the exponential dependence of the sample complexity, i.e., the number of samples required to solve an approximation problem, on the dimension of the ambient space. However, although DNNs have been used to solve PDEs since the `90s, the literature underpinning their mathematical efficiency in terms of numerical analysis (i.e., stability, accuracy, and sample complexity), is only recently beginning to emerge. In this paper, we leverage recent advancements in function approximation using sparsity-based techniques and random sampling to develop and analyze an efficient high-dimensional PDE solver based on DL. We show, both theoretically and numerically, that it can compete with a novel stable and accurate compressive spectral collocation method. In particular, we demonstrate a new practical existence theorem, which establishes the existence of a class of trainable DNNs with suitable bounds on the network architecture and a sufficient condition on the sample complexity, with logarithmic or, at worst, linear scaling in dimension, such that the resulting networks stably and accurately approximate a diffusion-reaction PDE with high probability.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# 誤りから学ぶ:自動運転車計画における配電シフトの微妙な制御方法

Learning from Mistakes: a Weakly-supervised Method for Mitigating the Distribution Shift in Autonomous Vehicle Planning ( http://arxiv.org/abs/2406.01544v1 )

ライセンス: Link先を確認
Fazel Arasteh, Mohammed Elmahgiubi, Behzad Khamidehi, Hamidreza Mirkhani, Weize Zhang, Kasra Rezaee, (参考訳) 計画問題は、自律運転フレームワークの基本的な側面を構成する。 近年の表現学習の進歩により、車両は周囲の環境を理解することができ、学習に基づく計画戦略の統合が容易になった。 これらのアプローチの中で、Imitation Learningは優れたトレーニング効率のために際立っている。 しかし、従来の模倣学習手法は、共変量シフト現象に関連する課題に遭遇する。 本稿では,この問題に対する対策としてLearning from Mistakes (LfM)を提案する。 LfMの本質は、様々なシナリオで事前訓練されたプランナーをデプロイすることにある。 障害から安全な距離を維持したり、交通ルールを守ったりといった、プランナーが直接の目的から逸脱するケースは、間違いとしてフラグ付けされる。 これらのミスに対応する環境は、配布外状態に分類され、クローズドループミスデータセットと呼ばれる新しいデータセットにコンパイルされる。 特に、クローズドループデータに専門家アノテーションがないことは、標準的な模倣学習アプローチの適用性を妨げている。 閉ループ誤りからの学習を容易にするために,現状の環境条件下で有効な軌跡を識別することを目的とした,弱教師付き手法であるValidity Learningを導入する。 InDデータセットとNuplanデータセットで行った実験的評価は、プログレッシブやコリジョンレートなどのクローズドループメトリクスを大幅に向上させ、提案手法の有効性を裏付けるものである。

The planning problem constitutes a fundamental aspect of the autonomous driving framework. Recent strides in representation learning have empowered vehicles to comprehend their surrounding environments, thereby facilitating the integration of learning-based planning strategies. Among these approaches, Imitation Learning stands out due to its notable training efficiency. However, traditional Imitation Learning methodologies encounter challenges associated with the co-variate shift phenomenon. We propose Learn from Mistakes (LfM) as a remedy to address this issue. The essence of LfM lies in deploying a pre-trained planner across diverse scenarios. Instances where the planner deviates from its immediate objectives, such as maintaining a safe distance from obstacles or adhering to traffic rules, are flagged as mistakes. The environments corresponding to these mistakes are categorized as out-of-distribution states and compiled into a new dataset termed closed-loop mistakes dataset. Notably, the absence of expert annotations for the closed-loop data precludes the applicability of standard imitation learning approaches. To facilitate learning from the closed-loop mistakes, we introduce Validity Learning, a weakly supervised method, which aims to discern valid trajectories within the current environmental context. Experimental evaluations conducted on the InD and Nuplan datasets reveal substantial enhancements in closed-loop metrics such as Progress and Collision Rate, underscoring the effectiveness of the proposed methodology.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# 量子計算基底状態における格子構造の符号化

Encoding lattice structures in Quantum Computational Basis States ( http://arxiv.org/abs/2406.01547v1 )

ライセンス: Link先を確認
Kalyan Dasgupta, (参考訳) 格子モデルまたは構造は、物理系を表現するために使用される数学的形式を持つ幾何学的対象である。 様々な分野、すなわち凝縮物質物理学において、化学における分子の自由度の研究や、高分子力学やタンパク質構造の研究に広く用いられている。 本稿では、量子計算アルゴリズムで用いられる量子ビットの計算基底状態における格子構造の符号化手法について論じる。 タンパク質構造予測における格子モデルの具体的な利用例を示す。 タンパク質構造予測問題を解くための量子アルゴリズムは提案せず、格子構造の一般的な符号化手法を提案する。

Lattice models or structures are geometrical objects with mathematical forms, that are used to represent physical systems. They have been used widely in diverse fields, namely, in condensed matter physics, to study degrees of freedom of molecules in chemistry and in studying polymer dynamics and protein structures to name a few. In this article we discuss an encoding methodology of lattice structures in computational basis states of qubits (as used in quantum computing algorithms). We demonstrate a specific use case of lattice models in protein structure prediction. We do not propose any quantum algorithm to solve the protein structure prediction problem, instead, we propose a generic encoding methodology of lattice structures.
翻訳日:2024-06-05 22:00:59 公開日:2024-06-03
# 検索再生における効果的なノイズフィルタリングのための情報基盤の展望

An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.01549v1 )

ライセンス: Link先を確認
Kun Zhu, Xiaocheng Feng, Xiyuan Du, Yuxuan Gu, Weijiang Yu, Haotian Wang, Qianglong Chen, Zheng Chu, Jingchang Chen, Bing Qin, (参考訳) Retrieval-augmented Generationは、大規模コーパスから取得した関連情報と、大規模言語モデルの機能を統合しているが、現実のノイズの多いデータに直面すると、課題に遭遇する。 最近の解決策の1つは、関連するコンテンツを見つけるためにフィルタモジュールを訓練するが、最適な雑音圧縮しか達成しないことである。 本稿では,情報ボトルネック理論を検索強化世代に導入することを提案する。 提案手法では,圧縮と地盤出力の相互情報を同時に最大化するとともに,圧縮と回収された通過の相互情報を最小化することにより,雑音のフィルタリングを行う。 さらに,新たな総合評価,教師付き微調整データの選定,強化学習報酬の構築に活用するための情報ボトルネックの定式を導出する。 実験の結果,提案手法は,回答生成の正確性だけでなく,2.5 %$圧縮率の簡潔性においても,様々な質問応答データセットに対して顕著な改善が得られた。

Retrieval-augmented generation integrates the capabilities of large language models with relevant information retrieved from an extensive corpus, yet encounters challenges when confronted with real-world noisy data. One recent solution is to train a filter module to find relevant content but only achieve suboptimal noise compression. In this paper, we propose to introduce the information bottleneck theory into retrieval-augmented generation. Our approach involves the filtration of noise by simultaneously maximizing the mutual information between compression and ground output, while minimizing the mutual information between compression and retrieved passage. In addition, we derive the formula of information bottleneck to facilitate its application in novel comprehensive evaluations, the selection of supervised fine-tuning data, and the construction of reinforcement learning rewards. Experimental results demonstrate that our approach achieves significant improvements across various question answering datasets, not only in terms of the correctness of answer generation but also in the conciseness with $2.5\%$ compression rate.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# ELSA:街路における社会活動の地域化の評価

ELSA: Evaluating Localization of Social Activities in Urban Streets ( http://arxiv.org/abs/2406.01551v1 )

ライセンス: Link先を確認
Maryam Hosseini, Marco Cipriano, Sedigheh Eslami, Daniel Hodczak, Liu Liu, Andres Sevtsuk, Gerard de Melo, (参考訳) なぜ街路は、他の街路よりも多くの社会活動を惹きつけるのか? ストリートデザインのせいなのか、近所の土地利用パターンが、人々が集まるビジネスの機会を生み出しているのか? これらの質問は、都市社会学者、デザイナー、プランナーに何十年も興味を持たせてきた。 しかし、この領域のほとんどの研究は、都市環境における社会的相互作用に影響を与える様々な要因に関する包括的視点を欠いているため、規模が限られている。 これらの問題を探索するには、都市部における社会的相互作用の頻度と多様性に関する詳細なデータが必要である。 コンピュータビジョンの最近の進歩とオープン語彙検出モデルの出現は、従来の観測手法では不可能だったスケールでのこの長年の問題に対処するユニークな機会を提供する。 本稿では,都市の街路画像における社会活動の局所化を評価するためのベンチマークデータセットを提案する。 ELSAは都市社会学とデザインの理論的枠組みを踏襲している。 アクション認識データセットの大部分は制御された設定で収集されるが、私たちは、ソーシャルグループのサイズとアクティビティの種類が著しく異なる、その中間のストリートレベルの画像を使用する。 ELSAには、個人とグループの活動のための4,300以上のマルチラベル境界ボックスを備えた手動で注釈付けされた937の画像が含まれており、条件、状態、行動の3つの主要なグループに分類される。 各カテゴリーは、例えば、単独または条件下のグループ、立位または歩行の様々なサブカテゴリを含み、国家カテゴリーに該当し、アクションカテゴリーに関して話すか、食事をする。 ELSAは研究コミュニティ向けに公開されている。

Why do some streets attract more social activities than others? Is it due to street design, or do land use patterns in neighborhoods create opportunities for businesses where people gather? These questions have intrigued urban sociologists, designers, and planners for decades. Yet, most research in this area has remained limited in scale, lacking a comprehensive perspective on the various factors influencing social interactions in urban settings. Exploring these issues requires fine-level data on the frequency and variety of social interactions on urban street. Recent advances in computer vision and the emergence of the open-vocabulary detection models offer a unique opportunity to address this long-standing issue on a scale that was previously impossible using traditional observational methods. In this paper, we propose a new benchmark dataset for Evaluating Localization of Social Activities (ELSA) in urban street images. ELSA draws on theoretical frameworks in urban sociology and design. While majority of action recognition datasets are collected in controlled settings, we use in-the-wild street-level imagery, where the size of social groups and the types of activities can vary significantly. ELSA includes 937 manually annotated images with more than 4,300 multi-labeled bounding boxes for individual and group activities, categorized into three primary groups: Condition, State, and Action. Each category contains various sub-categories, e.g., alone or group under Condition category, standing or walking, which fall under the State category, and talking or dining with regards to the Action category. ELSA is publicly available for the research community.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# 等変テンソル関数の学習と疎ベクトル回復への応用

Learning equivariant tensor functions with applications to sparse vector recovery ( http://arxiv.org/abs/2406.01552v1 )

ライセンス: Link先を確認
Wilson G. Gregory, Josué Tonelli-Cueto, Nicholas F. Marshall, Andrew S. Lee, Soledad Villar, (参考訳) この仕事は、テンソル入力のタプルからテンソル出力への等変多項式関数を特徴づける。 物理学によって極端に動機づけられた我々は、テンソル上の直交群の対角運動に関して同変函数に焦点をあてる。 この特徴付けをローレンツ群やシンプレクティック群を含む他の線型代数群に拡張する方法を示す。 これらの特徴付けの背景にある私たちのゴールは、同変機械学習モデルを定義することです。 特に,スパースベクトル推定問題に着目する。 この問題は理論計算機科学の文献で広く研究されており、二乗和の技法から導かれる明示的なスペクトル法は、特定の仮定の下でスパースベクトルを復元することを示すことができる。 これらの結果から,提案した同変機械学習モデルは,理論上最もよく知られたスペクトル法よりも優れたスペクトル法を学習できることが示唆された。 実験により,まだ理論的に解析されていない環境では,学習スペクトル法がこの問題を解決できることが示唆された。 これは、理論が機械学習モデルや機械学習モデルに情報を伝えることができる有望な方向の例である。

This work characterizes equivariant polynomial functions from tuples of tensor inputs to tensor outputs. Loosely motivated by physics, we focus on equivariant functions with respect to the diagonal action of the orthogonal group on tensors. We show how to extend this characterization to other linear algebraic groups, including the Lorentz and symplectic groups. Our goal behind these characterizations is to define equivariant machine learning models. In particular, we focus on the sparse vector estimation problem. This problem has been broadly studied in the theoretical computer science literature, and explicit spectral methods, derived by techniques from sum-of-squares, can be shown to recover sparse vectors under certain assumptions. Our numerical results show that the proposed equivariant machine learning models can learn spectral methods that outperform the best theoretically known spectral methods in some regimes. The experiments also suggest that learned spectral methods can solve the problem in settings that have not yet been theoretically analyzed. This is an example of a promising direction in which theory can inform machine learning models and machine learning models could inform theory.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# 人間誘導によるフレキシブル・インタラクティブ・リフレクション除去に向けて

Towards Flexible Interactive Reflection Removal with Human Guidance ( http://arxiv.org/abs/2406.01555v1 )

ライセンス: Link先を確認
Xiao Chen, Xudong Jiang, Yunkang Tao, Zhen Lei, Qing Li, Chenyang Lei, Zhaoxiang Zhang, (参考訳) 単一の画像反射除去は本質的に不明瞭であり、分離を必要とする反射成分と透過成分の両方が自然な画像統計に従う可能性がある。 既存の手法では、様々な種類の低レベルおよび物理ベースのキューを反射信号の源として利用することでこの問題に対処しようとする。 しかし、これらのキューは特定のキャプチャーシナリオでしか観測できないため、普遍的に適用できない。 これは、テストイメージが彼らの仮定と一致しない場合、大幅なパフォーマンス低下につながる。 本稿では,頑健な反射除去を実現するために,ポイントやバウンディングボックスなどの多種多様な人間の指示を補助的な高レベルとして活用する,フレキシブルな反射除去手法を提案する。 しかし,既存のリフレクション除去ネットワークに生のユーザガイダンスを的確に組み込むことで,性能が向上することはない。 そこで我々は,インタラクティブセグメンテーション・ファンデーション・モデルを用いて,生ユーザ入力をリフレクションマスクの統一形式に革新的に変換する。 このような設計は、基本セグメンテーションモデルとフレキシブルなヒューマンガイダンスのクインテサンスを吸収し、反射分離の課題を軽減する。 さらに,ユーザガイダンスを完全に活用し,ユーザアノテーションのコストを削減するために,提案する自己適応型プロンプトブロックを含むマスク誘導反射除去ネットワークを設計する。 このブロックは、ユーザガイダンスをアンカーとして適応的に組み込んで、クロスアテンション機構を介して送信機能を洗練する。 提案手法は, フレキシブルかつスパースなユーザガイダンスの助けを借りて, 各種データセット上での最先端性能を示す。 私たちのコードとデータセットは、https://github.com/ShawnChenn/FlexibleReflectionRemoval.comで公開されます。

Single image reflection removal is inherently ambiguous, as both the reflection and transmission components requiring separation may follow natural image statistics. Existing methods attempt to address the issue by using various types of low-level and physics-based cues as sources of reflection signals. However, these cues are not universally applicable, since they are only observable in specific capture scenarios. This leads to a significant performance drop when test images do not align with their assumptions. In this paper, we aim to explore a novel flexible interactive reflection removal approach that leverages various forms of sparse human guidance, such as points and bounding boxes, as auxiliary high-level prior to achieve robust reflection removal. However, incorporating the raw user guidance naively into the existing reflection removal network does not result in performance gains. To this end, we innovatively transform raw user input into a unified form -- reflection masks using an Interactive Segmentation Foundation Model. Such a design absorbs the quintessence of the foundational segmentation model and flexible human guidance, thereby mitigating the challenges of reflection separations. Furthermore, to fully utilize user guidance and reduce user annotation costs, we design a mask-guided reflection removal network, comprising our proposed self-adaptive prompt block. This block adaptively incorporates user guidance as anchors and refines transmission features via cross-attention mechanisms. Extensive results on real-world images validate that our method demonstrates state-of-the-art performance on various datasets with the help of flexible and sparse user guidance. Our code and dataset will be publicly available here https://github.com/ShawnChenn/FlexibleReflectionRemoval.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# 量子ネットワーク上の結合量子ウォーク

Coined Quantum Walk on a Quantum Network ( http://arxiv.org/abs/2406.01558v1 )

ライセンス: Link先を確認
Jigyen Bhavsar, Shashank Shekhar, Siddhartha Santra, (参考訳) 量子ネットワークにおけるウォーカーコインとクビット自由度とのユニタリ相互作用から、ウォーカームーブメントのコヒーレントな重ね合わせが生じる量子ネットワーク上で、離散時間で造られた量子ウォークを探索する。 歩行力学は、歩行者とネットワークの間の絡み合いが増大し、他方では、ネットワーク量子ビット間の絡み合いが増大する。 ネットワーク量子ビット間の最初の絡み合いは、これらの絡み合い測度と量子ウォーク統計の漸近値を決定する上で重要な役割を果たす。 具体的には、ウォーカー・ネットワーク状態の絡み合いエントロピーと量子ネットワーク・量子状態の負性性は、初期ネットワークの絡み合いによって増加する値に飽和する。 Asymptotic time-averaged walker-position probability distribution showed increase localization around the initial walker-position with higher initial network entanglement。 量子ネットワーク特性のキャラクタリゼーションツールとしてのこれらの結果の潜在的応用が提案されている。

We explore a discrete-time, coined quantum walk on a quantum network where the coherent superposition of walker-moves originates from the unitary interaction of the walker-coin with the qubit degrees of freedom in the quantum network. The walk dynamics leads to a growth of entanglement between the walker and the network on one hand, and on the other, between the network-qubits among themselves. The initial entanglement among the network qubits plays a crucial role in determining the asymptotic values of these entanglement measures and the quantum walk statistics. Specifically, the entanglement entropy of the walker-network state and the negativity of the quantum network-qubit state saturate to values increasing with the initial network-entanglement. The asymptotic time-averaged walker-position probability distribution shows increasing localization around the initial walker-position with higher initial network entanglement. A potential application of these results as a characterisation tool for quantum network properties is suggested.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# 統一運動学習者としての原型変換器

Prototypical Transformer as Unified Motion Learners ( http://arxiv.org/abs/2406.01559v1 )

ライセンス: Link先を確認
Cheng Han, Yawen Lu, Guohao Sun, James C. Liang, Zhiwen Cao, Qifan Wang, Qiang Guan, Sohail A. Dianat, Raghuveer M. Rao, Tong Geng, Zhiqiang Tao, Dongfang Liu, (参考訳) 本稿では,プロトタイプの観点から様々な動作タスクにアプローチする汎用かつ統一的なフレームワークであるPrototypeal Transformer(ProtoFormer)を紹介する。 ProtoFormerは、モーションダイナミクスを慎重に検討し、2つの革新的なデザインを導入することで、Transformerとプロトタイプ学習をシームレスに統合する。 まず、クロスアテンションプロトタイピングは、シグネチャモーションパターンに基づくプロトタイプを発見し、モーションシーンの理解に透明性を提供する。 第二に、Latent Synchronizationはプロトタイプによる特徴表現学習をガイドし、運動の不確実性の問題を効果的に緩和する。 実験により,光学的流れやシーン深度といった一般的な動作課題に対して,本手法が競合性能を発揮することを示す。 さらに、オブジェクト追跡やビデオ安定化など、さまざまな下流タスクにまたがる汎用性を示す。

In this work, we introduce the Prototypical Transformer (ProtoFormer), a general and unified framework that approaches various motion tasks from a prototype perspective. ProtoFormer seamlessly integrates prototype learning with Transformer by thoughtfully considering motion dynamics, introducing two innovative designs. First, Cross-Attention Prototyping discovers prototypes based on signature motion patterns, providing transparency in understanding motion scenes. Second, Latent Synchronization guides feature representation learning via prototypes, effectively mitigating the problem of motion uncertainty. Empirical results demonstrate that our approach achieves competitive performance on popular motion tasks such as optical flow and scene depth. Furthermore, it exhibits generality across various downstream tasks, including object tracking and video stabilization.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# ワンステップテキスト・ツー・イメージ生成のためのスコアアイデンティティ蒸留における長短誘導

Long and Short Guidance in Score identity Distillation for One-Step Text-to-Image Generation ( http://arxiv.org/abs/2406.01561v1 )

ライセンス: Link先を確認
Mingyuan Zhou, Zhendong Wang, Huangjie Zheng, Hai Huang, (参考訳) 広範テキストイメージペアで訓練された拡散ベースのテキスト画像生成モデルは、テキスト記述と整合したフォトリアリスティック画像を生成する能力を示している。 しかし、これらのモデルの顕著な制限は、その遅いサンプル生成であり、同じネットワークを通して反復的な改善を必要とする。 本稿では,Score ID Distillation (SiD) を強化し,Long and Short Classifier-free Guide (LSG) を開発した。 SiD はモデルに基づく明示的なスコアマッチング損失を最適化することを目的としており、実際の計算のために提案したLSG と並行してスコア同一性に基づく近似を用いている。 一段生成器で合成された偽画像のみをトレーニングすることにより、LSGを備えたSiDは、FIDとCLIPのスコアを急速に改善し、競争力のあるCLIPスコアを維持しながら最先端のFIDのパフォーマンスを達成する。 具体的には、そのデータフリー蒸留である安定拡散1.5は、COCO-2014検証セットで8.15の低いFID、LSGスケールで0.304のCLIPスコア、LSGスケールで0.313のCLIPスコアで9.56のFIDを達成している。 我々はPyTorchの実装と蒸留したStable Diffusionワンステップジェネレータをhttps://github.com/mingyuanzhou/SiD-LSGで公開します。

Diffusion-based text-to-image generation models trained on extensive text-image pairs have shown the capacity to generate photorealistic images consistent with textual descriptions. However, a significant limitation of these models is their slow sample generation, which requires iterative refinement through the same network. In this paper, we enhance Score identity Distillation (SiD) by developing long and short classifier-free guidance (LSG) to efficiently distill pretrained Stable Diffusion models without using real training data. SiD aims to optimize a model-based explicit score matching loss, utilizing a score-identity-based approximation alongside the proposed LSG for practical computation. By training exclusively with fake images synthesized with its one-step generator, SiD equipped with LSG rapidly improves FID and CLIP scores, achieving state-of-the-art FID performance while maintaining a competitive CLIP score. Specifically, its data-free distillation of Stable Diffusion 1.5 achieves a record low FID of 8.15 on the COCO-2014 validation set, with a CLIP score of 0.304 at an LSG scale of 1.5, and a FID of 9.56 with a CLIP score of 0.313 at an LSG scale of 2. We will make our PyTorch implementation and distilled Stable Diffusion one-step generators available at https://github.com/mingyuanzhou/SiD-LSG
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# オンライン強化学習における計画の新たな視点

A New View on Planning in Online Reinforcement Learning ( http://arxiv.org/abs/2406.01562v1 )

ライセンス: Link先を確認
Kevin Roice, Parham Mohammad Panahi, Scott M. Jordan, Adam White, Martha White, (参考訳) 本稿では,動的プログラミング更新とDynaアーキテクチャに似たモデルフリー更新を混合(近似)する,背景計画を用いたモデルベース強化学習の新しいアプローチについて検討する。 学習したモデルによるバックグラウンドプランニングは、Double DQNのようなモデルフリーの代替よりも悪い場合が多い。 根本的な問題は、学習したモデルが不正確であり、特に多くのステップを繰り返すと、しばしば無効な状態を生成することである。 本稿では,背景プランニングを一連のサブゴールに制約し,ローカルなサブゴール条件付きモデルのみを学習することで,この制限を回避する。 このゴール・スペース・プランニング(GSP)アプローチは計算効率が良く、時間的抽象化を組み込んで長期計画の高速化を実現し、トランジッション・ダイナミクスを完全に学習するのを避ける。 GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。

This paper investigates a new approach to model-based reinforcement learning using background planning: mixing (approximate) dynamic programming updates and model-free updates, similar to the Dyna architecture. Background planning with learned models is often worse than model-free alternatives, such as Double DQN, even though the former uses significantly more memory and computation. The fundamental problem is that learned models can be inaccurate and often generate invalid states, especially when iterated many steps. In this paper, we avoid this limitation by constraining background planning to a set of (abstract) subgoals and learning only local, subgoal-conditioned models. This goal-space planning (GSP) approach is more computationally efficient, naturally incorporates temporal abstraction for faster long-horizon planning and avoids learning the transition dynamics entirely. We show that our GSP algorithm can propagate value from an abstract space in a manner that helps a variety of base learners learn significantly faster in different domains.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# LoFiT: LLM表現の局所的な微調整

LoFiT: Localized Fine-tuning on LLM Representations ( http://arxiv.org/abs/2406.01563v1 )

ライセンス: Link先を確認
Fangcong Yin, Xi Ye, Greg Durrett, (参考訳) 解釈可能性に関する最近の研究は、大規模言語モデル(LLM)が学習自由な方法で新しいタスクに適応可能であることを示している。 例えば、ある注意ヘッドの出力に特定のバイアスベクトルを加えると、モデルの真性を高めることが報告される。 本研究では,このような表現介入手法の効果的な代替手段として,局所的な微調整が有効であることを示す。 そこで我々はLoFiT(Localized Fine-Tuning on LLM Representations)というフレームワークを導入し,特定のタスクを学習する上で最も重要なアテンションヘッドのサブセットを特定する。 LoFiTはスパースなヘッドセット(3%)にローカライズし、限られたトレーニングデータからオフセットベクトルを学習する。 真理性や推論タスクにおいて,LoFiTの介入ベクトルは推論時間干渉などの表現介入手法のベクトルよりもLLM適応に有効であることがわかった。 タスク固有のアテンションヘッドを選択することは、異なるタスクに選択されたヘッドに介入するよりも高いパフォーマンスをもたらす可能性がある。 最後に、LoFiTは、パラメータを20倍から200倍に減らしたにもかかわらず、LoRAのような他のパラメータ効率のよい微調整手法と同等の性能を達成している。

Recent work in interpretability shows that large language models (LLMs) can be adapted for new tasks in a learning-free way: it is possible to intervene on LLM representations to elicit desired behaviors for alignment. For instance, adding certain bias vectors to the outputs of certain attention heads is reported to boost the truthfulness of models. In this work, we show that localized fine-tuning serves as an effective alternative to such representation intervention methods. We introduce a framework called Localized Fine-Tuning on LLM Representations (LoFiT), which identifies a subset of attention heads that are most important for learning a specific task, then trains offset vectors to add to the model's hidden representations at those selected heads. LoFiT localizes to a sparse set of heads (3%) and learns the offset vectors from limited training data, comparable to the settings used for representation intervention. For truthfulness and reasoning tasks, we find that LoFiT's intervention vectors are more effective for LLM adaptation than vectors from representation intervention methods such as Inference-time Intervention. We also find that the localization step is important: selecting a task-specific set of attention heads can lead to higher performance than intervening on heads selected for a different task. Finally, for the tasks we study, LoFiT achieves comparable performance to other parameter-efficient fine-tuning methods such as LoRA, despite modifying 20x-200x fewer parameters than these methods.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# Helix: 異種GPU上のMax-Flowによる大規模言語モデルの分散サービング

Helix: Distributed Serving of Large Language Models via Max-Flow on Heterogeneous GPUs ( http://arxiv.org/abs/2406.01566v1 )

ライセンス: Link先を確認
Yixuan Mei, Yonghao Zhuang, Xupeng Miao, Juncheng Yang, Zhihao Jia, Rashmi Vinayak, (参考訳) 本稿では、異種GPUクラスタ上で動作する高スループット低レイテンシ大言語モデル(LLM)のための分散システムHelixを紹介する。 Helixの背景にある重要な考え方は、ノードがGPUインスタンスとエッジを表現している有向重み付きグラフの最大フロー問題として、ヘテロジニアスGPUとネットワーク接続上のLLMの推論計算を定式化することである。 その後、Helixは混合整数線形プログラミング(MILP)アルゴリズムを使用して、高度に最適化された戦略を発見し、LLMを提供する。 このアプローチにより、Helixはモデル配置と要求スケジューリングを共同で最適化できる。 24から42のGPUノードにわたる異種クラスタ設定の評価では、Helixはスループットを最大2.7$\times$に改善し、レイテンシを最大2.8$\times$と1.3$\times$に短縮した。

This paper introduces Helix, a distributed system for high-throughput, low-latency large language model (LLM) serving on heterogeneous GPU clusters. A key idea behind Helix is to formulate inference computation of LLMs over heterogeneous GPUs and network connections as a max-flow problem for a directed, weighted graph, whose nodes represent GPU instances and edges capture both GPU and network heterogeneity through their capacities. Helix then uses a mixed integer linear programming (MILP) algorithm to discover highly optimized strategies to serve LLMs. This approach allows Helix to jointly optimize model placement and request scheduling, two highly entangled tasks in heterogeneous LLM serving. Our evaluation on several heterogeneous cluster settings ranging from 24 to 42 GPU nodes shows that Helix improves serving throughput by up to 2.7$\times$ and reduces prompting and decoding latency by up to 2.8$\times$ and 1.3$\times$, respectively, compared to best existing approaches.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# 単軌道コンフォーマル予測

Single Trajectory Conformal Prediction ( http://arxiv.org/abs/2406.01570v1 )

ライセンス: Link先を確認
Brian Lee, Nikolai Matni, (参考訳) 本研究では, リスク制御予測セット(RCPS)の性能について, 確率力学系からの時間的相関データの単一軌跡を用いて, 共形予測を最小化する実験的リスク最小化法について検討した。 まず, このブロッキング手法を用いて, RCPS が, 漸近的定常・収縮的ダイナミクスによってデータを生成する場合に, iid 設定で楽しむような性能保証を実現することを示す。 次に,データ生成プロセスが定常性や収縮性から逸脱した場合に,RCPSの優雅な劣化を特徴付けるためにデカップリング手法を用いる。 我々は、これらのツールがオンラインとオフラインの共形予測アルゴリズムの統一的な分析にどのように使えるのかを議論することで締めくくった。

We study the performance of risk-controlling prediction sets (RCPS), an empirical risk minimization-based formulation of conformal prediction, with a single trajectory of temporally correlated data from an unknown stochastic dynamical system. First, we use the blocking technique to show that RCPS attains performance guarantees similar to those enjoyed in the iid setting whenever data is generated by asymptotically stationary and contractive dynamics. Next, we use the decoupling technique to characterize the graceful degradation in RCPS guarantees when the data generating process deviates from stationarity and contractivity. We conclude by discussing how these tools could be used toward a unified analysis of online and offline conformal prediction algorithms, which are currently treated with very different tools.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# 量子多体スピンラチェット

Quantum many-body spin ratchets ( http://arxiv.org/abs/2406.01571v1 )

ライセンス: Link先を確認
Lenart Zadnik, Marko Ljubotina, Žiga Krajnik, Enej Ilievski, Tomaž Prosen, (参考訳) キラル輸送を発生させるSU(2)不変量子ユニタリ回路のクラスを導入し、スピン輸送特性における空間反射と時間反転対称性の役割について検討する。 局所的なユニタリゲートのパラメータを調整すると、ダイナミクスはカオスか積分可能である。 後者は時空離散化(英語版)(Trotterized)高スピン量子ハイゼンベルク連鎖の一般化に対応する。 空間反射対称性の破れは、動的スピン感受性の漂流をもたらすことを示した。 注目すべきことに、単純な公式によって与えられる普遍的なドリフト速度は、平均磁化がゼロであれば、局所スピンに付随するSU(2)カシミール不変量の値にのみ依存する。 積分可能な場合、熱力学Betheアンザッツ方程式の正確な解に基づいて、ドリフト速度公式を解析的に確認する。 最後に、定常最大エントロピー状態における系の2つのハーフ間の時間積分電流の大きなゆらぎを検査することにより、ギャラヴォッティ-コーエン対称性の破れを証明し、そのような状態が平衡状態とはみなせないことを示唆する。 時間積分電流のスケールした累積生成関数は、代わりに一般化された変動関係に従うことを示す。

Introducing a class of SU(2) invariant quantum unitary circuits generating chiral transport, we examine the role of broken space-reflection and time-reversal symmetries on spin transport properties. Upon adjusting parameters of local unitary gates, the dynamics can be either chaotic or integrable. The latter corresponds to a generalization of the space-time discretized (Trotterized) higher-spin quantum Heisenberg chain. We demonstrate that breaking of space-reflection symmetry results in a drift in the dynamical spin susceptibility. Remarkably, we find a universal drift velocity given by a simple formula which, at zero average magnetization, depends only on the values of SU(2) Casimir invariants associated with local spins. In the integrable case, the drift velocity formula is confirmed analytically based on the exact solution of thermodynamic Bethe ansatz equations. Finally, by inspecting the large fluctuations of the time-integrated current between two halves of the system in stationary maximum-entropy states, we demonstrate violation of the Gallavotti-Cohen symmetry, implying that such states cannot be regarded as equilibrium ones. We show that the scaled cumulant generating function of the time-integrated current instead obeys a generalized fluctuation relation.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# 離散状態空間拡散と流れモデルのためのアンロック誘導

Unlocking Guidance for Discrete State-Space Diffusion and Flow Models ( http://arxiv.org/abs/2406.01572v1 )

ライセンス: Link先を確認
Hunter Nisonoff, Junhao Xiong, Stephan Allenspach, Jennifer Listgarten, (参考訳) 離散状態空間上の生成モデルは、特に自然科学の分野において、幅広い潜在的な応用を持つ。 連続状態空間では、拡散と流れモデルに関するガイダンスを用いて、所望の特性を持つ制御可能で柔軟なサンプルの生成を実現している。 しかし、これらのガイダンスアプローチは離散状態空間モデルに容易には適用できない。 そこで本研究では,そのようなモデルにガイダンスを適用するための汎用的,原則的手法を提案する。 提案手法は離散状態空間上での連続時間マルコフ過程の活用に依存し,所望の導出分布から抽出する際の計算的トラクタビリティを解放する。 我々は,画像のガイド生成,小分子,DNA配列,タンパク質配列など,様々な応用のアプローチであるディスクリートガイダンスの有用性を実証する。

Generative models on discrete state-spaces have a wide range of potential applications, particularly in the domain of natural sciences. In continuous state-spaces, controllable and flexible generation of samples with desired properties has been realized using guidance on diffusion and flow models. However, these guidance approaches are not readily amenable to discrete state-space models. Consequently, we introduce a general and principled method for applying guidance on such models. Our method depends on leveraging continuous-time Markov processes on discrete state-spaces, which unlocks computational tractability for sampling from a desired guided distribution. We demonstrate the utility of our approach, Discrete Guidance, on a range of applications including guided generation of images, small-molecules, DNA sequences and protein sequences.
翻訳日:2024-06-05 21:51:15 公開日:2024-06-03
# 低レベルマルコフ決定過程を用いた確率的二値最適化

Stochastic Bilevel Optimization with Lower-Level Contextual Markov Decision Processes ( http://arxiv.org/abs/2406.01575v1 )

ライセンス: Link先を確認
Vinzenz Thoma, Barna Pasztor, Andreas Krause, Giorgia Ramponi, Yifan Hu, (参考訳) 様々な応用において、戦略的意思決定問題における最適政策は、環境構成と外因性事象の両方に依存する。 これらの設定に対して、文脈マルコフ決定プロセス(BO-CMDP)を用いた二段階最適化(BO-CMDP)を導入する。 BO-CMDPは、リーダーとリーダーのコントロールを超えたランダムなコンテキストが、(潜在的に複数の)フォロワーが最も反応する(多くの)MDPのセットアップを決定する、スタックルバーグゲームと見なすことができる。 このフレームワークは、従来の二段階最適化を超えて、MDPのモデル設計、税制設計、報酬形成、動的メカニズム設計など、さまざまな分野に関連性を見出す。 本稿では,BO-CMDPを解くための確率的ハイパーポリシーグラディエントDescent (HPGD)アルゴリズムを提案し,その収束性を実証する。 特にHPGDは、フォロワーの軌跡の観察のみを利用する。 そのため、フォロワーは任意のトレーニング手順を使用でき、リーダーはさまざまな現実世界のシナリオに合わせて使用する特定のアルゴリズムを知らない。 さらに,リーダがフォロワーのトレーニングに影響を及ぼすような設定も検討し,高速化されたアルゴリズムを提案する。 アルゴリズムの性能を実証的に示す。

In various applications, the optimal policy in a strategic decision-making problem depends both on the environmental configuration and exogenous events. For these settings, we introduce Bilevel Optimization with Contextual Markov Decision Processes (BO-CMDP), a stochastic bilevel decision-making model, where the lower level consists of solving a contextual Markov Decision Process (CMDP). BO-CMDP can be viewed as a Stackelberg Game where the leader and a random context beyond the leader's control together decide the setup of (many) MDPs that (potentially multiple) followers best respond to. This framework extends beyond traditional bilevel optimization and finds relevance in diverse fields such as model design for MDPs, tax design, reward shaping and dynamic mechanism design. We propose a stochastic Hyper Policy Gradient Descent (HPGD) algorithm to solve BO-CMDP, and demonstrate its convergence. Notably, HPGD only utilizes observations of the followers' trajectories. Therefore, it allows followers to use any training procedure and the leader to be agnostic of the specific algorithm used, which aligns with various real-world scenarios. We further consider the setting when the leader can influence the training of followers and propose an accelerated algorithm. We empirically demonstrate the performance of our algorithm.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# 静的レジスト最小化と動的レジスト最小化の等価性

An Equivalence Between Static and Dynamic Regret Minimization ( http://arxiv.org/abs/2406.01577v1 )

ライセンス: Link先を確認
Andrew Jacobsen, Francesco Orabona, (参考訳) オンライン凸最適化における動的後悔の最小化の問題は,アルゴリズムの累積損失と任意のコンパレータ列との差を最小化することを目的としている。 このトピックに関する文献は非常に豊富だが、これらのアルゴリズムの分析と設計のための統一されたフレームワークはいまだに欠落している。 本稿では, 動的後悔最小化は拡張決定空間における静的後悔最小化と同値であることを示す。 この簡単な観察から、コンパレータシーケンスのばらつきによる損失と罰則のばらつきにより、罰則を取引する下位境界のフロンティアが存在することを示し、このフロンティアに沿った保証を達成するための枠組みを提供する。 その結果、任意のコンパレータ列の正方形パス長に適応して、後悔する$R_{T}(u_{1},\dots,u_{T})\le O(\sqrt{T\sum_{t} \|u_{t}-u_{t+1}\|^{2}})$が成立することを初めて証明した。 しかし、コンパレータ列の局所滑らかな2乗経路長に基づく新しい変数の概念に適応できることを証明し、$R_{T}(u_{1},\dots,u_{T})\le \tilde O(\sqrt{T\sum_{i}\|\bar u_{i}-\bar u_{i+1}\|^{2}})$という形の動的後悔を保証するアルゴリズムを提供する。 多対数的な言葉では、新しい変数の概念はパス長を含む古典的な概念よりも決して悪くはない。

We study the problem of dynamic regret minimization in online convex optimization, in which the objective is to minimize the difference between the cumulative loss of an algorithm and that of an arbitrary sequence of comparators. While the literature on this topic is very rich, a unifying framework for the analysis and design of these algorithms is still missing. In this paper, \emph{we show that dynamic regret minimization is equivalent to static regret minimization in an extended decision space}. Using this simple observation, we show that there is a frontier of lower bounds trading off penalties due to the variance of the losses and penalties due to variability of the comparator sequence, and provide a framework for achieving any of the guarantees along this frontier. As a result, we prove for the first time that adapting to the squared path-length of an arbitrary sequence of comparators to achieve regret $R_{T}(u_{1},\dots,u_{T})\le O(\sqrt{T\sum_{t} \|u_{t}-u_{t+1}\|^{2}})$ is impossible. However, we prove that it is possible to adapt to a new notion of variability based on the locally-smoothed squared path-length of the comparator sequence, and provide an algorithm guaranteeing dynamic regret of the form $R_{T}(u_{1},\dots,u_{T})\le \tilde O(\sqrt{T\sum_{i}\|\bar u_{i}-\bar u_{i+1}\|^{2}})$. Up to polylogarithmic terms, the new notion of variability is never worse than the classic one involving the path-length.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# 技術的負債がリードタイムに与える影響を測る--産業ケーススタディ

Towards Measuring the Impact of Technical Debt on Lead Time: An Industrial Case Study ( http://arxiv.org/abs/2406.01578v1 )

ライセンス: Link先を確認
Bhuwan Paudel, Javier Gonzalez-Huerta, Ehsan Zabardast, Eriks Klotins, (参考訳) 背景: ソフトウェア企業は、技術的負債を導入し、潜在的に開発者の時間を浪費できるトレードオフとして、迅速な価値提供と品質のバランスをとる必要があります。 ソフトウェアシステムが進化するにつれて、技術的負債は増加する傾向にある。 しかし、リードタイムへの影響を見積もるには、より経験的かつ実験的な証拠が必要である。 目的: 技術的負債がJira問題の解決にリードタイムに影響を及ぼすかどうかを実証研究する。 さらに、技術的負債によってリードタイムの変動が説明できる範囲を測定することを目的としています。 方法: 産業ケーススタディを行い, それぞれが個別に分析した6成分の関係について検討した。 技術的負債はSonarQubeを用いて測定され、コンポーネントのサイズで正規化され、Jiraの問題を解決するリードタイムはJiraから直接収集された。 結果: さまざまな結果が得られた。 技術的負債は2つのコンポーネントのリードタイムに適度な影響を与えましたが、他の2つのコンポーネントには意味のある影響は見られませんでした。 残りの2成分に中程度の負の影響が認められた。 結論: 技術的負債だけでは、リードタイムにおけるすべてのばらつきを説明できない。 ですから,他の変数(例えば,変更のサイズ,複雑性,関与するチームの数,コンポーネントのオーナシップなど)がリードタイムに影響を与えているか,あるいは後になって現れる可能性のある残留的な影響があるかも知れません。 これらの相反する変数のさらなる研究が不可欠である。

Background: Software companies must balance fast value delivery with quality, a trade-off that can introduce technical debt and potentially waste developers' time. As software systems evolve, technical debt tends to increase. However, estimating its impact on lead time still requires more empirical and experimental evidence. Objective: We conduct an empirical study investigating whether technical debt impacts lead time in resolving Jira issues. Furthermore, our aim is to measure the extent to which variance in lead time is explainable by the technical debt. Method: We conducted an industrial case study to examine the relationship in six components, each of which was analyzed individually. Technical debt was measured using SonarQube and normalized with the component's size, while lead time to resolve Jira issues was collected directly from Jira. Results: We found a set of mixed results. Technical debt had a moderate positive impact on lead time in two components, while we did not see a meaningful impact on two others. A moderate negative impact was found in the remaining two components. Conclusion: The findings show that technical debt alone can not explain all the variance in lead time, which ranges from 5% up to 41% across components. So, there should be some other variables (e.g., size of the changes made, complexity, number of teams involved, component ownership) impacting lead time, or it might have a residual effect that might manifest later on. Further investigation into those confounding variables is essential.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# 3次元生成のためのテトラメドロンめっき

Tetrahedron Splatting for 3D Generation ( http://arxiv.org/abs/2406.01579v1 )

ライセンス: Link先を確認
Chun Gu, Zeyu Yang, Zijie Pan, Xiatian Zhu, Li Zhang, (参考訳) 3次元表現は2次元拡散前の3次元生成の顕著な進歩に不可欠である。 フレキシブルな表現として、NeRFは初めて3D表現に採用された。 しかし、密度ベースのボリュームレンダリングでは、計算オーバーヘッドと不正確なメッシュ抽出の両方に悩まされる。 署名された距離フィールドとマーチング・テトラヘドラを使用することで、DMTetは正確なメッシュ抽出とリアルタイムレンダリングが可能になるが、メッシュにおける大きなトポロジ的変化の処理には制限があり、最適化の課題に繋がる。 あるいは、3Dガウススメッティング(3DGS)は、メッシュ抽出に不足しながら、トレーニングとレンダリングの効率の両方に好適である。 本研究では,最適化時の収束,高精度メッシュ抽出,リアルタイムレンダリングを同時に実現する新しい3D表現であるTetrahedron Splatting(TeT-Splatting)を提案する。 これは、正確なメッシュ抽出の望ましい能力を保ちつつ、構造化テトラヘドラルグリッドに表面ベースの体積レンダリングを統合することで実現される。 さらに,符号付き距離場に対する固有および正規整合正則化項を組み込んで生成品質と安定性を向上する。 批判的に言えば、私たちの表現はメッシュ抽出なしで訓練できるため、最適化プロセスの収束が容易になります。 私たちのTeT-Splattingは、テクスチャ最適化のためのポリゴンメッシュとともに、既存の3D生成パイプラインに簡単に統合できます。 大規模な実験により, コンバージェンス速度, レンダリング効率, メッシュ品質のトレードオフは, 異なる3次元生成環境下での代替品に比べて優れていることがわかった。

3D representation is essential to the significant advance of 3D generation with 2D diffusion priors. As a flexible representation, NeRF has been first adopted for 3D representation. With density-based volumetric rendering, it however suffers both intensive computational overhead and inaccurate mesh extraction. Using a signed distance field and Marching Tetrahedra, DMTet allows for precise mesh extraction and real-time rendering but is limited in handling large topological changes in meshes, leading to optimization challenges. Alternatively, 3D Gaussian Splatting (3DGS) is favored in both training and rendering efficiency while falling short in mesh extraction. In this work, we introduce a novel 3D representation, Tetrahedron Splatting (TeT-Splatting), that supports easy convergence during optimization, precise mesh extraction, and real-time rendering simultaneously. This is achieved by integrating surface-based volumetric rendering within a structured tetrahedral grid while preserving the desired ability of precise mesh extraction, and a tile-based differentiable tetrahedron rasterizer. Furthermore, we incorporate eikonal and normal consistency regularization terms for the signed distance field to improve generation quality and stability. Critically, our representation can be trained without mesh extraction, making the optimization process easier to converge. Our TeT-Splatting can be readily integrated in existing 3D generation pipelines, along with polygonal mesh for texture optimization. Extensive experiments show that our TeT-Splatting strikes a superior tradeoff among convergence speed, render efficiency, and mesh quality as compared to previous alternatives under varying 3D generation settings.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# ニューラルネットワークによる情報理論限界近傍のSGDを用いた低次元多項式の学習

Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit ( http://arxiv.org/abs/2406.01581v1 )

ライセンス: Link先を確認
Jason D. Lee, Kazusato Oko, Taiji Suzuki, Denny Wu, (参考訳) 単一インデックス対象関数 $f_*(\boldsymbol{x}) = \textstyle\sigma_*\left(\langle\boldsymbol{x},\boldsymbol{\theta}\rangle\right)$ の勾配勾配勾配学習の問題を研究する。 前回の研究では、ニューラルネットワークの勾配に基づくトレーニングが、$n\gtrsim d^{\Thetaでこのターゲットを学習できることが示されている。 (p)}$サンプルとそのような統計的複雑さは相関的な統計的クエリーの下限によって予測される。 驚くべきことに、SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプルと実行時複雑性が$n \asymp T \asymp Cの任意の多項式リンク関数の$f_*$を学習する。 (q) \cdot d\mathrm{polylog} d$, where constant $C (q)$は情報指数に関係なく$\sigma_*$の次数にのみ依存する。 我々の分析の核となるのは、勾配計算におけるミニバッチの再利用であり、相関クエリ以上の高次情報をもたらす。

We study the problem of gradient descent learning of a single-index target function $f_*(\boldsymbol{x}) = \textstyle\sigma_*\left(\langle\boldsymbol{x},\boldsymbol{\theta}\rangle\right)$ under isotropic Gaussian data in $\mathbb{R}^d$, where the link function $\sigma_*:\mathbb{R}\to\mathbb{R}$ is an unknown degree $q$ polynomial with information exponent $p$ (defined as the lowest degree in the Hermite expansion). Prior works showed that gradient-based training of neural networks can learn this target with $n\gtrsim d^{\Theta(p)}$ samples, and such statistical complexity is predicted to be necessary by the correlational statistical query lower bound. Surprisingly, we prove that a two-layer neural network optimized by an SGD-based algorithm learns $f_*$ of arbitrary polynomial link function with a sample and runtime complexity of $n \asymp T \asymp C(q) \cdot d\mathrm{polylog} d$, where constant $C(q)$ only depends on the degree of $\sigma_*$, regardless of information exponent; this dimension dependence matches the information theoretic limit up to polylogarithmic factors. Core to our analysis is the reuse of minibatch in the gradient computation, which gives rise to higher-order information beyond correlational queries.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# CLIP 以外の ViT におけるテキストによる画像表現の分解と解釈

Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP ( http://arxiv.org/abs/2406.01583v1 )

ライセンス: Link先を確認
Sriram Balasubramanian, Samyadeep Basu, Soheil Feizi, (参考訳) 最近の研究は、CLIP-ViTモデルの個々のコンポーネントが、CLIPの共有画像テキスト表現空間を活用することで、最終的な表現にどのように貢献するかを探求している。 これらのコンポーネント、例えばアテンションヘッドやMLPは、形状、色、テクスチャといった異なる画像の特徴を捉えている。 しかし、任意の視覚変換器(ViT)におけるこれらのコンポーネントの役割を理解することは困難である。 この目的のために、CLIP以外のViTにおける様々なコンポーネントの役割を識別できる一般的なフレームワークを紹介します。 具体的には (a) 異なるモデルコンポーネントからのコントリビューションへの最終表現の分解を自動化し、 b) これらのコントリビューションをCLIP空間に線形にマッピングしてテキストで解釈する。 さらに,特定の特徴について重要な要素をランク付けする新しいスコアリング機能を導入する。 これらの知見は, テキスト記述や参照画像を用いた画像検索, トークンの重要度熱マップの可視化, スパイラル相関の緩和など, 様々なViT変異体(例: DeiT, DINO, DINOv2, Swin, MaxViT)にフレームワークを適用し, 特定の画像特徴に関する異なるコンポーネントの役割についての洞察を得る。

Recent works have explored how individual components of the CLIP-ViT model contribute to the final representation by leveraging the shared image-text representation space of CLIP. These components, such as attention heads and MLPs, have been shown to capture distinct image features like shape, color or texture. However, understanding the role of these components in arbitrary vision transformers (ViTs) is challenging. To this end, we introduce a general framework which can identify the roles of various components in ViTs beyond CLIP. Specifically, we (a) automate the decomposition of the final representation into contributions from different model components, and (b) linearly map these contributions to CLIP space to interpret them via text. Additionally, we introduce a novel scoring function to rank components by their importance with respect to specific features. Applying our framework to various ViT variants (e.g. DeiT, DINO, DINOv2, Swin, MaxViT), we gain insights into the roles of different components concerning particular image features.These insights facilitate applications such as image retrieval using text descriptions or reference images, visualizing token importance heatmaps, and mitigating spurious correlations.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# 空間RGPT:視覚言語モデルにおける基底空間推論

SpatialRGPT: Grounded Spatial Reasoning in Vision Language Model ( http://arxiv.org/abs/2406.01584v1 )

ライセンス: Link先を確認
An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang, Jan Kautz, Xiaolong Wang, Sifei Liu, (参考訳) 視覚言語モデル(VLM)は2次元視覚と言語タスクにおいて顕著な性能を示した。 しかし、空間配置を推論する能力は依然として限られている。 本研究では,VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。 空間RGPTは,(1)3次元シーングラフからの地域表現の効果的な学習を可能にするデータキュレーションパイプライン,(2)既存のVLMのビジュアルエンコーダに奥行き情報を統合する柔軟なプラグインモジュールである。 推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。 さらに,室内,屋外,シミュレートされた環境を含む地上3次元アノテーションを用いたベンチマークであるSpatialRGBT-Benchを提案し,VLMにおける3次元空間認識の評価を行った。 本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。 このモデルはまた強力な一般化能力を示し、複雑な空間関係を効果的に推論し、ロボットタスクのための地域対応の高密度報酬アノテータとして機能する。 コード、データセット、ベンチマークはhttps://www.anjiecheng.me/SpatialRGPTで公開される。

Vision Language Models (VLMs) have demonstrated remarkable performance in 2D vision and language tasks. However, their ability to reason about spatial arrangements remains limited. In this work, we introduce Spatial Region GPT (SpatialRGPT) to enhance VLMs' spatial perception and reasoning capabilities. SpatialRGPT advances VLMs' spatial understanding through two key innovations: (1) a data curation pipeline that enables effective learning of regional representation from 3D scene graphs, and (2) a flexible plugin module for integrating depth information into the visual encoder of existing VLMs. During inference, when provided with user-specified region proposals, SpatialRGPT can accurately perceive their relative directions and distances. Additionally, we propose SpatialRGBT-Bench, a benchmark with ground-truth 3D annotations encompassing indoor, outdoor, and simulated environments, for evaluating 3D spatial cognition in VLMs. Our results demonstrate that SpatialRGPT significantly enhances performance in spatial reasoning tasks, both with and without local region prompts. The model also exhibits strong generalization capabilities, effectively reasoning about complex spatial relations and functioning as a region-aware dense reward annotator for robotic tasks. Code, dataset, and benchmark will be released at https://www.anjiecheng.me/SpatialRGPT
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# ManiCM:ロボットマニピュレーションのための一貫性モデルによるリアルタイム3次元拡散政策

ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation ( http://arxiv.org/abs/2406.01586v1 )

ライセンス: Link先を確認
Guanxing Lu, Zifeng Gao, Tianxing Chen, Wenxun Dai, Ziwei Wang, Yansong Tang, (参考訳) 拡散モデルは自然画像から運動軌道への複雑な分布を生成するのに有効であることが確認されている。 近年の拡散法は3次元ロボット操作作業において顕著な性能を示し,特に高次元観察において,複数のデノナイジングステップによる実行時の非効率に悩まされている。 そこで本研究では,拡散過程に一貫性制約を課すリアルタイムロボット操作モデルManiCMを提案する。 具体的には、点クラウド入力に条件付されたロボットの動作空間における一貫した拡散過程を定式化し、元の動作はODE軌道上の任意の点から直接微分される必要がある。 この過程をモデル化するために、我々は、低次元の作用多様体における高速収束のために、視覚コミュニティ内のノイズを予測せずに、アクションサンプルを直接予測する一貫性蒸留法を設計する。 我々は,AdroitとMetaworldの31のロボット操作タスクに対するManiCMの評価を行い,提案手法は競争平均成功率を維持しつつ,平均推論速度を10倍向上させることを示した。

Diffusion models have been verified to be effective in generating complex distributions from natural images to motion trajectories. Recent diffusion-based methods show impressive performance in 3D robotic manipulation tasks, whereas they suffer from severe runtime inefficiency due to multiple denoising steps, especially with high-dimensional observations. To this end, we propose a real-time robotic manipulation model named ManiCM that imposes the consistency constraint to the diffusion process, so that the model can generate robot actions in only one-step inference. Specifically, we formulate a consistent diffusion process in the robot action space conditioned on the point cloud input, where the original action is required to be directly denoised from any point along the ODE trajectory. To model this process, we design a consistency distillation technique to predict the action sample directly instead of predicting the noise within the vision community for fast convergence in the low-dimensional action manifold. We evaluate ManiCM on 31 robotic manipulation tasks from Adroit and Metaworld, and the results demonstrate that our approach accelerates the state-of-the-art method by 10 times in average inference speed while maintaining competitive average success rate.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# nn2poly:ニューラルネットワークを解釈可能な多項式に変換するためのRパッケージ

nn2poly: An R Package for Converting Neural Networks into Interpretable Polynomials ( http://arxiv.org/abs/2406.01588v1 )

ライセンス: Link先を確認
Pablo Morala, Jenny Alexandra Cifuentes, Rosa E. Lillo, Iñaki Ucar, (参考訳) NN2Poly法は、元のネットワークと同じ方法で予測される多項式表現を用いて、フィードフォワードニューラルネットワークを説明・解釈するためのRの実装を提供する。 この相互作用をキャプチャする能力は、たいていの説明可能な人工知能(XAI)メソッドに欠けている重要な側面である。 このパッケージはRの主要なディープラーニングフレームワークパッケージ(テンソルフローとトーチ)との統合を提供し、NN2Polyアルゴリズムのユーザフレンドリーなアプリケーションを可能にする。 さらに、nn2polyは、同じフレームワークでネットワークトレーニングで使用されるために必要なウェイト制約の実装を提供する。 他のニューラルネットワークパッケージも、その重みをリスト形式に含めることで使用できる。 nn2polyで得られたポリノミアルは、新しいデータで予測したり、独自のプロット法で視覚化することができる。 シミュレーションは、ニューラルネットワークを解釈するためにRで利用可能な他のアプローチとの比較とともに、パッケージの使用を例示する。

The nn2poly package provides the implementation in R of the NN2Poly method to explain and interpret feed-forward neural networks by means of polynomial representations that predict in an equivalent manner as the original network.Through the obtained polynomial coefficients, the effect and importance of each variable and their interactions on the output can be represented. This capabiltiy of capturing interactions is a key aspect usually missing from most Explainable Artificial Intelligence (XAI) methods, specially if they rely on expensive computations that can be amplified when used on large neural networks. The package provides integration with the main deep learning framework packages in R (tensorflow and torch), allowing an user-friendly application of the NN2Poly algorithm. Furthermore, nn2poly provides implementation of the required weight constraints to be used during the network training in those same frameworks. Other neural networks packages can also be used by including their weights in list format. Polynomials obtained with nn2poly can also be used to predict with new data or be visualized through its own plot method. Simulations are provided exemplifying the usage of the package alongside with a comparison with other approaches available in R to interpret neural networks.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# ロッテリにおけるオッドの試行--ニューラルネットワークにおける過度パラメータ化とカリキュラムの相互作用

Tilting the Odds at the Lottery: the Interplay of Overparameterisation and Curricula in Neural Networks ( http://arxiv.org/abs/2406.01589v1 )

ライセンス: Link先を確認
Stefano Sarao Mannelli, Yaraslau Ivashinka, Andrew Saxe, Luca Saglietti, (参考訳) 幅広い経験的および理論的研究により、過パラメータ化がニューラルネットワークの性能を増幅できることが示されている。 抽選券仮説によれば、過度にパラメータ化されたネットワークは、目の前の課題を解決するために十分に初期化されているサブネットワークを含む可能性が高くなっている。 動物学習にインスパイアされたより微妙なアプローチは、例の順序、すなわちカリキュラムを提供することによって学習者をその課題に導くことである。 しかし、この学習戦略はディープラーニングアプリケーションにはほとんど役に立たないようだ。 本研究では,カリキュラム学習とオーバーパラメトリゼーションを結びつける分析的研究を行う。 特に,XOR-like Gaussian Mixture 問題における2層ネットワークのオンライン学習環境における相互作用について検討する。 以上の結果から,高次パラメータ化は,問題を単純化しつつもキュリキュラのメリットを制限し,ディープラーニングにおけるキュリキュラの非効率性を理論的に説明できることが示唆された。

A wide range of empirical and theoretical works have shown that overparameterisation can amplify the performance of neural networks. According to the lottery ticket hypothesis, overparameterised networks have an increased chance of containing a sub-network that is well-initialised to solve the task at hand. A more parsimonious approach, inspired by animal learning, consists in guiding the learner towards solving the task by curating the order of the examples, i.e. providing a curriculum. However, this learning strategy seems to be hardly beneficial in deep learning applications. In this work, we undertake an analytical study that connects curriculum learning and overparameterisation. In particular, we investigate their interplay in the online learning setting for a 2-layer network in the XOR-like Gaussian Mixture problem. Our results show that a high degree of overparameterisation -- while simplifying the problem -- can limit the benefit from curricula, providing a theoretical account of the ineffectiveness of curricula in deep learning.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# ノイズ量子ゲートにおける一般化位相推定

Generalized phase estimation in noisy quantum gates ( http://arxiv.org/abs/2406.01590v1 )

ライセンス: Link先を確認
Giovanni Ragazzi, Simone Cavazzoni, Paolo Bordone, Matteo G. A. Paris, (参考訳) 雑音のある量子ゲートの作用により、関心のパラメータが量子状態に符号化されるメロジカルシナリオについて検討し、量子フィッシャー情報(QFI)の挙動を解析して、正確性に縛られた究極の境界について検討する。 我々は、キュービットゲートに焦点をあて、ゲートの連続的な応用の可能性を検討する。 我々は、単体ゲートの自明な場合を超えて、異なるステップ(ゲート応用)におけるQFIにどのように影響するかを考察し、実行された量子演算にノイズを導入するメトロジー手順の頑健さを特徴づける。 我々は、Von Mises-Fisher分布に支配される古典的ゆらぎとして、キュービット回転に影響を与える劣化雑音と傾き雑音をモデル化する。 ノイズレスの場合と比較して、QFIはステップ数と2次的に成長し、非単調な振る舞いと、ゲートの動作を正確に特徴づけるために実行すべきステップの理想的な数を定義するQFIにおける最大値の出現を観察する。

We examine metrological scenarios where the parameter of interest is encoded onto a quantum state through the action of a noisy quantum gate and investigate the ultimate bound to precision by analyzing the behaviour of the Quantum Fisher Information (QFI). We focus on qubit gates and consider the possibility of employing successive applications of the gate. We go beyond the trivial case of unitary gates and characterize the robustness of the metrological procedure introducing noise in the performed quantum operation, looking at how this affects the QFI at different steps (gate applications). We model the dephasing and tilting noise affecting qubit rotations as classical fluctuations governed by a Von Mises-Fisher distribution. Compared to the noiseless case, in which the QFI grows quadratically with the number of steps, we observe a non monotonic behavior, and the appearance of a maximum in the QFI, which defines the ideal number of steps that should be performed in order to precisely characterize the action of the gate.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# DeNVeR:unsupervised Video Vessel Segmentationのための変形可能なニューラル容器表現

DeNVeR: Deformable Neural Vessel Representations for Unsupervised Video Vessel Segmentation ( http://arxiv.org/abs/2406.01591v1 )

ライセンス: Link先を確認
Chun-Hung Wu, Shih-Hong Chen, Chih-Yao Hu, Hsin-Yu Wu, Kai-Hsin Chen, Yu-You Chen, Chih-Hai Su, Chih-Kuo Lee, Yu-Lun Liu, (参考訳) 本稿では,X線ビデオにおける非教師なしの血管分割手法であるDeformable Neural Vessel Representation (DeNVeR)を提案する。 DeNVeRは光フローと層分離を使用し、テストタイムトレーニングを通じてセグメンテーション精度と適応性を向上する。 我々の研究の重要な要素はXACVデータセットの導入である。これは、高品質で手動でセグメンテーショングラウンド真理をラベル付けした最初のX線冠動脈造影ビデオデータセットである。 DeNVeRは血管セグメンテーションの最先端手法よりも優れていることを示す。 本稿では, 医用画像の進歩, 疾患診断・治療計画のための堅牢でデータ効率のよいツールの提供, ビデオ血管セグメンテーションにおける新たな研究基準の策定について述べる。 ビデオ結果のプロジェクトページはhttps://kirito878.github.io/DeNVeR/。

This paper presents Deformable Neural Vessel Representations (DeNVeR), an unsupervised approach for vessel segmentation in X-ray videos without annotated ground truth. DeNVeR uses optical flow and layer separation, enhancing segmentation accuracy and adaptability through test-time training. A key component of our research is the introduction of the XACV dataset, the first X-ray angiography coronary video dataset with high-quality, manually labeled segmentation ground truth. Our evaluation demonstrates that DeNVeR outperforms current state-of-the-art methods in vessel segmentation. This paper marks an advance in medical imaging, providing a robust, data-efficient tool for disease diagnosis and treatment planning and setting a new standard for future research in video vessel segmentation. See our project page for video results at https://kirito878.github.io/DeNVeR/.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# 対話型3次元モデリングのためのテキスト誘導制御可能なメッシュ微細化

Text-guided Controllable Mesh Refinement for Interactive 3D Modeling ( http://arxiv.org/abs/2406.01592v1 )

ライセンス: Link先を確認
Yun-Chun Chen, Selena Ling, Zhiqin Chen, Vladimir G. Kim, Matheus Gadelha, Alec Jacobson, (参考訳) テキストプロンプトによって案内される入力粗い3Dメッシュに幾何学的詳細を加える新しい手法を提案する。 私たちの方法は3つの段階から成り立っている。 まず、入力粗い幾何学と入力テキストプロンプトに基づいて、単一のビューRGB画像を生成する。 このシングルビュー画像生成ステップにより、ユーザは結果の事前視覚化が可能になり、その後のマルチビュー生成に対してより強い条件付けを提供する。 第2に、新しいマルチビュー正規生成アーキテクチャを用いて、正常画像の6つの異なるビューを共同で生成する。 共同ビュー生成は矛盾を低減し、よりシャープな詳細をもたらす。 第3に、すべてのビューに対してメッシュを最適化し、出力として微細で詳細な幾何学を生成する。 得られた方法は、数秒以内に出力を生成し、粗い構造、ポーズ、および結果の3Dメッシュの所望の詳細を明示的なユーザ制御を提供する。 プロジェクトページ: https://text-mesh-refinement.github.io

We propose a novel technique for adding geometric details to an input coarse 3D mesh guided by a text prompt. Our method is composed of three stages. First, we generate a single-view RGB image conditioned on the input coarse geometry and the input text prompt. This single-view image generation step allows the user to pre-visualize the result and offers stronger conditioning for subsequent multi-view generation. Second, we use our novel multi-view normal generation architecture to jointly generate six different views of the normal images. The joint view generation reduces inconsistencies and leads to sharper details. Third, we optimize our mesh with respect to all views and generate a fine, detailed geometry as output. The resulting method produces an output within seconds and offers explicit user control over the coarse structure, pose, and desired details of the resulting 3D mesh. Project page: https://text-mesh-refinement.github.io.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# メッシュ吸着ガウス平滑化による動的3次元物体の再構成とシミュレーション

Reconstructing and Simulating Dynamic 3D Objects with Mesh-adsorbed Gaussian Splatting ( http://arxiv.org/abs/2406.01593v1 )

ライセンス: Link先を確認
Shaojie Ma, Yawei Luo, Yi Yang, (参考訳) 再現は多様なシーンに適応可能な柔軟な3D表現を要求するのに対し、シミュレーションは動きの原理を効果的にモデル化するために構造化された表現を必要とする。 本稿では,このようなジレンマを解決するために,メッシュ吸着型ガウス平滑化法(MaGS)を提案する。 MaGSは3Dガウスのメッシュ表面へのホバリングを制約し、3Dガウスのレンダリング柔軟性とメッシュの空間コヒーレンスを組み合わせた相互吸着メッシュ-ガウスの3D表現を生成する。 この表現を活用することで、メッシュと3Dガウス間の相対変位をモデル化する学習可能な相対変形場(RDF)を導入し、ARAPのみに依存する従来のメッシュ駆動変形パラダイムを拡張して、各3Dガウスの運動をより正確に捉える。 メッシュ、3Dガウス、RDFを共同最適化することで、MaGSは高いレンダリング精度とリアルな変形を実現する。 D-NeRFデータセットとNeRF-DSデータセットの大規模な実験は、MaGSが再構成とシミュレーションの両方で競合する結果を生成できることを実証している。

3D reconstruction and simulation, while interrelated, have distinct objectives: reconstruction demands a flexible 3D representation adaptable to diverse scenes, whereas simulation requires a structured representation to model motion principles effectively. This paper introduces the Mesh-adsorbed Gaussian Splatting (MaGS) method to resolve such a dilemma. MaGS constrains 3D Gaussians to hover on the mesh surface, creating a mutual-adsorbed mesh-Gaussian 3D representation that combines the rendering flexibility of 3D Gaussians with the spatial coherence of meshes. Leveraging this representation, we introduce a learnable Relative Deformation Field (RDF) to model the relative displacement between the mesh and 3D Gaussians, extending traditional mesh-driven deformation paradigms that only rely on ARAP prior, thus capturing the motion of each 3D Gaussian more precisely. By joint optimizing meshes, 3D Gaussians, and RDF, MaGS achieves both high rendering accuracy and realistic deformation. Extensive experiments on the D-NeRF and NeRF-DS datasets demonstrate that MaGS can generate competitive results in both reconstruction and simulation.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# DiffUHaul: 画像にオブジェクトをドラッグする訓練不要の方法

DiffUHaul: A Training-Free Method for Object Dragging in Images ( http://arxiv.org/abs/2406.01594v1 )

ライセンス: Link先を確認
Omri Avrahami, Rinon Gal, Gal Chechik, Ohad Fried, Dani Lischinski, Arash Vahdat, Weili Nie, (参考訳) テキストから画像への拡散モデルは多くの画像編集タスクを解くのに有効であることが証明されている。 しかし、シーン内のオブジェクトをシームレスに移動させるという一見単純な作業は、驚くほど難しいままだ。 この問題に対処する既存の手法は、空間的推論が欠如しているために、現実のシナリオで確実に機能するのに苦労することが多い。 本研究では,DiffUHaulと呼ばれるオブジェクトドラッグングタスクに対して,局所的なテキスト・画像モデルの空間的理解を活用する学習自由度手法を提案する。 局所モデルのレイアウト入力を盲目的に操作すると、モデル内のオブジェクト表現の内在的絡み合いにより、編集性能が低下する傾向にある。 この目的のために,まず注目マスキングを各デノナイズステップに適用し,各生成物を異なるオブジェクトに分散させ,高レベルのオブジェクトの外観を維持するために自己認識共有機構を採用する。 さらに,新しい拡散アンカリング手法を提案する。初期の段階では,ソース画像とターゲット画像の注意特徴を補間して,元の外観とスムーズに新しいレイアウトを融合させ,後段では,ソース画像から補間された画像に局所的特徴を渡すことで,細かなオブジェクトの詳細を保持する。 DiffUHaul を実画像編集に適用するために,DiffUHaul に DDPM 自己注意バケットを適用する。 最後に,本課題に対する自動評価パイプラインを導入し,本手法の有効性を示す。 私たちの結果は、ユーザの好み調査によって強化されています。

Text-to-image diffusion models have proven effective for solving many image editing tasks. However, the seemingly straightforward task of seamlessly relocating objects within a scene remains surprisingly challenging. Existing methods addressing this problem often struggle to function reliably in real-world scenarios due to lacking spatial reasoning. In this work, we propose a training-free method, dubbed DiffUHaul, that harnesses the spatial understanding of a localized text-to-image model, for the object dragging task. Blindly manipulating layout inputs of the localized model tends to cause low editing performance due to the intrinsic entanglement of object representation in the model. To this end, we first apply attention masking in each denoising step to make the generation more disentangled across different objects and adopt the self-attention sharing mechanism to preserve the high-level object appearance. Furthermore, we propose a new diffusion anchoring technique: in the early denoising steps, we interpolate the attention features between source and target images to smoothly fuse new layouts with the original appearance; in the later denoising steps, we pass the localized features from the source images to the interpolated images to retain fine-grained object details. To adapt DiffUHaul to real-image editing, we apply a DDPM self-attention bucketing that can better reconstruct real images with the localized model. Finally, we introduce an automated evaluation pipeline for this task and showcase the efficacy of our method. Our results are reinforced through a user preference study.
翻訳日:2024-06-05 21:41:25 公開日:2024-06-03
# MultiPly:野生のモノクラービデオから複数人の再構築

MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild ( http://arxiv.org/abs/2406.01595v1 )

ライセンス: Link先を確認
Zeren Jiang, Chen Guo, Manuel Kaufmann, Tianjian Jiang, Julien Valentin, Otmar Hilliges, Jie Song, (参考訳) モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。 モノラルなインザワイルドビデオから自然に動き、相互作用する複数の個人を再構築することは、難しい課題だ。 これに対処するには、被写体に関する事前の知識がなくても、個人が正確にピクセルレベルの絡み合う必要がある。 さらに、短いビデオシーケンスから複雑な3次元の人間の形状を復元し、難易度を高める必要がある。 これらの課題に対処するために、まず、個々の人間と背景モデルによって合成されたシーン全体の階層化されたニューラル表現を定義します。 階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。 この学習プロセスは, 自己教師付き3次元セグメント化モジュールとプロンプト可能な2次元セグメント化モジュールを組み合わせたハイブリッドインスタンスセグメント化アプローチによってさらに強化され, 密接な相互作用の下でも信頼性の高いインスタンスセグメント化管理が実現される。 人間のポーズと形状/外観を交互に最適化するために、信頼誘導最適化の定式化を導入する。 光度情報を用いて人間のポーズを洗練させ、人間のダイナミクスに物理的に妥当な制約を課し、高忠実度で時間的に一貫した3D再構成を実現するための効果的な目的を取り入れた。 提案手法の評価は,公開データセットや動画の先行技術よりも優れていることを示す。

We present MultiPly, a novel framework to reconstruct multiple people in 3D from monocular in-the-wild videos. Reconstructing multiple individuals moving and interacting naturally from monocular in-the-wild videos poses a challenging task. Addressing it necessitates precise pixel-level disentanglement of individuals without any prior knowledge about the subjects. Moreover, it requires recovering intricate and complete 3D human shapes from short video sequences, intensifying the level of difficulty. To tackle these challenges, we first define a layered neural representation for the entire scene, composited by individual human and background models. We learn the layered neural representation from videos via our layer-wise differentiable volume rendering. This learning process is further enhanced by our hybrid instance segmentation approach which combines the self-supervised 3D segmentation and the promptable 2D segmentation module, yielding reliable instance segmentation supervision even under close human interaction. A confidence-guided optimization formulation is introduced to optimize the human poses and shape/appearance alternately. We incorporate effective objectives to refine human poses via photometric information and impose physically plausible constraints on human dynamics, leading to temporally consistent 3D reconstructions with high fidelity. The evaluation of our method shows the superiority over prior art on publicly available datasets and in-the-wild videos.
翻訳日:2024-06-05 21:31:36 公開日:2024-06-03
# TimeCMA: クロスモーダルアライメントによるLCMを利用した時系列予測を目指して

TimeCMA: Towards LLM-Empowered Time Series Forecasting via Cross-Modality Alignment ( http://arxiv.org/abs/2406.01638v1 )

ライセンス: Link先を確認
Chenxi Liu, Qianxiong Xu, Hao Miao, Sun Yang, Lingzheng Zhang, Cheng Long, Ziyue Li, Rui Zhao, (参考訳) スケーラブルなモバイルセンシングの普及は、現実世界のアプリケーションに大量の時系列データをもたらした。 多変量時系列予測 (MTSF) は, 過去の観測結果に基づいて, 将来の時系列値を予測することを目的としている。 既存のMTSF法は、パラメータ化の制限と小規模な訓練データに悩まされている。 近年,予測性能が期待できるが計算コストが重い大規模言語モデル (LLM) が時系列で導入されている。 これらの課題を解決するために,LLMを利用した時系列予測フレームワークであるTimeCMAを提案する。 2つの分岐を持つ双対モダリティ符号化モジュールを設計し、逆変換器を用いて時系列の比較的低品質で純粋な埋め込みを抽出する。 さらに、LLMを利用したエンコード分岐は、プレトレーニングLDMを介して高品質だが絡み合ったプロンプト埋め込みを得るよう促すのと同じ時系列をラップする。 そこで我々は,高速な埋め込みから高品質で純粋な時系列埋め込みを検索するためのモジュールを設計する。 さらに,複数の変数間の依存関係を抽出し,複数の変数間の関係を予測し,関係する埋め込みをデコードする時系列予測モジュールを開発した。 特に、時間情報を最後のトークンにエンコードするプロンプトを調整し、計算コストを削減するために最後のトークン埋め込みストレージを設計する。 実データに関する大規模な実験は、提案したフレームワークの精度と効率に関する洞察を提供する。

The widespread adoption of scalable mobile sensing has led to large amounts of time series data for real-world applications. A fundamental application is multivariate time series forecasting (MTSF), which aims to predict future time series values based on historical observations. Existing MTSF methods suffer from limited parameterization and small-scale training data. Recently, Large language models (LLMs) have been introduced in time series, which achieve promising forecasting performance but incur heavy computational costs. To solve these challenges, we propose TimeCMA, an LLM-empowered framework for time series forecasting with cross-modality alignment. We design a dual-modality encoding module with two branches, where the time series encoding branch extracts relatively low-quality yet pure embeddings of time series through an inverted Transformer. In addition, the LLM-empowered encoding branch wraps the same time series as prompts to obtain high-quality yet entangled prompt embeddings via a Pre-trained LLM. Then, we design a cross-modality alignment module to retrieve high-quality and pure time series embeddings from the prompt embeddings. Moreover, we develop a time series forecasting module to decode the aligned embeddings while capturing dependencies among multiple variables for forecasting. Notably, we tailor the prompt to encode sufficient temporal information into a last token and design the last token embedding storage to reduce computational costs. Extensive experiments on real data offer insight into the accuracy and efficiency of the proposed framework.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# 自己関心エージェントからの相互報酬効果の協調

Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents ( http://arxiv.org/abs/2406.01641v1 )

ライセンス: Link先を確認
John L. Zhou, Weizhe Hong, Jonathan C. Kao, (参考訳) 利己的な個人間の創発的な協力は、自然界で広く見られる現象であるが、人工的に知的なエージェント間の相互作用においては、いまだ解明されていない。 代わりに、ナシブ強化学習アルゴリズムは一般的に、最も単純な社会的ジレンマにおいてもパレートに支配された結果に収束する。 対戦者形成手法の新たなクラスは、他のエージェントの学習に影響を与えることにより、社会的な結果に到達する能力を示している。 しかし、それらは他のエージェントの予測学習ステップやメタゲームダイナミクスの学習を通じて高階微分に依存しており、それぞれ反対の学習規則や指数的なサンプル複雑性よりも厳密な仮定に依存している。 学習ルールに依存しない、サンプル効率の良い代替手段として、本研究では、相手の行動がリターンに与える影響を、本質的に動機づける強化学習エージェントであるReciprocatorを導入する。 このアプローチは、他のエージェントのQ$値の変更を、(Reciprocatorに関して)有益なアクションの後にリターンを増やし、有害なアクションの後にそれを減らし、ポリシー更新を直接形作ることなく、相互に有益なアクションへと導くことによって効果的に求めている。 共用者は同時学習中に時間的に拡張された社会ジレンマの協力を促進するために使用できることを示す。

Emergent cooperation among self-interested individuals is a widespread phenomenon in the natural world, but remains elusive in interactions between artificially intelligent agents. Instead, na\"ive reinforcement learning algorithms typically converge to Pareto-dominated outcomes in even the simplest of social dilemmas. An emerging class of opponent-shaping methods have demonstrated the ability to reach prosocial outcomes by influencing the learning of other agents. However, they rely on higher-order derivatives through the predicted learning step of other agents or learning meta-game dynamics, which in turn rely on stringent assumptions over opponent learning rules or exponential sample complexity, respectively. To provide a learning rule-agnostic and sample-efficient alternative, we introduce Reciprocators, reinforcement learning agents which are intrinsically motivated to reciprocate the influence of an opponent's actions on their returns. This approach effectively seeks to modify other agents' $Q$-values by increasing their return following beneficial actions (with respect to the Reciprocator) and decreasing it after detrimental actions, guiding them towards mutually beneficial actions without attempting to directly shape policy updates. We show that Reciprocators can be used to promote cooperation in a variety of temporally extended social dilemmas during simultaneous learning.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# FNP : 任意解法データ同化のためのフーリエニューラルプロセス

FNP: Fourier Neural Processes for Arbitrary-Resolution Data Assimilation ( http://arxiv.org/abs/2406.01645v1 )

ライセンス: Link先を確認
Kun Chen, Tao Chen, Peng Ye, Hao Chen, Kang Chen, Tao Han, Wanli Ouyang, Lei Bai, (参考訳) データ同化は、短期的な予測と観測を組み合わせることで、大気状態の最良の推定を得るために、現代の中距離気象予報システムにおいて欠かせない要素である。 近年、AIベースのデータ同化アプローチは、計算消費の点で従来の技術よりも大きな優位性があることから注目が集まっている。 しかし、既存のAIベースのデータ同化法は特定の解像度で観測のみを扱うことができ、他の解像度と観測を同化する互換性と一般化能力に欠ける。 本稿では、複雑な実世界の観測がしばしば異なる分解能を持つことを考慮し、この論文において、textit{arbitrary- resolution data assimilation} のための \textit{\textbf{Fourier Neural Processes}} (FNP) を提案する。 設計されたモジュールの効率と神経プロセスの柔軟な構造を活用し、FNPは様々な解像度で観察を同化することで最先端の結果を達成するとともに、解像度と観測量の増大に伴い、それに対する利点が増大する。 さらに, 固定解像度で訓練したFNPは, 細調整を伴わずに, 分布外解像度と観測情報再構成タスクとの同化を直接処理し, データ解像度, タスク間での優れた一般化能力を示すことができる。

Data assimilation is a vital component in modern global medium-range weather forecasting systems to obtain the best estimation of the atmospheric state by combining the short-term forecast and observations. Recently, AI-based data assimilation approaches have attracted increasing attention for their significant advantages over traditional techniques in terms of computational consumption. However, existing AI-based data assimilation methods can only handle observations with a specific resolution, lacking the compatibility and generalization ability to assimilate observations with other resolutions. Considering that complex real-world observations often have different resolutions, we propose the \textit{\textbf{Fourier Neural Processes}} (FNP) for \textit{arbitrary-resolution data assimilation} in this paper. Leveraging the efficiency of the designed modules and flexible structure of neural processes, FNP achieves state-of-the-art results in assimilating observations with varying resolutions, and also exhibits increasing advantages over the counterparts as the resolution and the amount of observations increase. Moreover, our FNP trained on a fixed resolution can directly handle the assimilation of observations with out-of-distribution resolutions and the observational information reconstruction task without additional fine-tuning, demonstrating its excellent generalization ability across data resolutions as well as across tasks.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# iKAN: Kanを用いたグローバルインクリメンタルラーニングによる異種データセット間の人間活動認識

iKAN: Global Incremental Learning with KAN for Human Activity Recognition Across Heterogeneous Datasets ( http://arxiv.org/abs/2406.01646v1 )

ライセンス: Link先を確認
Mengxi Liu, Sizhen Bian, Bo Zhou, Paul Lukowicz, (参考訳) 本研究では,ウェアラブルセンサを用いたヒューマンアクティビティ認識(HAR)のためのインクリメンタルラーニング(IL)フレームワークを提案する。 スケーラブルなフレームワークであるiKANは、局所的な可塑性とスプラインのグローバル安定性を活用する分類器として多層パーセプトロンを置き換えるために、KAN(Kolmogorov-Arnold Networks)と共にILを開拓した。 KanをHARに適応させるために、iKANはタスク固有の機能ブランチと機能再配布層を使用する。 出力次元や分類器ノードの数を調整して新しいタスクに適応させる既存のILメソッドとは異なり、iKANは特徴抽出枝を拡張して、一貫性のある次元と分類器出力の数を維持しながら、異なるセンサモードからの新しい入力に対応することに重点を置いている。 6つの公開HARデータセットにわたる継続的な学習では、iKANフレームワークのインクリメンタル学習性能が84.9\%(重み付きF1スコア)、平均インクリメンタル学習性能が81.34\%となり、EWC(51.42\%)やエクスペリエンスリプレイ(59.92\%)といった既存の2つのインクリメンタル学習方法よりも大幅に向上した。

This work proposes an incremental learning (IL) framework for wearable sensor human activity recognition (HAR) that tackles two challenges simultaneously: catastrophic forgetting and non-uniform inputs. The scalable framework, iKAN, pioneers IL with Kolmogorov-Arnold Networks (KAN) to replace multi-layer perceptrons as the classifier that leverages the local plasticity and global stability of splines. To adapt KAN for HAR, iKAN uses task-specific feature branches and a feature redistribution layer. Unlike existing IL methods that primarily adjust the output dimension or the number of classifier nodes to adapt to new tasks, iKAN focuses on expanding the feature extraction branches to accommodate new inputs from different sensor modalities while maintaining consistent dimensions and the number of classifier outputs. Continual learning across six public HAR datasets demonstrated the iKAN framework's incremental learning performance, with a last performance of 84.9\% (weighted F1 score) and an average incremental performance of 81.34\%, which significantly outperforms the two existing incremental learning methods, such as EWC (51.42\%) and experience replay (59.92\%).
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# 出力制約付き学習アルゴリズムの統一定式化による解析

An Analysis under a Unified Fomulation of Learning Algorithms with Output Constraints ( http://arxiv.org/abs/2406.01647v1 )

ライセンス: Link先を確認
Mooho Song, Jay-Yoon Lee, (参考訳) ニューラルネットワーク(NN)は様々なタスクでよく機能するが、時には人間に非意味な結果をもたらす。 ほとんどのNNモデルは(インプット、アウトプット)ペアから学び、時に人間の知識と矛盾する。 多くの研究は、トレーニング中に出力制約を減らして人間の知識を注入することは、モデル性能を改善し、制約違反を減らすことを示唆している。 同じプログラミングフレームワークの下で、異なる既存のアルゴリズムを比較する試みはいくつかあるが、しかしながら、学習アルゴリズムを統一的な方法で出力制約に分類する以前の研究は行われていない。 筆者らの貢献は,(1) 使用する制約損失の種類(確率的ソフトロジック,REINFORCE), 制約違反事例の探索戦略, および主課題と制約からの学習信号の統合メカニズムの3つの軸に基づいて, これまでの研究を分類することである。 2) 連続学習アルゴリズムにインスパイアされた主課題情報と制約注入情報を統合する新しいアルゴリズムを提案する。 さらに,本手法と制約違反を同時に考慮するための指標として,$H\beta$-scoreを提案する。 自然言語推論(NLI)、合成翻訳例(STE)、意味的役割ラベリング(SRL)という3つのNLPタスクにおける全てのアルゴリズムを網羅的に分析する。 我々は、高い$H\beta$-scoresを達成するための様々なアルゴリズムの鍵となる要素を探求し、明らかにする。

Neural networks (NN) perform well in diverse tasks, but sometimes produce nonsensical results to humans. Most NN models "solely" learn from (input, output) pairs, occasionally conflicting with human knowledge. Many studies indicate injecting human knowledge by reducing output constraints during training can improve model performance and reduce constraint violations. While there have been several attempts to compare different existing algorithms under the same programming framework, nonetheless, there has been no previous work that categorizes learning algorithms with output constraints in a unified manner. Our contributions are as follows: (1) We categorize the previous studies based on three axes: type of constraint loss used (e.g. probabilistic soft logic, REINFORCE), exploration strategy of constraint-violating examples, and integration mechanism of learning signals from main task and constraint. (2) We propose new algorithms to integrate the information of main task and constraint injection, inspired by continual-learning algorithms. (3) Furthermore, we propose the $H\beta$-score as a metric for considering the main task metric and constraint violation simultaneously. To provide a thorough analysis, we examine all the algorithms on three NLP tasks: natural language inference (NLI), synthetic transduction examples (STE), and semantic role labeling (SRL). We explore and reveal the key factors of various algorithms associated with achieving high $H\beta$-scores.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# 定義された意識:生物と人工の汎用知能の要件

Consciousness defined: requirements for biological and artificial general intelligence ( http://arxiv.org/abs/2406.01648v1 )

ライセンス: Link先を確認
Craig I. McKenzie, (参考訳) 意識は客観的な言葉で定義するのが難しいことで知られている。 意識の客観的定義は、生物学的システムや人工システムにおいて、意識と結果の選択行動がどのように発生するかを正確に理解するために、批判的に必要である。 多くの理論は、意識がどのように生じるかを説明するために神経生物学と心理学の研究を統合しているが、意識を発生させるのに何が必要かを概説する理論はほとんどない。 このような要件を特定するために、意識の現在の理論とそれに対応する科学的研究を調査し、第一原理から意識の定義を新たに生成する。 批判的に言えば、意識は決定を行う能力を提供する装置であるが、決定そのものによって定義されていない。 したがって、意識の定義には選択行動や時間的意識は必要ない。 むしろ、意識の要求には以下のものが含まれる: 少なくともある種の知覚能力、そのような知覚情報の記憶のための記憶は、結果的に、自己の感覚が可能な未来と望まれる未来に基づいて決定を下すことができる想像の枠組みを提供する。 思考実験と観察可能な神経学的現象は、これらの成分が基本的に意識に必要であることを示している。 これらの要件の特定は、人間以外の動物や人工的な知能システムのような、知覚可能なエージェントの意識を客観的に決定できる新しい意識の定義を提供する。

Consciousness is notoriously hard to define with objective terms. An objective definition of consciousness is critically needed so that we might accurately understand how consciousness and resultant choice behaviour may arise in biological or artificial systems. Many theories have integrated neurobiological and psychological research to explain how consciousness might arise, but few, if any, outline what is fundamentally required to generate consciousness. To identify such requirements, I examine current theories of consciousness and corresponding scientific research to generate a new definition of consciousness from first principles. Critically, consciousness is the apparatus that provides the ability to make decisions, but it is not defined by the decision itself. As such, a definition of consciousness does not require choice behaviour or an explicit awareness of temporality despite both being well-characterised outcomes of conscious thought. Rather, requirements for consciousness include: at least some capability for perception, a memory for the storage of such perceptual information which in turn provides a framework for an imagination with which a sense of self can be capable of making decisions based on possible and desired futures. Thought experiments and observable neurological phenomena demonstrate that these components are fundamentally required of consciousness, whereby the loss of any one component removes the capability for conscious thought. Identifying these requirements provides a new definition for consciousness by which we can objectively determine consciousness in any conceivable agent, such as non-human animals and artificially intelligent systems.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# CoLa-DCE-概念誘導型遅延拡散対実説明

CoLa-DCE -- Concept-guided Latent Diffusion Counterfactual Explanations ( http://arxiv.org/abs/2406.01649v1 )

ライセンス: Link先を確認
Franz Motzkus, Christian Hellert, Ute Schmid, (参考訳) 生成AIの最近の進歩は、新しい展望と実践的実装をもたらした。 特に拡散モデルは、多様かつ同時に現実的な特徴を生み出す上での強みを示し、コンピュータビジョンモデルに対する反実的説明を生成するのに適している。 イメージ分類器をその予測を変えるために何を変える必要があるかという「もし」質問に答えると、反現実的な説明は人間の理解とよく一致し、結果としてモデルの振る舞いをより理解しやすいものにするのに役立つ。 現在の手法は真正な偽物を生成するのに成功しているが、機能変更が直接認識できないため透明性が欠如している。 この制限に対処するため,概念誘導型遅延拡散対実法(CoLa-DCE)を提案する。 CoLa-DCEは、概念選択と空間条件に関する高度な制御を持つ任意の分類器に対して、概念誘導対物を生成する。 カウンターファクトは、最小限の特徴変化によって粒度が増大する。 参照機能の可視化によって理解性が向上し、機能ローカライゼーションによって"どこ"が"何"を変えたかの透明性が向上する。 我々は、複数の画像分類モデルとデータセットにまたがる最小化と理解性のアプローチの利点を実証し、私たちのCoLa-DCE説明が、誤分類ケースのようなモデルエラーを理解するのにどのように役立つかを洞察する。

Recent advancements in generative AI have introduced novel prospects and practical implementations. Especially diffusion models show their strength in generating diverse and, at the same time, realistic features, positioning them well for generating counterfactual explanations for computer vision models. Answering "what if" questions of what needs to change to make an image classifier change its prediction, counterfactual explanations align well with human understanding and consequently help in making model behavior more comprehensible. Current methods succeed in generating authentic counterfactuals, but lack transparency as feature changes are not directly perceivable. To address this limitation, we introduce Concept-guided Latent Diffusion Counterfactual Explanations (CoLa-DCE). CoLa-DCE generates concept-guided counterfactuals for any classifier with a high degree of control regarding concept selection and spatial conditioning. The counterfactuals comprise an increased granularity through minimal feature changes. The reference feature visualization ensures better comprehensibility, while the feature localization provides increased transparency of "where" changed "what". We demonstrate the advantages of our approach in minimality and comprehensibility across multiple image classification models and datasets and provide insights into how our CoLa-DCE explanations help comprehend model errors like misclassification cases.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# TAGMol: ターゲット対応のグラディエント誘導分子生成

TAGMol: Target-Aware Gradient-guided Molecule Generation ( http://arxiv.org/abs/2406.01650v1 )

ライセンス: Link先を確認
Vineeth Dorna, D. Subhalingam, Keshav Kolluru, Shreshth Tuli, Mrityunjay Singh, Saurabh Singal, N. M. Anoop Krishnan, Sayan Ranu, (参考訳) 3次元生成モデルは、構造に基づく薬物設計(SBDD)において、特に特定の標的結合部位に適合したリガンドの発見において大きな可能性を示している。 既存のアルゴリズムは、主にリガンド-ターゲット結合に焦点を当て、結合親和性によって特徴づけられる。 さらに、標的リガンド分布のみに訓練されたモデルは、薬物設計プロセスの多面的性質を裏付ける、薬物類似性や合成性といった望ましい性質を持つ新規リガンドの開発など、薬物発見の幅広い目的に対処する上で不足する可能性がある。 これらの課題を克服するために、我々は問題を分子生成と特性予測に分離する。 後者は相乗的に拡散サンプリング過程を導出し、誘導拡散を促進し、所望の性質を持つ有意義な分子を創出する。 この誘導分子生成過程をTAGMolと呼ぶ。 ベンチマークデータセットの実験を通じて、TAGMolは最先端のベースラインよりも優れたパフォーマンスを示し、平均的なVina Scoreの22%の改善を実現し、必須の補助特性において良好な結果をもたらす。 これにより、TAGMolは薬物生成の包括的枠組みとして確立される。

3D generative models have shown significant promise in structure-based drug design (SBDD), particularly in discovering ligands tailored to specific target binding sites. Existing algorithms often focus primarily on ligand-target binding, characterized by binding affinity. Moreover, models trained solely on target-ligand distribution may fall short in addressing the broader objectives of drug discovery, such as the development of novel ligands with desired properties like drug-likeness, and synthesizability, underscoring the multifaceted nature of the drug design process. To overcome these challenges, we decouple the problem into molecular generation and property prediction. The latter synergistically guides the diffusion sampling process, facilitating guided diffusion and resulting in the creation of meaningful molecules with the desired properties. We call this guided molecular generation process as TAGMol. Through experiments on benchmark datasets, TAGMol demonstrates superior performance compared to state-of-the-art baselines, achieving a 22% improvement in average Vina Score and yielding favorable outcomes in essential auxiliary properties. This establishes TAGMol as a comprehensive framework for drug generation.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# FusionDTI: 薬物-標的相互作用のためのトークンレベルの融合によるきめ細かい結合発見

FusionDTI: Fine-grained Binding Discovery with Token-level Fusion for Drug-Target Interaction ( http://arxiv.org/abs/2406.01651v1 )

ライセンス: Link先を確認
Zhaohan Meng, Zaiqiao Meng, Iadh Ounis, (参考訳) 薬物-標的相互作用(DTI)の予測は、薬物発見プロセスにおいて重要である。 近年のDTIモデルにおいて、様々な薬物と標的エンコーダの表現の統合による顕著な進歩にもかかわらず、そのようなモデルはしばしば、薬物とタンパク質のきめ細かい相互作用、すなわち特定の薬物原子(またはサブ構造)とタンパク質のキーアミノ酸の結合を捉えるのに苦労している。 本稿では、トークンレベルのFusionモジュールを用いて、ドラッグ・ターゲットインタラクションの詳細な情報を効果的に学習する、FusionDTIと呼ばれる新しいモデルを提案する。 特に、FusionDTIモデルは、医薬品のSELFIES表現を用いて、配列の断片化を軽減し、標的タンパク質の構造認識(SA)語彙を組み込んで、構造情報のアミノ酸配列の制限に対処し、またエンコーダとして大規模バイオメディカルデータセットで広く訓練された訓練済み言語モデルを利用して、医薬品や標的の複雑な情報をキャプチャする。 3つのよく知られたベンチマークデータセットの実験により、提案したFusionDTIモデルは、既存の7つの最先端ベースラインと比較して、DTI予測において最高のパフォーマンスを達成することが示された。 さらに本症例では,FusionDTIが潜在的な結合部位を強調し,DTI予測の説明可能性を高めることが示唆された。

Predicting drug-target interaction (DTI) is critical in the drug discovery process. Despite remarkable advances in recent DTI models through the integration of representations from diverse drug and target encoders, such models often struggle to capture the fine-grained interactions between drugs and protein, i.e. the binding of specific drug atoms (or substructures) and key amino acids of proteins, which is crucial for understanding the binding mechanisms and optimising drug design. To address this issue, this paper introduces a novel model, called FusionDTI, which uses a token-level Fusion module to effectively learn fine-grained information for Drug-Target Interaction. In particular, our FusionDTI model uses the SELFIES representation of drugs to mitigate sequence fragment invalidation and incorporates the structure-aware (SA) vocabulary of target proteins to address the limitation of amino acid sequences in structural information, additionally leveraging pre-trained language models extensively trained on large-scale biomedical datasets as encoders to capture the complex information of drugs and targets. Experiments on three well-known benchmark datasets show that our proposed FusionDTI model achieves the best performance in DTI prediction compared with seven existing state-of-the-art baselines. Furthermore, our case study indicates that FusionDTI could highlight the potential binding sites, enhancing the explainability of the DTI prediction.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# 分散バイアスが一対一のクロスバリデーションを妥協

Distributional bias compromises leave-one-out cross-validation ( http://arxiv.org/abs/2406.01652v1 )

ライセンス: Link先を確認
George I. Austin, Itsik Pe'er, Tal Korem, (参考訳) クロスバリデーションは機械学習モデルの予測性能を推定する一般的な手法である。 モデルトレーニングに使用されるインスタンス数を最大化したいというデータスカース方式では、"leave-one-out cross-validation"と呼ばれるアプローチがよく使われる。 この設計では、他のすべてのインスタンスでトレーニングした後、各データインスタンスを予測するために、別のモデルを構築します。 これにより、トレーニングされたモデル毎に単一のテストデータポイントが利用可能になるため、予測はデータセット全体にわたって集約され、レシーバの操作特性や精度のリコール曲線の下の領域のような一般的なランクベースのパフォーマンスメトリクスが計算される。 本研究では,本手法が,各トレーニングフォールドの平均ラベルと対応するテストインスタンスのラベルとの間に負の相関関係を生じさせることを示す。 機械学習モデルがトレーニングデータの平均に回帰する傾向にあるため、この分布バイアスは性能評価やハイパーパラメータ最適化に悪影響を及ぼす傾向にある。 この効果は, モデルおよび評価アプローチの幅広い範囲にわたって継続し, より強い正則化に対するバイアスをもたらす可能性があることを示す。 これを解決するために、分布バイアスを補正する一般化可能な再均衡型クロスバリデーション手法を提案する。 提案手法は, 合成シミュレーションにおけるクロスバリデーション性能の評価を改良し, 複数論文の残響解析において改善することを示した。

Cross-validation is a common method for estimating the predictive performance of machine learning models. In a data-scarce regime, where one typically wishes to maximize the number of instances used for training the model, an approach called "leave-one-out cross-validation" is often used. In this design, a separate model is built for predicting each data instance after training on all other instances. Since this results in a single test data point available per model trained, predictions are aggregated across the entire dataset to calculate common rank-based performance metrics such as the area under the receiver operating characteristic or precision-recall curves. In this work, we demonstrate that this approach creates a negative correlation between the average label of each training fold and the label of its corresponding test instance, a phenomenon that we term distributional bias. As machine learning models tend to regress to the mean of their training data, this distributional bias tends to negatively impact performance evaluation and hyperparameter optimization. We show that this effect generalizes to leave-P-out cross-validation and persists across a wide range of modeling and evaluation approaches, and that it can lead to a bias against stronger regularization. To address this, we propose a generalizable rebalanced cross-validation approach that corrects for distributional bias. We demonstrate that our approach improves cross-validation performance evaluation in synthetic simulations and in several published leave-one-out analyses.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# パラメタライズドニューラルネットワークを用いたジャンプ拡散過程の再構築のための効率的なワッサースタイン距離法

An efficient Wasserstein-distance approach for reconstructing jump-diffusion processes using parameterized neural networks ( http://arxiv.org/abs/2406.01653v1 )

ライセンス: Link先を確認
Mingtao Xia, Xiangting Li, Qijing Shen, Tom Chou, (参考訳) 2つの多次元ジャンプ拡散過程に関連する2つの確率分布間のワッサーシュタイン距離(W$-distance)を解析する。 具体的には, ドリフト, 拡散, 跳躍振幅関数に付随する上下境界を, 2つの跳躍拡散過程の間に有する時間的に分離した正方形W_2$-distanceを解析する。 次に,パラメータ化ニューラルネットワークを用いたデータから未知のジャンプ拡散過程を効率的に再構築する,時間的に分離された2乗法W_2$-distance法を提案する。 さらに,ジャンプ拡散過程のドリフト関数に関する事前情報を利用して,その性能を向上できることを示す。 提案手法の有効性をいくつかの例と応用例で示す。

We analyze the Wasserstein distance ($W$-distance) between two probability distributions associated with two multidimensional jump-diffusion processes. Specifically, we analyze a temporally decoupled squared $W_2$-distance, which provides both upper and lower bounds associated with the discrepancies in the drift, diffusion, and jump amplitude functions between the two jump-diffusion processes. Then, we propose a temporally decoupled squared $W_2$-distance method for efficiently reconstructing unknown jump-diffusion processes from data using parameterized neural networks. We further show its performance can be enhanced by utilizing prior information on the drift function of the jump-diffusion process. The effectiveness of our proposed reconstruction method is demonstrated across several examples and applications.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# TinySV: デバイス上での学習によるTinyMLの話者検証

TinySV: Speaker Verification in TinyML with On-device Learning ( http://arxiv.org/abs/2406.01655v1 )

ライセンス: Link先を確認
Massimo Pavan, Gioele Mombelli, Francesco Sinacori, Manuel Roveri, (参考訳) TinyMLは、小さなデバイス(Internet-of-Thingsや組み込みシステムなど)で機械学習アルゴリズムを実行する能力のおかげで、ここ数年で大きな勢いを増した、機械学習の新たな領域である。 興味深いことに、この分野での研究は、TinyMLモデルの推論フェーズを小さなデバイスで効率的に実行することに焦点を当てている。 本研究の目的は、デバイス上での学習アルゴリズムに対処する必要のある、提示された \textit{Tiny Speaker Verification} (TinySV) のようなタスクで使用できる新しいタイプの適応型TinyMLソリューションを導入することである。 この目標を達成するには i)TinyML学習アルゴリズムのメモリと計算要求の低減、及び (2)TinyML学習アルゴリズムの設計。 提案したTinySVソリューションは、キーワードスポッティングと適応話者検証モジュールで構成される2層階層のTinyMLソリューションに依存している。 Infineon PSoC 62S2 Wi-Fi BT Pioneer Kit(PSOC 62S2 Wi-Fi BT Pioneer Kit)を用いて,提案手法の有効性と効率を評価した。

TinyML is a novel area of machine learning that gained huge momentum in the last few years thanks to the ability to execute machine learning algorithms on tiny devices (such as Internet-of-Things or embedded systems). Interestingly, research in this area focused on the efficient execution of the inference phase of TinyML models on tiny devices, while very few solutions for on-device learning of TinyML models are available in the literature due to the relevant overhead introduced by the learning algorithms. The aim of this paper is to introduce a new type of adaptive TinyML solution that can be used in tasks, such as the presented \textit{Tiny Speaker Verification} (TinySV), that require to be tackled with an on-device learning algorithm. Achieving this goal required (i) reducing the memory and computational demand of TinyML learning algorithms, and (ii) designing a TinyML learning algorithm operating with few and possibly unlabelled training data. The proposed TinySV solution relies on a two-layer hierarchical TinyML solution comprising Keyword Spotting and Adaptive Speaker Verification module. We evaluated the effectiveness and efficiency of the proposed TinySV solution on a dataset collected expressly for the task and tested the proposed solution on a real-world IoT device (Infineon PSoC 62S2 Wi-Fi BT Pioneer Kit).
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# ソースフリードメイン適応のためのプロキシDenoising

Proxy Denoising for Source-Free Domain Adaptation ( http://arxiv.org/abs/2406.01658v1 )

ライセンス: Link先を確認
Song Tang, Wenxin Su, Mao Ye, Jianwei Zhang, Xiatian Zhu, (参考訳) Source-free Domain Adaptation (SFDA)は、トレーニング済みのソースモデルを、ソースデータにアクセスせずにラベルなしのターゲットドメインに適応することを目的としている。 他の多くの応用において、事前訓練された大型視覚言語(ViL)モデルの成功に触発されて、最新のFDA法は、それらの予測を疑似監視として活用することで、ViLモデルの利点を検証した。 しかし、ViLの予測はノイズが多く、未知の速度で不正確な場合があり、適応中に付加的な負の効果が生じる可能性がある。 このような無視された課題に対処するために,本稿ではProxy Denoising(ProDe)アプローチを紹介する。 具体的には、ViLモデルをプロキシとして利用し、潜在ドメイン不変空間への適応プロセスを容易にする。 重要な点として、ViLの予測を修正するためのプロキシ記述機構を設計する。 これは、領域不変空間に対するプロキシの発散によるドメイン適応効果をエレガントにモデル化することで、新しいプロキシ信頼理論に基づいている。 補正されたプロキシを大まかに活用するために、我々はまた、正規化を蒸留する相互知識を導出する。 我々のProDeは、従来のクローズドセット設定と、より挑戦的なオープンセット、部分セット、一般化されたSFDA設定の両方の下で、最先端の代替品よりも大幅に優れています。 コードはまもなくリリースされる。

Source-free Domain Adaptation (SFDA) aims to adapt a pre-trained source model to an unlabeled target domain with no access to the source data. Inspired by the success of pre-trained large vision-language (ViL) models in many other applications, the latest SFDA methods have also validated the benefit of ViL models by leveraging their predictions as pseudo supervision. However, we observe that ViL's predictions could be noisy and inaccurate at an unknown rate, potentially introducing additional negative effects during adaption. To address this thus-far ignored challenge, in this paper, we introduce a novel Proxy Denoising (ProDe) approach. Specifically, we leverage the ViL model as a proxy to facilitate the adaptation process towards the latent domain-invariant space. Critically, we design a proxy denoising mechanism for correcting ViL's predictions. This is grounded on a novel proxy confidence theory by modeling elegantly the domain adaption effect of the proxy's divergence against the domain-invariant space. To capitalize the corrected proxy, we further derive a mutual knowledge distilling regularization. Extensive experiments show that our ProDe significantly outperforms the current state-of-the-art alternatives under both conventional closed-set setting and the more challenging open-set, partial-set and generalized SFDA settings. The code will release soon.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# 自己改善ロバスト推論最適化

Self-Improving Robust Preference Optimization ( http://arxiv.org/abs/2406.01660v1 )

ライセンス: Link先を確認
Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar, (参考訳) PPOやDPOのようなオンラインおよびオフラインのRLHFメソッドは、AIと人間の好みを合わせることに成功している。 彼らの成功にもかかわらず、既存の手法は、その最適解がタスク依存性が高いという根本的な問題に悩まされている(すなわち、アウト・オブ・ディストリビューション(OOD)タスクに対して堅牢ではない)。 本稿では、タスクの変更に対して完全に堅牢な、実用的で数学的に原則化されたオフラインRLHFフレームワークである、自己改善ロバスト推論最適化SRPOを提案することで、この問題に対処する。 SRPOの鍵となる考え方は、人間の嗜好から学ぶことの問題を自己改善のプロセスとして提示することであり、これは、自己改善政策の協調最適化と、敵のやり方で生成政策を共同で最適化することを目的とした、min-max目的の数学的表現によって表現することができる。 この最適化問題の解決策は、トレーニングタスクとは独立しているため、その変更に対して堅牢である。 そこで我々は,この目的を,報酬モデルやオンライン推論を必要とせずに,標準化された最適化手法を用いて大規模に最適化できる非逆オフライン損失の形で再表現できることを示す。 本稿では,AI Win-Rate (WR) による人間(GOLD) の完成に対するSRPOの有効性を示す。 特に、SRPOがOOD XSUMデータセットで評価されると、5回の自己修正で15%の明確なマージンを達成し、90%のWRを達成する。

Both online and offline RLHF methods such as PPO and DPO have been extremely successful in aligning AI with human preferences. Despite their success, the existing methods suffer from a fundamental problem that their optimal solution is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks). Here we address this challenge by proposing Self-Improving Robust Preference Optimization SRPO, a practical and mathematically principled offline RLHF framework that is completely robust to the changes in the task. The key idea of SRPO is to cast the problem of learning from human preferences as a self-improvement process, which can be mathematically expressed in terms of a min-max objective that aims at joint optimization of self-improvement policy and the generative policy in an adversarial fashion. The solution for this optimization problem is independent of the training task and thus it is robust to its changes. We then show that this objective can be re-expressed in the form of a non-adversarial offline loss which can be optimized using standard supervised optimization techniques at scale without any need for reward model and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate (WR) against human (GOLD) completions. In particular, when SRPO is evaluated on the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of 15% after 5 self-revisions, achieving WR of 90%.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# 教師なしニューラルネットワーク最適化のための拡散モデルフレームワーク

A Diffusion Model Framework for Unsupervised Neural Combinatorial Optimization ( http://arxiv.org/abs/2406.01661v1 )

ライセンス: Link先を確認
Sebastian Sanokowski, Sepp Hochreiter, Sebastian Lehner, (参考訳) 個別のデータセット上の難解な分布から、対応するトレーニングデータに頼ることなくサンプルを学習することは、 Combinatorial Optimizationを含む幅広い分野において中心的な問題である。 現在、人気のあるディープラーニングベースのアプローチは、主に正確なサンプル確率を生み出す生成モデルに依存している。 この研究は、この制限を解除する手法を導入し、拡散モデルのような高度に表現力のある潜在変数モデルを採用する可能性を開く。 提案手法は, 逆カルバック・リーブラー分岐を上界とする損失に基づいて, 正確なサンプル確率の要求を回避している。 我々は,データフリーなコンビネーション最適化におけるアプローチを実験的に検証し,幅広いベンチマーク問題に対して新しい最先端の手法を実現することを実証した。

Learning to sample from intractable distributions over discrete sets without relying on corresponding training data is a central problem in a wide range of fields, including Combinatorial Optimization. Currently, popular deep learning-based approaches rely primarily on generative models that yield exact sample likelihoods. This work introduces a method that lifts this restriction and opens the possibility to employ highly expressive latent variable models like diffusion models. Our approach is conceptually based on a loss that upper bounds the reverse Kullback-Leibler divergence and evades the requirement of exact sample likelihoods. We experimentally validate our approach in data-free Combinatorial Optimization and demonstrate that our method achieves a new state-of-the-art on a wide range of benchmark problems.
翻訳日:2024-06-05 21:21:41 公開日:2024-06-03
# 日常生活の対話活動の少ない分類法(InteractADL)

Few-Shot Classification of Interactive Activities of Daily Living (InteractADL) ( http://arxiv.org/abs/2406.01662v1 )

ライセンス: Link先を確認
Zane Durante, Robathan Harries, Edward Vendrow, Zelun Luo, Yuta Kyuragi, Kazuki Kozuka, Li Fei-Fei, Ehsan Adeli, (参考訳) 日常生活のアクティビティ(ADL)を理解することは、補助ロボット、スマートホーム、ヘルスケアなど、さまざまなアプリケーションにとって重要なステップである。 しかし、これまでに複雑なADL、特に家庭環境における多人数インタラクションに焦点を絞ったベンチマークや手法はほとんどない。 本稿では,人間(と物体)間の相互作用を含む複雑なADLを理解するために,新しいデータセットとベンチマークであるInteractADLを提案する。 さらに、家庭環境において発生する複雑なADLは、多人数インタラクションの希少性により、困難で長い尾の分布を構成し、意味的および視覚的に類似したクラスが存在するため、きめ細かな視覚認識タスクを行う。 これらの問題に対処するために、最適なクラス名ベクトルを学習することで、より意味的な分離を可能にする、ネームチューニングと呼ばれる、きめ細かいビデオ分類法を提案する。 入力テキスト全体(プロンプトやクラス名のみを学習するのではなく)を学習するための既存のプロンプトチューニング戦略と組み合わせて、InteractADLおよび他の4つのきめ細かい視覚的分類ベンチマーク上でのいくつかのショット分類の性能向上を示す。 透明性と再現性のために、私たちはhttps://github.com/zanedurante/vlm_benchmark.comでコードを公開しています。

Understanding Activities of Daily Living (ADLs) is a crucial step for different applications including assistive robots, smart homes, and healthcare. However, to date, few benchmarks and methods have focused on complex ADLs, especially those involving multi-person interactions in home environments. In this paper, we propose a new dataset and benchmark, InteractADL, for understanding complex ADLs that involve interaction between humans (and objects). Furthermore, complex ADLs occurring in home environments comprise a challenging long-tailed distribution due to the rarity of multi-person interactions, and pose fine-grained visual recognition tasks due to the presence of semantically and visually similar classes. To address these issues, we propose a novel method for fine-grained few-shot video classification called Name Tuning that enables greater semantic separability by learning optimal class name vectors. We show that Name Tuning can be combined with existing prompt tuning strategies to learn the entire input text (rather than only learning the prompt or class names) and demonstrate improved performance for few-shot classification on InteractADL and 4 other fine-grained visual classification benchmarks. For transparency and reproducibility, we release our code at https://github.com/zanedurante/vlm_benchmark.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# 枝が結合した木上の隠れマルコフモデルに対する効率的な解法

An efficient solution to Hidden Markov Models on trees with coupled branches ( http://arxiv.org/abs/2406.01663v1 )

ライセンス: Link先を確認
Farzan Vafa, Sahand Hormoz, (参考訳) 隠れマルコフモデル(HMM)はシーケンシャルデータをモデリングするための強力なツールであり、基礎となる状態は確率的に進化し、間接的にしか観測できない。 従来のHMMアプローチは線形列に対して十分に確立されており、木などの他の構造にも拡張されている。 本稿では、木上のHMMの枠組みを拡張し、データのツリーのような構造が結合枝を含むシナリオに対処する。 本研究では,木系HMMと分岐した分岐木に対する確率,復号化,パラメータ学習問題を効率的に解く動的プログラミングアルゴリズムを開発した。 提案手法は状態数やノード数と多項式的にスケールし,幅広いアプリケーションで計算可能であり,下フロー問題に悩まされない。 シミュレーションデータに適用してアルゴリズムを実証し,推論に使用するモデルの仮定を検証するための自己整合性チェックを提案する。 この研究は、木上のHMMの理論的理解を前進させるだけでなく、枝間の依存関係を無視できない複雑な生物学的データを解析するための実用的なツールも提供する。

Hidden Markov Models (HMMs) are powerful tools for modeling sequential data, where the underlying states evolve in a stochastic manner and are only indirectly observable. Traditional HMM approaches are well-established for linear sequences, and have been extended to other structures such as trees. In this paper, we extend the framework of HMMs on trees to address scenarios where the tree-like structure of the data includes coupled branches -- a common feature in biological systems where entities within the same lineage exhibit dependent characteristics. We develop a dynamic programming algorithm that efficiently solves the likelihood, decoding, and parameter learning problems for tree-based HMMs with coupled branches. Our approach scales polynomially with the number of states and nodes, making it computationally feasible for a wide range of applications and does not suffer from the underflow problem. We demonstrate our algorithm by applying it to simulated data and propose self-consistency checks for validating the assumptions of the model used for inference. This work not only advances the theoretical understanding of HMMs on trees but also provides a practical tool for analyzing complex biological data where dependencies between branches cannot be ignored.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# 代数的観察宇宙論

Algebraic Observational Cosmology ( http://arxiv.org/abs/2406.01669v1 )

ライセンス: Link先を確認
Jonah Kudler-Flam, Samuel Leutheusser, Gautam Satishchandran, (参考訳) 宇宙の観測者が測定できるものは何か。 この問題に対処するために、FLRW時空において、過去に漸近的にデ・シッター(英語版)の漸近的な観測者に対して、重力的に修飾された可観測物の代数を構築し、インフレのエポックを記述した。 本質的な量子化された自由度は、インフラトンのゼロモードであり、インフレーション中に有効宇宙定数の変動を引き起こし、半古典的極限における最大エントロピー状態の存在を防ぐ。 宇宙論的な地平線を超えて測定が到達できないため、すべての状態がよく定義されたフォン・ノイマンエントロピーと混合されることが示される。 半古典状態の場合、フォン・ノイマンのエントロピーは観測者の因果ダイヤモンドの一般化エントロピー(状態に依存しない定数まで)に対応する。

What can be measured by an observer in our universe? We address this question by constructing an algebra of gravitationally-dressed observables accessible to a comoving observer in FLRW spacetimes that are asymptotically de Sitter in the past, describing an inflationary epoch. An essential quantized degree of freedom is the zero-mode of the inflaton, which leads to fluctuations in the effective cosmological constant during inflation and prevents the existence of a maximum entropy state in the semiclassical limit. Due to the inaccessibility of measurements beyond our cosmological horizon, we demonstrate that all states are mixed with well-defined von Neumann entropy. For semiclassical states, the von Neumann entropy corresponds to the generalized entropy (up to a state-independent constant) of the observer's causal diamond, a fine-grained quantity that is sensitive to the initial conditions of the universe.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# 孤立量子系における熱力学第二法則の創発

Emergence of a second law of thermodynamics in isolated quantum systems ( http://arxiv.org/abs/2406.01677v1 )

ライセンス: Link先を確認
Florian Meier, Tom Rivlin, Tiago Debarba, Jake Xuereb, Marcus Huber, Maximilian P. E. Lock, (参考訳) 熱力学の第2法則は、孤立系のエントロピーは時間とともにしか増加しないと述べている。 これは、フォン・ノイマンのエントロピーを保存するシュリンガー方程式の下で孤立量子系の可逆的進化と矛盾しているように見える。 それでも、多くの観測可能な値に対して期待値は、その平衡値である固定値に近づくことが分かる。 どのようにして、孤立量子系のエントロピーは時間とともに増加するのだろうか? 古典系では、物理系の微妙な詳細についての無知の概念とともに、低エントロピー初期状態の仮定を導入し、第二法則の統計的解釈をもたらす。 量子系を探索する観測可能量を考えると、これらの仮定はどちらも組み込まれ、観測可能量の平均の平衡に関する最近の研究に基づいている。 観測可能な期待値の統計的挙動は良好に確立されているが、エントロピーへの定量的な関係は今のところ欠落している。 可観測物の平衡に関する新しい境界を導出し、可観測物に対する系のエントロピーを考えると、与えられた可観測物に対するエントロピーは系のユニタリ進化の過程でその平衡値に傾くという第二法則の変則を回復する。 これらの結果は、量子系における平衡の非可積分性の必要性を疑問視する最近の知見を支持している。 さらに、スピンの連鎖上の量子イジングモデルのパラダイム的な例から得られる数値的な結果を用いて、我々の境界をさらに説明します。 そこでは、平衡値まで増加するエントロピーと、導出された境界に従って、基礎となる可逆的進化を明らかにする揺らぎを観察する。

The second law of thermodynamics states that the entropy of an isolated system can only increase over time. This appears to conflict with the reversible evolution of isolated quantum systems under the Schr\"odinger equation, which preserves the von Neumann entropy. Nonetheless, one finds that with respect to many observables, expectation values approach a fixed value -- their equilibrium value. This ultimately raises the question: in what sense does the entropy of an isolated quantum system increase over time? For classical systems, one introduces the assumption of a low entropy initial state along with the concept of ignorance about the microscopic details of the physical system, leading to a statistical interpretation of the second law. By considering the observables through which we examine quantum systems, both these assumptions can be incorporated, building upon recent studies of the equilibration on average of observables. While the statistical behavior of observable expectation values is well-established, a quantitative connection to entropy increase has been lacking so far. In deriving novel bounds for the equilibration of observables, and considering the entropy of the system relative to observables, we recover a variant of the second law: the entropy with respect to a given observable tends towards its equilibrium value in the course of the system's unitary evolution. These results also support recent findings which question the necessity of non-integrability for equilibration in quantum systems. We further illustrate our bounds using numerical results from the paradigmatic example of a quantum Ising model on a chain of spins. There, we observe entropy increasing up to equilibrium values, as well as fluctuations which expose the underlying reversible evolution in accordance with the derived bounds.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# 予熱時結晶コーナモード

Prethermal Time-Crystalline Corner Modes ( http://arxiv.org/abs/2406.01686v1 )

ライセンス: Link先を確認
Si Jiang, Dong Yuan, Wenjie Jiang, Dong-Ling Deng, Francisco Machado, (参考訳) 本研究では, 非調和応答が0次元角モードに完全に局在する予熱離散時間結晶の存在を実証する。 指数関数的に長い前熱状態の中で、これらのコーナーモードの堅牢性は、2つの関連するが異なるメカニズム、すなわち、有効ハミルトニアンにおける高次対称性保護位相の存在、あるいはコーナーモードの崩壊を防ぐ動的制約の存在から生じることを示す。 第1のメカニズムは、前熱的状態全体のサブハーモニック応答の安定性を保証するが、有効ハミルトニアンの基底状態多様体における初期状態に制限される。 対照的に、第2のメカニズムは任意の初期状態に対する前熱前の時間結晶秩序の観測を可能にするが、これは駆動の周波数によって決定されるだけでなく、系のサブラテックス全体の相対エネルギースケールによっても決定される。 我々は、周期的に駆動される2次元スピンモデルの力学をシミュレートすることでこれらの2つのメカニズムを特徴づけ、我々のモデルが他のすべての次元に自然に拡張することについて議論する。

We demonstrate the existence of prethermal discrete time crystals whose sub-harmonic response is entirely localized to zero-dimensional corner modes. Within the exponentially long prethermal regime, we show that the robustness of these corner modes arises from two related, yet distinct mechanisms: the presence of a higher-order symmetry-protected topological phase in the effective Hamiltonian, or the emergence of a dynamical constraint that prevents the decay of the corner mode. While the first mechanism ensures the stability of the sub-harmonic response throughout the entirety of the prethermal regime, it is restricted to initial states in the ground state manifold of the effective Hamiltonian. By contrast, the second mechanism enables the observation of the prethermal time-crystalline order for arbitrary initial states, albeit with a time scale that is not only determined by the frequency of the drive, but also the relative energy scale across the system's sublattices. We characterize these two mechanisms by simulating the dynamics of a periodically driven two-dimensional spin model, and discuss natural extensions of our model to all other dimensions.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# Bit by Bit: 量子情報のレンズを通しての重力

Bit by Bit: Gravity Through the Lens of Quantum Information ( http://arxiv.org/abs/2406.01695v1 )

ライセンス: Link先を確認
William Munizzi, (参考訳) この論文は、量子情報とホログラフィーの交差における最近のいくつかの進歩をレビューしている。 ホログラフィーにおいて、量子系の特性はAdS/CFT対応による重力解釈を許容する。 ホログラフィック状態の場合、境界エンタングルメントエントロピーは、龍高柳面として知られるバルク測地圏と双対である。 さらに、ホログラフィック双対を全く持たない生存性は、絡み合い構造によって制約される。 したがって、絡み合いはヒルベルト空間における状態の粗い分類を可能にする。 同様に、作用素群の下での状態変換はヒルベルト空間の分類も提供する。 例えば安定化器状態は、大きな演算セットの下で不変であり、したがって古典的なコンピュータ上でシミュレートできる。 ケイリーグラフは、頂点が群要素を表し、エッジが生成元を表す作用素群に対して有用な表現を提供する。 群の作用状態の軌道は、群ケイリーグラフの商である「到達可能性グラフ」としても表すことができる。 到達可能性グラフは絡み合い情報をエンコードするために着ることができ、絡み合いのダイナミクスを研究するのに有用なツールとなる。 状態計算可能な、例えば絡み合うエントロピーを固定する群要素による到達可能性グラフの定式化は、「収縮グラフ」を構築する。 量子回路における状態パラメータの明示的に束縛されたグラフ。 この論文では、クリフォード回路における絡み合いエントロピー進化の上限について述べる。 量子系のもう1つの重要な性質は、量子状態のシミュレートの難しさを定量化するマジックである。 AdS/CFTにおける創発現象を記述する際、マジックと絡み合いは相補的な役割を果たす。 この研究は絡み合いと魔法の相互作用を記述し、宇宙のブレインバック反応として魔法にホログラフィックな結果を与える。

This dissertation reviews several recent advances at the intersection of quantum information and holography. In holography, properties of quantum systems admit a gravitational interpretation via the AdS/CFT correspondence. For holographic states, boundary entanglement entropy is dual to bulk geodesic areas, known as Ryu-Takayanagi surfaces. Furthermore, the viability to possess a holographic dual at all is constrained by entanglement structure. Accordingly, entanglement enables a coarse classification of states in a Hilbert space. Similarly, state transformation under operator groups also provides a classification on the Hilbert space. Stabilizer states, for example, are invariant under large sets of operations and consequently can be simulated on a classical computer. Cayley graphs offer a useful representation for a group of operators, where vertices represent group elements and edges represent generators. The orbit of a state under action of the group can also be represented as a "reachability graph", a quotient of the group Cayley graph. Reachability graphs can be dressed to encode entanglement information, making them a useful tool for studying entanglement dynamics. Quotienting a reachability graph by group elements that fix a state computable, e.g. entanglement entropy, builds a "contracted graph". Contracted graphs explicitly bound state parameter evolution in quantum circuits. In this thesis, an upper bound on entanglement entropy evolution in Clifford circuits is presented. Another important property of quantum systems is magic, which quantifies the difficulty of simulating a quantum state. Magic and entanglement play complementary roles when describing emergent phenomena in AdS/CFT. This work describes the interplay of entanglement and magic, offering holographic consequences for magic as cosmic brane back-reaction.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# 異種LSM推論におけるプラットフォーム要件のデミスティファイト化

Demystifying Platform Requirements for Diverse LLM Inference Use Cases ( http://arxiv.org/abs/2406.01698v1 )

ライセンス: Link先を確認
Abhimanyu Bambhaniya, Ritik Raj, Geonhwa Jeong, Souvik Kundu, Sudarshan Srinivasan, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna, (参考訳) 大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。 しかし、様々な推論ユースケースのためにこれらのパラメータ重モデルを効率的にデプロイするには、十分なコンピューティング、メモリ、ネットワークリソースを備えたハードウェアプラットフォームを慎重に設計する必要がある。 LLMデプロイメントシナリオとモデルがブレークネックスピードで進化する中で、SLOを満たすためのハードウェア要件は、依然としてオープンな研究課題である。 本研究では,LLM推論性能とプラットフォーム設計パラメータの関係を解析的に解析するGenZを提案する。 我々の分析は、異なるLLMワークロードとユースケースのためのプラットフォーム構成に関する洞察を提供する。 LLaMA や GPT-4 のような SOTA LLM モデルをサポートするためのプラットフォーム要件を,多様なサービス設定下で定量化する。 さらに、将来のLCMが数百兆のパラメータを超える可能性を実現するために必要なハードウェア機能も提案する。 GenZのトレンドと洞察は、LLMをデプロイするAIエンジニアと、次世代ハードウェアアクセラレータやプラットフォームを設計するコンピュータアーキテクトを導くことができる。 結局のところ、この研究は、幅広いアプリケーションにまたがる大きな言語モデルの潜在能力を最大限に活用するためのプラットフォーム設計の考察に光を当てている。 ソースコードはhttps://github.com/abhibambhaniya/GenZ-LLM-Analyzerで入手できる。

Large language models (LLMs) have shown remarkable performance across a wide range of applications, often outperforming human experts. However, deploying these parameter-heavy models efficiently for diverse inference use cases requires carefully designed hardware platforms with ample computing, memory, and network resources. With LLM deployment scenarios and models evolving at breakneck speed, the hardware requirements to meet SLOs remains an open research question. In this work, we present an analytical tool, GenZ, to study the relationship between LLM inference performance and various platform design parameters. Our analysis provides insights into configuring platforms for different LLM workloads and use cases. We quantify the platform requirements to support SOTA LLMs models like LLaMA and GPT-4 under diverse serving settings. Furthermore, we project the hardware capabilities needed to enable future LLMs potentially exceeding hundreds of trillions of parameters. The trends and insights derived from GenZ can guide AI engineers deploying LLMs as well as computer architects designing next-generation hardware accelerators and platforms. Ultimately, this work sheds light on the platform design considerations for unlocking the full potential of large language models across a spectrum of applications. The source code is available at https://github.com/abhibambhaniya/GenZ-LLM-Analyzer .
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# ペッツ・レニーの相互情報の2倍最小化:直接指数による特性と操作的解釈

Doubly minimized Petz Renyi mutual information: Properties and operational interpretation from direct exponent ( http://arxiv.org/abs/2406.01699v1 )

ライセンス: Link先を確認
Laura Burri, (参考訳) 2倍に最小化された位数$\alpha$のペッツ・レニーの相互情報は、任意の積状態に対する固定二部量子状態の位数$\alpha$のペッツ発散の最小化として定義される。 本研究では、このタイプのRenyi相互情報のいくつかの特性を確立し、$\alpha\in [1/2,2]$に対する加法性を含む。 応用として、ある二項量子状態判別問題の直接指数は、位数$\alpha\in (1/2,1)$の2倍に最小化されたペッツ・レニイ相互情報によって決定されることを示す。 これはこの種のレニイ相互情報の操作的解釈を提供し、古典的確率分布の以前の結果を量子設定に一般化する。

The doubly minimized Petz Renyi mutual information of order $\alpha$ is defined as the minimization of the Petz divergence of order $\alpha$ of a fixed bipartite quantum state relative to any product state. In this work, we establish several properties of this type of Renyi mutual information, including its additivity for $\alpha\in [1/2,2]$. As an application, we show that the direct exponent of certain binary quantum state discrimination problems is determined by the doubly minimized Petz Renyi mutual information of order $\alpha\in (1/2,1)$. This provides an operational interpretation of this type of Renyi mutual information, and generalizes a previous result for classical probability distributions to the quantum setting.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# Snowflake: 分散ストリーミングデコーダ

Snowflake: A Distributed Streaming Decoder ( http://arxiv.org/abs/2406.01701v1 )

ライセンス: Link先を確認
Tim Chan, (参考訳) 我々は、ストリーミング形式で動作し、単純で局所的な実装が可能な量子エラー補正デコーダであるSnowflakeを設計する。 そこで本研究では,ウィンドウオーバーラップによる処理オーバーヘッドを解消する汎用ストリーム復号法を提案する。 最初の研究として、サーキットレベルの雑音下でのサーフェスコード上でのSnowflakeの局所的な実装を検証した。 約2/3で、Union-Findデコーダの精度閾値をウィンドウニングメソッドで調整し、より平均的なランタイムスケーリングを実現している。 本研究では,Snowflakeを2次元チップ上に実装し,量子メモリだけでなく格子演算に基づく計算をデコードする方法について論じる。

We design Snowflake, a quantum error correction decoder that runs in a streaming fashion and is capable of a simple, local implementation. In doing so we propose a new method for general stream decoding that eliminates the processing overhead due to window overlap in existing windowing methods. As a first study, we test our local implementation of Snowflake on the surface code under circuit-level noise. It recovers roughly 2/3 the accuracy threshold of the Union-Find decoder adapted with a windowing method, with a better mean runtime scaling: subquadratic as opposed to cubic in code distance $d$. We discuss how Snowflake may be implemented on a 2D chip and decode not just quantum memory but lattice surgery-based computation.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# シリコンにおける分散量子コンピューティング

Distributed Quantum Computing in Silicon ( http://arxiv.org/abs/2406.01704v1 )

ライセンス: Link先を確認
Francis Afzal, Mohsen Akhlaghi, Stefanie J. Beale, Olinka Bedroya, Kristin Bell, Laurent Bergeron, Kent Bonsma-Fisher, Polina Bychkova, Zachary M. E. Chaisson, Camille Chartrand, Chloe Clear, Adam Darcie, Adam DeAbreu, Colby DeLisle, Lesley A. Duncan, Chad Dundas Smith, John Dunn, Amir Ebrahimi, Nathan Evetts, Daker Fernandes Pinheiro, Patricio Fuentes, Tristen Georgiou, Biswarup Guha, Rafael Haenel, Daniel Higginbottom, Daniel M. Jackson, Navid Jahed, Amin Khorshidahmad, Prasoon K. Shandilya, Alexander T. K. Kurkjian, Nikolai Lauk, Nicholas R. Lee-Hone, Eric Lin, Rostyslav Litynskyy, Duncan Lock, Lisa Ma, Iain MacGilp, Evan R. MacQuarrie, Aaron Mar, Alireza Marefat Khah, Alex Matiash, Evan Meyer-Scott, Cathryn P. Michaels, Juliana Motira, Narwan Kabir Noori, Egor Ospadov, Ekta Patel, Alexander Patscheider, Danny Paulson, Ariel Petruk, Adarsh L. Ravindranath, Bogdan Reznychenko, Myles Ruether, Jeremy Ruscica, Kunal Saxena, Zachary Schaller, Alex Seidlitz, John Senger, Youn Seok Lee, Orbel Sevoyan, Stephanie Simmons, Oney Soykal, Leea Stott, Quyen Tran, Spyros Tserkis, Ata Ulhaq, Wyatt Vine, Russ Weeks, Gary Wolfowicz, Isao Yoneda, (参考訳) 量子化学やショアのアルゴリズムのような商業的に影響力のある量子アルゴリズムは、既存の量子プロセッサの容量を超える多くの量子ビットとゲートを必要とする。 ネットワークモジュールによって水平にスケールする分散アーキテクチャは、商用ユーティリティへのルートを提供し、最終的には単一の量子コンピューティングモジュールの能力を超えます。 このようなプロセッサは、モジュール間で分散されたリモートの絡み合いを消費し、分散量子論理を実現する。 したがって、ネットワーク化された量子コンピュータはモジュール間の高忠実な絡み合いを迅速に分散する能力を必要とする。 ここでは、等方的に濃縮されたシリコン中のシリコンT中心上に、いくつかの重要な分散量子コンピューティングプロトコルの予備的なデモンストレーションを示す。 本稿では,モジュール間の絡み合いの分布を実証し,それを伝送ゲートシーケンスに適用し,分散量子コンピューティングおよびネットワークプラットフォームとしてTセンタの概念実証を確立する。

Commercially impactful quantum algorithms such as quantum chemistry and Shor's algorithm require a number of qubits and gates far beyond the capacity of any existing quantum processor. Distributed architectures, which scale horizontally by networking modules, provide a route to commercial utility and will eventually surpass the capability of any single quantum computing module. Such processors consume remote entanglement distributed between modules to realize distributed quantum logic. Networked quantum computers will therefore require the capability to rapidly distribute high fidelity entanglement between modules. Here we present preliminary demonstrations of some key distributed quantum computing protocols on silicon T centres in isotopically-enriched silicon. We demonstrate the distribution of entanglement between modules and consume it to apply a teleported gate sequence, establishing a proof-of-concept for T centres as a distributed quantum computing and networking platform.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# ピーナッツモデル:トレーニングアクセスなしでMLモデルをハイジャックすることは可能か

Model for Peanuts: Hijacking ML Models without Training Access is Possible ( http://arxiv.org/abs/2406.01708v1 )

ライセンス: Link先を確認
Mahmoud Ghorbel, Halima Bouzidi, Ioan Marius Bilasco, Ihsen Alouani, (参考訳) 機械学習(ML)モデルの大規模な展開は、信頼性を脅かし、プライバシーの侵害、差別リスク、説明責任の欠如といった倫理的および社会的懸念を提起する、いくつかの攻撃の出現に伴っている。 モデルハイジャックはこれらの攻撃の1つであり、敵は被害者のモデルをハイジャックして元のモデルとは異なるタスクを実行する。 モデルハイジャックは、ハイジャックされたモデル所有者が、違法または非倫理的なサービスを提供するモデルを持つことによって、説明責任とセキュリティ上のリスクを引き起こす可能性がある。 従来の最先端の作業では、モデルハイジャックはトレーニングタイムアタックであり、敵は攻撃を実行するためにMLモデルのトレーニングにアクセスする必要がある。 本稿では、攻撃者が被害者モデルの訓練段階にアクセスできないような、より強力な脅威モデルを考える。 私たちの直感では、MLモデルは、通常過パラメータ化され、(意図せずに)トレーニング対象のタスクよりも多くを学ぶことができる。 本研究では,SnatchMLと命名された推論時間におけるモデルハイジャックに対する簡単なアプローチを提案し,被害者モデルの潜伏空間における距離測定を用いて未知の入力サンプルを,ハイジャックタスククラスに関連する既知のサンプルに分類する。 SnatchMLは経験的に、良質な事前訓練されたモデルが初期タスクと意味的に関連するタスクを実行できることを示している。 驚いたことに、これは元のタスクとは無関係なタスクをハイジャックしても当てはまる。 このリスクを軽減するために、さまざまな方法も検討しています。 最初にメタ学習と呼ぶ新しいアプローチを提案し、モデルが元のタスクデータセットをトレーニングしながら潜在的に悪意のあるタスクを解放するのに役立つように設計した。 また,モデルハイジャックを容易にする1つの要因として,過パラメータ化に関する洞察を提供し,この攻撃に対する圧縮に基づく対策を提案する。

The massive deployment of Machine Learning (ML) models has been accompanied by the emergence of several attacks that threaten their trustworthiness and raise ethical and societal concerns such as invasion of privacy, discrimination risks, and lack of accountability. Model hijacking is one of these attacks, where the adversary aims to hijack a victim model to execute a different task than its original one. Model hijacking can cause accountability and security risks since a hijacked model owner can be framed for having their model offering illegal or unethical services. Prior state-of-the-art works consider model hijacking as a training time attack, whereby an adversary requires access to the ML model training to execute their attack. In this paper, we consider a stronger threat model where the attacker has no access to the training phase of the victim model. Our intuition is that ML models, typically over-parameterized, might (unintentionally) learn more than the intended task for they are trained. We propose a simple approach for model hijacking at inference time named SnatchML to classify unknown input samples using distance measures in the latent space of the victim model to previously known samples associated with the hijacking task classes. SnatchML empirically shows that benign pre-trained models can execute tasks that are semantically related to the initial task. Surprisingly, this can be true even for hijacking tasks unrelated to the original task. We also explore different methods to mitigate this risk. We first propose a novel approach we call meta-unlearning, designed to help the model unlearn a potentially malicious task while training on the original task dataset. We also provide insights on over-parameterization as one possible inherent factor that makes model hijacking easier, and we accordingly propose a compression-based countermeasure against this attack.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# ハニカムモアレポテンシャルにおける相互作用電子の強磁性半金属および電荷密度波位相

Ferromagnetic semimetal and charge-density wave phases of interacting electrons in a honeycomb moiré potential ( http://arxiv.org/abs/2406.01715v1 )

ライセンス: Link先を確認
Yubo Yang, Miguel A. Morales, Shiwei Zhang, (参考訳) モワール系における量子相の探索は、激しい実験的、理論的努力を惹きつけてきた。 ハニカム対称性の実現は近年注目されている。 強い相互作用とハニカム対称性の組み合わせは、分数チャーン絶縁体、非伝統的な超伝導体、量子スピン液体のようなエキゾチックな電子状態をもたらす。 このようなシステムにおける正確な計算は、強い長距離クーロン相互作用を確実に処理し、大きなシステムサイズに接近して熱力学的位相を抽出することで、ほとんど失われている。 我々は, 固定相拡散モンテカルロを用いて, ハニカムモアレ'e格子上の2次元電子ガスの研究を行った。 この重要なモデルの基底状態位相は、現在の実験に関連するパラメータ状態で決定される。 モワールポテンシャルの増大に伴い、系は常磁性金属から遍歴強磁性半金属、そして電荷密度波絶縁体へと遷移する。

The exploration of quantum phases in moir\'e systems has drawn intense experimental and theoretical efforts. The realization of honeycomb symmetry has been a recent focus. The combination of strong interaction and honeycomb symmetry can lead to exotic electronic states such as fractional Chern insulator, unconventional superconductor, and quantum spin liquid. Accurate computations in such systems, with reliable treatment of strong long-ranged Coulomb interaction and approaching the large system sizes to extract thermodynamic phases, are mostly missing. We study the two-dimensional electron gas on a honeycomb moir\'e lattice at quarter filling, using fixed-phase diffusion Monte Carlo. The ground state phases of this important model are determined in the parameter regime relevant to current experiments. With increasing moir\'e potential, the systems transitions from a paramagnetic metal to an itinerant ferromagnetic semimetal and then a charge-density-wave insulator.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# 混合フォック状態の非古典性の定量化

Quantifying nonclassicality of mixed Fock states ( http://arxiv.org/abs/2406.01717v1 )

ライセンス: Link先を確認
Spencer Rogers, Tommy Muth, Wenchao Ge, (参考訳) ボソニックモードの非古典的状態は、量子化技術にとって重要な資源である。 しかし、これらの状態、特に混合状態の非古典性を定量化することは困難である。 ここでは、オペレーショナルリソース理論(ORT)測度(W. Ge, K. Jacobs, S. Asiri, M. Foss-Feig, M. S. Zubairy, Phys. Rev. Res. 2, 023400 (2020))]を介して混合フォック状態におけるボソニックモードの非古典性を定量化する結果を示す。 一般的に、混合状態に対するORTの測定は凸屋根の発見を伴うため、難しい。 しかし,この問題を線形プログラミング問題に還元できることを示す。 数値最適化の結果を解析することにより, 隣接する3つないし4つのフォック状態が非ゼロ集団である場合に, 正確な解析結果を得ることができる。 興味深いことに、このようなモードは人口によって異なる段階にある可能性がある。 最後に,本手法が高階密度行列に対して一般化可能であることを示す。 本研究は, 任意の混合ボゾン状態の非古典性評価と, その他の凸屋根最適化問題の解決に有効であることを示す。

Nonclassical states of bosonic modes are important resources for quantum-enhanced technologies. Yet, quantifying nonclassicality of these states, in particular mixed states, can be a challenge. Here we present results of quantifying the nonclassicality of a bosonic mode in a mixed Fock state via the operational resource theory (ORT) measure [W. Ge, K. Jacobs, S. Asiri, M. Foss-Feig, and M. S. Zubairy, Phys. Rev. Res. 2, 023400 (2020)], which relates nonclassicality to metrological advantage. Generally speaking, evaluating the ORT measure for mixed states is challenging, since it involves finding a convex roof. However, we show that our problem can be reduced to a linear programming problem. By analyzing the results of numerical optimization, we are able to extract exact, analytical results for the case where three or four neighboring Fock states have nonzero population. Interestingly, we find that such a mode can be in distinct phases, depending on the populations. Lastly, we demonstrate how our method is generalizable to density matrices of higher ranks. Our findings suggests a viable method for evaluating nonclassicality of arbitrary mixed bosonic states and potentially for solving other convex roof optimization problems.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# LLMの高度な外部管理と効率的な量子化のための回転と置換

Rotation and Permutation for Advanced Outlier Management and Efficient Quantization of LLMs ( http://arxiv.org/abs/2406.01721v1 )

ライセンス: Link先を確認
Haokun Lin, Haobo Xu, Yichen Wu, Jingzhi Cui, Yingtao Zhang, Linzhan Mou, Linqi Song, Zhenan Sun, Ying Wei, (参考訳) 大規模言語モデル(LLM)の量子化は、主に低ビット表現の効率を損なう外部アクティベーションが原因で、大きな課題を生んでいる。 従来のアプローチは主に、すべてのトークンに対して常に高い等級を持つ通常のアウトリーチ-アクティベーションの解決に重点を置いている。 しかし、これらの技術は、価値が著しく高く、低ビット量子化時に大きな性能損失を生じさせるような、大量出力器を扱う際には弱まる。 本研究では,2種類の外乱を効果的に除去するために,回転変換と置換変換を用いた革新的な量子化戦略であるDuQuantを提案する。 当初、DuQuantは特定の外周次元から情報を得た回転行列を構築し、異なる回転ブロック内の隣接チャネルでこれらの外周を再分配する。 その後、ブロック間の外れ値のバランスの取れた分布を確保するためにジグザグ置換を適用し、ブロック単位の分散を最小化する。 追加回転により、活性化ランドスケープの滑らか性がさらに向上し、モデル性能が向上する。 DuQuantは量子化プロセスの合理化を図り、4ビットのウェイトアクティベーション量子化の下でも、様々なLLMアーキテクチャで複数のタスクにおいて上位階層の結果を達成する。 私たちのコードはhttps://github.com/Hsu1023/DuQuant.comから入手可能です。

Quantizing large language models (LLMs) presents significant challenges, primarily due to outlier activations that compromise the efficiency of low-bit representation. Traditional approaches mainly focus on solving Normal Outliers-activations with consistently high magnitudes across all tokens. However, these techniques falter when dealing with Massive Outliers, which are significantly higher in value and often cause substantial performance losses during low-bit quantization. In this study, we propose DuQuant, an innovative quantization strategy employing rotation and permutation transformations to more effectively eliminate both types of outliers. Initially, DuQuant constructs rotation matrices informed by specific outlier dimensions, redistributing these outliers across adjacent channels within different rotation blocks. Subsequently, a zigzag permutation is applied to ensure a balanced distribution of outliers among blocks, minimizing block-wise variance. An additional rotation further enhances the smoothness of the activation landscape, thereby improving model performance. DuQuant streamlines the quantization process and demonstrates superior outlier management, achieving top-tier results in multiple tasks with various LLM architectures even under 4-bit weight-activation quantization. Our code is available at https://github.com/Hsu1023/DuQuant.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# UTMシステムにおけるUAVの協調型広帯域スペクトルセンシングとスケジューリング

Federated Learning-based Collaborative Wideband Spectrum Sensing and Scheduling for UAVs in UTM Systems ( http://arxiv.org/abs/2406.01727v1 )

ライセンス: Link先を確認
Sravan Reddy Chintareddy, Keenan Roach, Kenny Cheung, Morteza Hashemi, (参考訳) 本稿では,ネットワーク化無人航空機(UAV)の協調広帯域スペクトル検出とスケジューリングのためのデータ駆動型フレームワークを提案する。 フレームワーク全体は3つの主要なステージで構成されています。 まず、モデルトレーニング段階では、マルチセル環境におけるデータセット生成と、フェデレートラーニング(FL)アーキテクチャを用いた機械学習(ML)モデルのトレーニングを行う。 本研究は,無線用FLに関する既存の研究と異なり,無線データセット生成を直接統合した新しいアーキテクチャを提案し,マルチセル環境における大気上信号からのI/QサンプルをFLトレーニングプロセスに統合する。 第2に、協調スペクトル推定段階において、無人航空機システム交通管理(UTM)エコシステムと互換性のある協調スペクトル融合戦略を提案する。 最後に、スペクトルスケジューリング段階において、検出されたスペクトル孔を二次ユーザに動的に割り当てるために強化学習(RL)ソリューションを利用する。 提案手法を評価するため,MATLAB LTEツールボックスを用いたほぼ現実的な合成データセットを生成するための総合シミュレーションフレームワークを構築した。 この評価手法は、航空機用ML/AIベースのスペクトル管理ソリューションの開発に使用できる大規模なスペクトルデータセットを生成するフレキシブルなフレームワークを提供する。

In this paper, we propose a data-driven framework for collaborative wideband spectrum sensing and scheduling for networked unmanned aerial vehicles (UAVs), which act as the secondary users (SUs) to opportunistically utilize detected "spectrum holes". Our overall framework consists of three main stages. Firstly, in the model training stage, we explore dataset generation in a multi-cell environment and training a machine learning (ML) model using the federated learning (FL) architecture. Unlike the existing studies on FL for wireless that presume datasets are readily available for training, we propose a novel architecture that directly integrates wireless dataset generation, which involves capturing I/Q samples from over-the-air signals in a multi-cell environment, into the FL training process. Secondly, in the collaborative spectrum inference stage, we propose a collaborative spectrum fusion strategy that is compatible with the unmanned aircraft system traffic management (UTM) ecosystem. Finally, in the spectrum scheduling stage, we leverage reinforcement learning (RL) solutions to dynamically allocate the detected spectrum holes to the secondary users. To evaluate the proposed methods, we establish a comprehensive simulation framework that generates a near-realistic synthetic dataset using MATLAB LTE toolbox by incorporating base-station~(BS) locations in a chosen area of interest, performing ray-tracing, and emulating the primary users channel usage in terms of I/Q samples. This evaluation methodology provides a flexible framework to generate large spectrum datasets that could be used for developing ML/AI-based spectrum management solutions for aerial devices.
翻訳日:2024-06-05 21:11:55 公開日:2024-06-03
# ラーニング・トゥ・キャッシュ:層キャッシングによる拡散変換器の高速化

Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching ( http://arxiv.org/abs/2406.01733v1 )

ライセンス: Link先を確認
Xinyin Ma, Gongfan Fang, Michael Bi Mi, Xinchao Wang, (参考訳) 拡散変換器は近年,様々なタスクに対して前例のない生成能力を実証している。 しかしながら、奨励的な結果は、大きなパラメータを持つトランスフォーマーモデルに対する推論を必要とするため、遅延推論のコストが伴う。 本研究では,モデルパラメータを更新することなく,キャッシング機構を導入することで,拡散変圧器内の多数の層を計算し,容易に除去することができることを示す。 例えば、U-ViT-H/2の場合、最大93.68%のキャッシュステップ(全ステップで46.84%)を削除でき、FIDは0.01未満である。 そこで本研究では,拡散変圧器の動的手法でキャッシュを実行することを学習する,L2C(Learning-to-Cache)という新しい手法を提案する。 具体的には,変圧器の層構造と拡散の逐次的性質を利用して,各層をキャッシングの基本単位として扱うことで,時間ステップ間の冗長な計算を探索する。 層をキャッシュ・削除する層を特定するディープモデルにおける指数探索空間の課題に対処するため,新しい微分可能な最適化手法を提案する。 その後、入力不変かつタイムステップ可変なルータが最適化され、最終的に静的な計算グラフが生成される。 実験の結果,L2C は DDIM や DPM-Solver など,キャッシュベースの手法とほぼ同等の推論速度で,サンプリング性能を向上していることがわかった。

Diffusion Transformers have recently demonstrated unprecedented generative capabilities for various tasks. The encouraging results, however, come with the cost of slow inference, since each denoising step requires inference on a transformer model with a large scale of parameters. In this study, we make an interesting and somehow surprising observation: the computation of a large proportion of layers in the diffusion transformer, through introducing a caching mechanism, can be readily removed even without updating the model parameters. In the case of U-ViT-H/2, for example, we may remove up to 93.68% of the computation in the cache steps (46.84% for all steps), with less than 0.01 drop in FID. To achieve this, we introduce a novel scheme, named Learning-to-Cache (L2C), that learns to conduct caching in a dynamic manner for diffusion transformers. Specifically, by leveraging the identical structure of layers in transformers and the sequential nature of diffusion, we explore redundant computations between timesteps by treating each layer as the fundamental unit for caching. To address the challenge of the exponential search space in deep models for identifying layers to cache and remove, we propose a novel differentiable optimization objective. An input-invariant yet timestep-variant router is then optimized, which can finally produce a static computation graph. Experimental results show that L2C largely outperforms samplers such as DDIM and DPM-Solver, alongside prior cache-based methods at the same inference speed.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# 良いバイブズ! - 腕時計振動による個人認証に向けて

Good Vibes! Towards Phone-to-User Authentication Through Wristwatch Vibrations ( http://arxiv.org/abs/2406.01738v1 )

ライセンス: Link先を確認
Jakob Dittrich, Rainhard Dieter Findling, (参考訳) モバイルデバイスは、ユーザに対して、不正アクセスを防ぐために認証を要求することが多いが、モバイルデバイスは通常、ユーザに対して認証を行わない。 これは、ユーザーが無意識に異なるモバイルデバイスと対話する余地を残している。 本稿では,モバイル端末間認証の変種であるGoodVibes認証について述べる。ユーザのスマートフォンは,事前に選択した認証振動パターンで振動する腕時計を通じてユーザに対して認証を行う。 我々はAndroidのプロトタイプとしてGoodVibes認証を実装し、30人の参加者で異なる認証シナリオを評価し、認証振動パターンを異なるパッターから、無関係な振動から、そして欠落しているパターンから、適切に認識し識別できるユーザを見つける。

While mobile devices frequently require users to authenticate to prevent unauthorized access, mobile devices typically do not authenticate to their users. This leaves room for users to unwittingly interact with different mobile devices. We present GoodVibes authentication, a variant of mobile device-to-user authentication, where the user's phone authenticates to the user through their wristwatch vibrating in their pre-selected authentication vibration pattern. We implement GoodVibes authentication as an Android prototype, evaluate different authentication scenarios with 30 participants, and find users to be able to well recognize and distinguish their authentication vibration pattern from different patters, from unrelated vibrations, and from the pattern being absent.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# ウィグナー関数を用いた開量子系の量子速度限界

Quantum speed limit of open quantum system models using the Wigner function ( http://arxiv.org/abs/2406.01741v1 )

ライセンス: Link先を確認
Arti Gaharwar, Devvrat Tiwari, Subhashish Banerjee, (参考訳) 開系モデルの量子速度制限時間は、ワッサーシュタイン-1-距離とウィグナー関数を用いて検討する。 使用法は相共変体と、位置依存結合を介して硬化した熱浴と相互作用する2量子モデルからなる。 量子ビットの位置へのカップリングの依存は、進化のスピードアップに寄与する集合状態における力学の研究を可能にした。 ウィグナー関数の使用は、自然に研究されたシステムの量子性の研究を可能にする。 非マルコフ的挙動、量子性、および量子速度制限時間の間の興味深い相互作用が観察される。 量子相関の存在は進化を加速させる。

The quantum speed limit time of open system models is explored using the Wasserstein-1-distance and the Wigner function. Use is made of the phase covariant and a two-qubit model interacting with a squeezed thermal bath via position-dependent coupling. The dependence of the coupling on the position of the qubits allowed the study of the dynamics in the collective regime, which is conducive to speeding up the evolution. The use of the Wigner function naturally allows the study of the quantumness of the systems studied. An interesting interplay is observed between non-Markovian behavior, quantumness, and the quantum speed limit time. The presence of quantum correlations is seen to speed up the evolution.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# 127キュービットゲートモデルIBM量子コンピュータを用いた量子最適化は、非自明なバイナリ最適化問題に対して量子アニールより優れている。

Quantum optimization using a 127-qubit gate-model IBM quantum computer can outperform quantum annealers for nontrivial binary optimization problems ( http://arxiv.org/abs/2406.01743v1 )

ライセンス: Link先を確認
Natasha Sachdeva, Gavin S. Harnett, Smarak Maity, Samuel Marsh, Yulun Wang, Adam Winick, Ryan Dougherty, Daniel Canuto, You Quan Chong, Michael Hush, Pranav S. Mundada, Christopher D. B. Bentley, Michael J. Biercuk, Yuval Baum, (参考訳) ゲートモデル量子コンピュータにおける二項組合せ最適化問題に対する包括的量子解法を導入する。 内部ワークフローの概要として、カスタマイズされたアンサッツと変分パラメータ更新戦略の統合、ハードウェア実行におけるエラーの効率的な抑制、ビットフリップエラーの修正のためのオーバーヘッドのない後処理について述べる。 我々は、この問題をIBMの量子コンピュータにベンチマークし、古典的な非自明なバイナリ最適化問題をいくつか行ない、古典的なシミュレーションやソリューションの事前知識を使わずに、ハードウェア上で最適化を行う。 まず、最大120キュービットの密度を持つランダムな正規グラフに対して、そのグラフトポロジがデバイス接続と一致しないようなランダムな正規グラフに対して、Max-Cutのインスタンスを正しく解く能力を示す。 次に, 線形, 二次, 立方体相互作用項を持つ127キュービットスピングラスモデルの高次二乗最適化に適用し, 基底状態エネルギーの探索に成功した。 この新しい量子解法は、DWaveアニールラーを用いて公表された結果と比較して最大$\sim1500\times$で最小エネルギーを見つける可能性を高め、アニールラーが故障した場合に正しい解を見つけることができる。 さらに、どちらの問題にも、Q-CTRLソルバは、追求された問題の相対的難易度を示すために用いられるヒューリスティック局所解器よりも優れる。 全体として、これらの結果はハードウェア上での解決に成功している最大の量子最適化であり、ゲートモデル量子コンピュータが二進最適化のクラスにおいてアニールを初めて上回ったことを実証している。

We introduce a comprehensive quantum solver for binary combinatorial optimization problems on gate-model quantum computers that outperforms any published alternative and consistently delivers correct solutions for problems with up to 127 qubits. We provide an overview of the internal workflow, describing the integration of a customized ansatz and variational parameter update strategy, efficient error suppression in hardware execution, and overhead-free post-processing to correct for bit-flip errors. We benchmark this solver on IBM quantum computers for several classically nontrivial unconstrained binary optimization problems -- the entire optimization is conducted on hardware with no use of classical simulation or prior knowledge of the solution. First, we demonstrate the ability to correctly solve Max-Cut instances for random regular graphs with a variety of densities using up to 120 qubits, where the graph topologies are not matched to device connectivity. Next, we apply the solver to higher-order binary optimization and successfully search for the ground state energy of a 127-qubit spin-glass model with linear, quadratic, and cubic interaction terms. Use of this new quantum solver increases the likelihood of finding the minimum energy by up to $\sim1,500\times$ relative to published results using a DWave annealer, and it can find the correct solution when the annealer fails. Furthermore, for both problem types, the Q-CTRL solver outperforms a heuristic local solver used to indicate the relative difficulty of the problems pursued. Overall, these results represent the largest quantum optimizations successfully solved on hardware to date, and demonstrate the first time a gate-model quantum computer has been able to outperform an annealer for a class of binary optimization problems.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# データブリーチに直面する危機コミュニケーション

Crisis Communication in the Face of Data Breaches ( http://arxiv.org/abs/2406.01744v1 )

ライセンス: Link先を確認
Jukka Ruohonen, Kalle Hjerppe, Katleena Kortesuo, (参考訳) データ漏洩は、データへの不正アクセスを指す。 典型的には、常に、データ漏洩はサイバー犯罪に関するものだ。 このような犯罪に直面している組織も、しばしば危機的状況にある。 したがって、組織は危機管理手順におけるデータ漏洩に備えるべきである。 これらの手続きには危機コミュニケーション計画も含まれなければならない。 そこで本研究では,データ漏洩危機コミュニケーション戦略とその実践的実行について検討する。 背景は、活気ある危機コミュニケーション研究領域から来ている。 フィンランドのいくつかの質的なケーススタディによると、従来の知恵は良好であり、成功事例は早期にコミュニケーションを行い、責任を負い、謝罪し、当局に通知する。 失敗したケースは、非難のシフト、組織を犠牲者として位置づけること、公的当局に知らせることのできないことなど、さまざまな逆の度合いを示す。 これらの質的な洞察により、既存の危機コミュニケーション研究で無視されているヨーロッパの規制を含め、データ漏洩の危機、その特異性、およびそれらの管理に特化して研究領域に寄与する。

Data breaches refer to unauthorized accesses to data. Typically but not always, data breaches are about cyber crime. An organization facing such a crime is often also in a crisis situation. Therefore, organizations should prepare also for data breaches in their crisis management procedures. These procedures should include also crisis communication plans. To this end, this paper examines data breach crisis communication strategies and their practical executions. The background comes from the vibrant crisis communication research domain. According to a few qualitative case studies from Finland, the conventional wisdom holds well; the successful cases indicate communicating early, taking responsibility, offering an apology, and notifying public authorities. The unsuccessful cases show varying degrees of the reverse, including shifting of blame, positioning of an organization as a victim, and failing to notify public authorities. With these qualitative insights, the paper contributes to the research domain by focusing specifically on data breach crises, their peculiarities, and their management, including with respect to European regulations that have been neglected in existing crisis communication research.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# 対話的接地理解のための大規模言語モデルの構築に向けて

Towards Harnessing Large Language Models for Comprehension of Conversational Grounding ( http://arxiv.org/abs/2406.01749v1 )

ライセンス: Link先を確認
Kristiina Jokinen, Phillip Schneider, Taiga Mori, (参考訳) 会話基盤とは、対話を行う参加者間の相互知識を確立するための協調的なメカニズムである。 本研究では、情報探索会話を分析し、暗黙的または暗黙的な接地と接地的知識要素の予測に関連する対話を分類する際の大規模言語モデルの能力について検討する。 実験の結果,2つのタスクにおいて,大規模言語モデルが直面する課題を明らかにし,パイプラインアーキテクチャや知識ベースを通じて,大規模言語モデルに基づく会話基盤の理解を強化するための研究が進行中であることを明らかにした。 これらのイニシアチブは、会話における基礎知識の複雑さを扱うために、より効果的な対話システムを開発することを目的としている。

Conversational grounding is a collaborative mechanism for establishing mutual knowledge among participants engaged in a dialogue. This experimental study analyzes information-seeking conversations to investigate the capabilities of large language models in classifying dialogue turns related to explicit or implicit grounding and predicting grounded knowledge elements. Our experimental results reveal challenges encountered by large language models in the two tasks and discuss ongoing research efforts to enhance large language model-based conversational grounding comprehension through pipeline architectures and knowledge bases. These initiatives aim to develop more effective dialogue systems that are better equipped to handle the intricacies of grounded knowledge in conversations.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# 最適重み付き平均値の最適化:効率的な分散スパース分類

Optimizing the Optimal Weighted Average: Efficient Distributed Sparse Classification ( http://arxiv.org/abs/2406.01753v1 )

ライセンス: Link先を確認
Fred Lu, Ryan R. Curtin, Edward Raff, Francis Ferraro, James Holt, (参考訳) 分散トレーニングは、ますます大規模なデータセット上で線形モデルを最適化するソリューションとしてしばしば見なされるが、一般的な分散アプローチのマシン間通信コストは、データ次元が増加するにつれて支配的になる。 最近の非インタラクティブアルゴリズムの研究は、機械間の1ラウンドの通信だけで線形モデルの近似解を効率的に得ることができることを示している。 しかし、この近似はしばしば機械の数が増えるにつれて縮退する。 本稿では,近年の最適重み付け平均法に基づく新しい手法であるACOWAを導入する。 その結果、分散ロジスティック回帰では、ACOWAは経験的リスク最小化に忠実で、他の分散アルゴリズムよりもかなり高い精度で解が得られることがわかった。

While distributed training is often viewed as a solution to optimizing linear models on increasingly large datasets, inter-machine communication costs of popular distributed approaches can dominate as data dimensionality increases. Recent work on non-interactive algorithms shows that approximate solutions for linear models can be obtained efficiently with only a single round of communication among machines. However, this approximation often degenerates as the number of machines increases. In this paper, building on the recent optimal weighted average method, we introduce a new technique, ACOWA, that allows an extra round of communication to achieve noticeably better approximation quality with minor runtime increases. Results show that for sparse distributed logistic regression, ACOWA obtains solutions that are more faithful to the empirical risk minimizer and attain substantially higher accuracy than other distributed algorithms.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# スペーサー、より良く、より深く、より強く:厳密な直交初期化によるスパーストレーニングの改善

Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization ( http://arxiv.org/abs/2406.01755v1 )

ライセンス: Link先を確認
Aleksandra Irena Nowak, Łukasz Gniecki, Filip Szatkowski, Jacek Tabor, (参考訳) 静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。 鍵となる設計選択はスパース初期化によって与えられ、バイナリマスクを介してトレーニング可能なサブネットワークを決定する。 既存の方法は、あらかじめ定義された密接な初期化に基づいて、主にそのようなマスクを選択する。 このようなアプローチは、最適化に対するマスクの潜在的影響を効果的に活用できないかもしれない。 動的等尺性の研究にインスパイアされた別の方向は、勾配信号の安定化に役立つスパースサブネットワークに直交性を導入することである。 そこで本研究では,ランダムなアジェンダ回転の合成に基づく,新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。 他の既存手法とは対照的に、我々の手法は正確な(近似されていない)直交性を提供し、任意の密度を持つ層の作成を可能にする。 実験によりEOIの優れた有効性と効率を実証し、共通のスパース初期化技術より一貫して優れていることを示す。 本手法は,スパルスマスク選択に伴う静的スパーストレーニングにおいて,重量初期化の重要な役割を強調し,残差接続や正規化を伴わない1000層MLPおよびCNNネットワークの高度スパース訓練を可能にする。 コードはhttps://github.com/woocash2/sparser-better-deeper-strongerで公開されている。

Static sparse training aims to train sparse models from scratch, achieving remarkable results in recent years. A key design choice is given by the sparse initialization, which determines the trainable sub-network through a binary mask. Existing methods mainly select such mask based on a predefined dense initialization. Such an approach may not efficiently leverage the mask's potential impact on the optimization. An alternative direction, inspired by research into dynamical isometry, is to introduce orthogonality in the sparse subnetwork, which helps in stabilizing the gradient signal. In this work, we propose Exact Orthogonal Initialization (EOI), a novel sparse orthogonal initialization scheme based on composing random Givens rotations. Contrary to other existing approaches, our method provides exact (not approximated) orthogonality and enables the creation of layers with arbitrary densities. We demonstrate the superior effectiveness and efficiency of EOI through experiments, consistently outperforming common sparse initialization techniques. Our method enables training highly sparse 1000-layer MLP and CNN networks without residual connections or normalization techniques, emphasizing the crucial role of weight initialization in static sparse training alongside sparse mask selection. The code is available at https://github.com/woocash2/sparser-better-deeper-stronger
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# 位置:集団化社会に向けてのカスケード格差の法則を破る

Position: Cracking the Code of Cascading Disparity Towards Marginalized Communities ( http://arxiv.org/abs/2406.01757v1 )

ライセンス: Link先を確認
Golnoosh Farnadi, Mohammad Havaei, Negar Rostamzadeh, (参考訳) 基礎モデルの台頭はAIを前進させる大きな可能性を秘めているが、この進歩は既存のリスクと不平等を増幅し、余分なコミュニティを置き去りにする可能性がある。 本稿では,疎外化社会への格差 - パフォーマンス, 表現, プライバシー, 堅牢性, 解釈可能性, 安全性 - は, 孤立した関心事ではなく, カスケード的不一致現象の相互接続要素である,と論じる。 我々は、基礎モデルと伝統的なモデルとを対比し、限界化コミュニティに対する更なる格差の可能性を強調します。 さらに,相互接続の相違が長期的負の結果を招きうる基礎モデルにおいて,カスケードの影響の独特な脅威を強調した。 機械学習の文脈において、余分なコミュニティを定義し、格差の多面的な性質を探求する。 我々はこれらの格差の源泉を分析し、データ作成、トレーニング、展開手順からそれらを追跡し、複雑な技術的・社会技術的景観を強調します。 プレッシャー危機を緩和するため、我々は、その源泉における格差を軽減するための一連の行動を呼び掛けて結論づける。

The rise of foundation models holds immense promise for advancing AI, but this progress may amplify existing risks and inequalities, leaving marginalized communities behind. In this position paper, we discuss that disparities towards marginalized communities - performance, representation, privacy, robustness, interpretability and safety - are not isolated concerns but rather interconnected elements of a cascading disparity phenomenon. We contrast foundation models with traditional models and highlight the potential for exacerbated disparity against marginalized communities. Moreover, we emphasize the unique threat of cascading impacts in foundation models, where interconnected disparities can trigger long-lasting negative consequences, specifically to the people on the margin. We define marginalized communities within the machine learning context and explore the multifaceted nature of disparities. We analyze the sources of these disparities, tracing them from data creation, training and deployment procedures to highlight the complex technical and socio-technical landscape. To mitigate the pressing crisis, we conclude with a set of calls to action to mitigate disparity at its source.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# LatentからLucidへ:知識グラフの埋め込みを解釈可能な構造に変換する

From Latent to Lucid: Transforming Knowledge Graph Embeddings into Interpretable Structures ( http://arxiv.org/abs/2406.01759v1 )

ライセンス: Link先を確認
Christoph Wehner, Chrysa Iliopoulou, Tarek R. Besold, (参考訳) 本稿では,知識グラフ埋め込みモデルに適したポストホックな説明可能なAI手法を提案する。 これらのモデルは知識グラフ補完にとって必須であり、不透明でブラックボックスの性質を批判している。 高次元の潜在表現を通して知識グラフのセマンティクスを捉えることに大きな成功にもかかわらず、その固有の複雑さは説明可能性に重大な課題をもたらす。 既存手法とは異なり,本手法は知識グラフ埋め込みモデルによって符号化された潜在表現を直接デコードし,類似の埋め込みが知識グラフ内の類似した振る舞いを反映する原理を活用する。 類似した埋め込みエンティティのサブグラフ近傍の異なる構造を同定することにより、モデルが依存する統計規則を同定し、これらの知見を人間の理解可能な象徴的規則や事実に変換する。 これにより、知識グラフ埋め込みモデルの抽象表現と予測出力とのギャップを埋め、明確で解釈可能な洞察を提供する。 主要なコントリビューションには、知識グラフ埋め込みモデルのための、新しいポストホックな説明可能なAIメソッドが含まれている。 このメソッドの柔軟性は、多様なユーザニーズを満たすルールベース、インスタンスベース、アナロジーベースの説明の生成を可能にする。 広範囲な評価は、忠実で局所的な説明を提供することにおける我々のアプローチの有効性を示し、知識グラフ埋め込みモデルの透明性と信頼性を高めている。

This paper introduces a post-hoc explainable AI method tailored for Knowledge Graph Embedding models. These models are essential to Knowledge Graph Completion yet criticized for their opaque, black-box nature. Despite their significant success in capturing the semantics of knowledge graphs through high-dimensional latent representations, their inherent complexity poses substantial challenges to explainability. Unlike existing methods, our approach directly decodes the latent representations encoded by Knowledge Graph Embedding models, leveraging the principle that similar embeddings reflect similar behaviors within the Knowledge Graph. By identifying distinct structures within the subgraph neighborhoods of similarly embedded entities, our method identifies the statistical regularities on which the models rely and translates these insights into human-understandable symbolic rules and facts. This bridges the gap between the abstract representations of Knowledge Graph Embedding models and their predictive outputs, offering clear, interpretable insights. Key contributions include a novel post-hoc explainable AI method for Knowledge Graph Embedding models that provides immediate, faithful explanations without retraining, facilitating real-time application even on large-scale knowledge graphs. The method's flexibility enables the generation of rule-based, instance-based, and analogy-based explanations, meeting diverse user needs. Extensive evaluations show our approach's effectiveness in delivering faithful and well-localized explanations, enhancing the transparency and trustworthiness of Knowledge Graph Embedding models.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# タイムビン光子を介する閉じ込められた原子の高忠実リモート絡み合い

High-fidelity remote entanglement of trapped atoms mediated by time-bin photons ( http://arxiv.org/abs/2406.01761v1 )

ライセンス: Link先を確認
Sagnik Saha, Mikhail Shalaev, Jameson O'Reilly, Isabella Goetting, George Toh, Ashish Kalakuntla, Yichao Yu, Christopher Monroe, (参考訳) 量子処理ノード間のフォトニック相互接続は、大規模量子コンピュータやネットワークを実現する唯一の方法である。 このようなアーキテクチャのボトルネックは、よく分離された量子メモリとフライング光子のインターフェイスである。 遠隔分離された原子量子ビットメモリ間の高忠実な絡み合いを確立し, パルスのタイミングに蓄えられたフォトニック量子ビットを介する。 このような時間ビン符号化は偏極誤差に対する感度を除去し、長距離量子通信を可能にし、2つ以上の状態を持つ量子メモリに拡張可能である。 測定に基づく誤差検出プロセスを用い,原子再コイルによる基本的な誤差源を抑制することにより,97%のエンタングルメント忠実度を実現し,99.9%を超える忠実度が実現可能であることを示す。

Photonic interconnects between quantum processing nodes are likely the only way to achieve large-scale quantum computers and networks. The bottleneck in such an architecture is the interface between well-isolated quantum memories and flying photons. We establish high-fidelity entanglement between remotely separated trapped atomic qubit memories, mediated by photonic qubits stored in the timing of their pulses. Such time-bin encoding removes sensitivity to polarization errors, enables long-distance quantum communication, and is extensible to quantum memories with more than two states. Using a measurement-based error detection process and suppressing a fundamental source of error due to atomic recoil, we achieve an entanglement fidelity of 97% and show that fidelities beyond 99.9% are feasible.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# コンパチブル関数近似を用いた単一ループ(Natural Actor-Critic)の非漸近解析

Non-Asymptotic Analysis for Single-Loop (Natural) Actor-Critic with Compatible Function Approximation ( http://arxiv.org/abs/2406.01762v1 )

ライセンス: Link先を確認
Yudan Wang, Yue Wang, Yi Zhou, Shaofeng Zou, (参考訳) アクター批判 (AC) は強化学習において最適な政策を学習する強力な方法であり、例えば、時間差(TD)学習を関数近似で用い、現在の方針を評価し、アクターは評論家の情報を用いて近似勾配方向に沿ってポリシーを更新する。 本稿では、ACアルゴリズムとNACアルゴリズムの両方に対して、textit{tightest}非漸近収束境界を提供する。 具体的には、AC は $\epsilon +\varepsilon_{\text{critic}}$ 定常点近傍に収束し、NAC は $\epsilon +\varepsilon_{\text{critic}}+\sqrt{\varepsilon_{\text{actor}}} グローバル最適点近傍に収束し、最も知られている $\mathcal{O}(\epsilon^{-3})$ は、批評家の近似誤差である。 本稿では,ACアルゴリズムとNACアルゴリズムのコンバージェンスを,相反する関数近似を用いて解析する。 私たちの分析では、最もよく知られたサンプルの複雑さを達成しながら、エラー境界から$\varepsilon_{\text{critic}}$という用語を排除しています。 さらに,1つのマルコフサンプル軌道を用いた単一ループ設定に着目する。 我々の主要な技術的新奇性は、批判者における政策依存的かつ時間変化の相反する関数近似による確率的バイアスの分析と、マルコフ標本軌道によるMDPの非エルゴード性を扱うことである。 付録にも数値結果が記載されている。

Actor-critic (AC) is a powerful method for learning an optimal policy in reinforcement learning, where the critic uses algorithms, e.g., temporal difference (TD) learning with function approximation, to evaluate the current policy and the actor updates the policy along an approximate gradient direction using information from the critic. This paper provides the \textit{tightest} non-asymptotic convergence bounds for both the AC and natural AC (NAC) algorithms. Specifically, existing studies show that AC converges to an $\epsilon+\varepsilon_{\text{critic}}$ neighborhood of stationary points with the best known sample complexity of $\mathcal{O}(\epsilon^{-2})$ (up to a log factor), and NAC converges to an $\epsilon+\varepsilon_{\text{critic}}+\sqrt{\varepsilon_{\text{actor}}}$ neighborhood of the global optimum with the best known sample complexity of $\mathcal{O}(\epsilon^{-3})$, where $\varepsilon_{\text{critic}}$ is the approximation error of the critic and $\varepsilon_{\text{actor}}$ is the approximation error induced by the insufficient expressive power of the parameterized policy class. This paper analyzes the convergence of both AC and NAC algorithms with compatible function approximation. Our analysis eliminates the term $\varepsilon_{\text{critic}}$ from the error bounds while still achieving the best known sample complexities. Moreover, we focus on the challenging single-loop setting with a single Markovian sample trajectory. Our major technical novelty lies in analyzing the stochastic bias due to policy-dependent and time-varying compatible function approximation in the critic, and handling the non-ergodicity of the MDP due to the single Markovian sample trajectory. Numerical results are also provided in the appendix.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# 腹部大動脈瘤CT像に対する近似的アプローチとAI的アプローチ

An approximation-based approach versus an AI one for the study of CT images of abdominal aorta aneurysms ( http://arxiv.org/abs/2406.01764v1 )

ライセンス: Link先を確認
Lucrezia Rinelli, Arianna Travaglini, Nicolò Vescera, Gianluca Vinti, (参考訳) 本研究は,腹部大動脈瘤のCT像に応用した2つのアプローチについて検討した。 両者とも,大動脈の特許領域を抽出するために基底CT像を分割することを目的としており,この病理診断のための腎毒性造影剤の代替案を提案する。 決定論的アプローチは、カントロビッチ作用素のサンプリングと背景理論を採用し、これらの演算子の画像への再構成と拡張能力を活用する一方で、人工知能ベースのアプローチは、U-netニューラルネットワークに基づいている。 2つの手法の試験から得られた結果は数値的および視覚的に比較され、両モデルが正確な結果が得られることを示した。

This study evaluates two approaches applied to computed tomography (CT) images of patients with abdominal aortic aneurysm: one deterministic, based on tools of Approximation Theory, and one based on Artificial Intelligence. Both aim to segment the basal CT images to extract the patent area of the aortic vessel, in order to propose an alternative to nephrotoxic contrast agents for diagnosing this pathology. While the deterministic approach employs sampling Kantorovich operators and the theory behind, leveraging the reconstruction and enhancement capabilities of these operators applied to images, the artificial intelligence-based approach lays on a U-net neural network. The results obtained from testing the two methods have been compared numerically and visually to assess their performances, demonstrating that both models yield accurate results.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# ロバスト変圧器トラッカーに対する対向攻撃の再現性の検討

Reproducibility Study on Adversarial Attacks Against Robust Transformer Trackers ( http://arxiv.org/abs/2406.01765v1 )

ライセンス: Link先を確認
Fatemeh Nourilenjan Nokabadi, Jean-François Lalonde, Christian Gagné, (参考訳) 新しいトランスフォーマーネットワークはオブジェクトトラッキングパイプラインに統合され、最新のベンチマークで強いパフォーマンスを示している。 本稿では, 逆攻撃におけるトランスフォーマートラッカーの挙動と, パラメータの変化に伴うデータセットの追跡において, 異なる攻撃がどう作用するかを理解することに焦点を当てる。 我々は,変圧器と非変圧器のバックボーンを有するオブジェクトトラッカーに対する既存の敵攻撃の有効性を評価するために,一連の実験を行った。 トランスフォーマーベースの3つと、他のアーキテクチャを活用する4つを含む、7つの異なるトラッカーを実験しました。 これらのトラッカーは、VOT2022ST、UAV123、GOT10kデータセットのパフォーマンスと堅牢性を評価するために、4つの最近の攻撃方法に対してテストされる。 本研究では,境界ボックスと二値マスク予測に基づく物体追跡器の対向ロバスト性の評価と,異なるレベルの摂動による攻撃方法について検討した。 興味深いことに, 摂動レベルの変化は, 攻撃後の全体追跡結果に有意な影響を及ぼさない可能性が示唆された。 同様に、攻撃摂動の空間性と非受容性は、摂動レベルシフトに対して安定である。 すべてのトランストラッカーに特定の攻撃を施すことにより、より強力なクロスアテンションモデリングを持つトランストラッカーが、VOT2022STやGOT10kのようなトラッキングデータセットに対してより逆の堅牢性を実現することを示す。 また, 最新の変圧器トラッカーを効果的に扱うために, 新たな攻撃方法の必要性も示唆した。 この研究の再現に必要なコードはhttps://github.com/fatemehN/ReproducibilityStudy.comで公開されている。

New transformer networks have been integrated into object tracking pipelines and have demonstrated strong performance on the latest benchmarks. This paper focuses on understanding how transformer trackers behave under adversarial attacks and how different attacks perform on tracking datasets as their parameters change. We conducted a series of experiments to evaluate the effectiveness of existing adversarial attacks on object trackers with transformer and non-transformer backbones. We experimented on 7 different trackers, including 3 that are transformer-based, and 4 which leverage other architectures. These trackers are tested against 4 recent attack methods to assess their performance and robustness on VOT2022ST, UAV123 and GOT10k datasets. Our empirical study focuses on evaluating adversarial robustness of object trackers based on bounding box versus binary mask predictions, and attack methods at different levels of perturbations. Interestingly, our study found that altering the perturbation level may not significantly affect the overall object tracking results after the attack. Similarly, the sparsity and imperceptibility of the attack perturbations may remain stable against perturbation level shifts. By applying a specific attack on all transformer trackers, we show that new transformer trackers having a stronger cross-attention modeling achieve a greater adversarial robustness on tracking datasets, such as VOT2022ST and GOT10k. Our results also indicate the necessity for new attack methods to effectively tackle the latest types of transformer trackers. The codes necessary to reproduce this study are available at https://github.com/fatemehN/ReproducibilityStudy.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# 定常二層ニューラルネットワークの局所解析

How Does Gradient Descent Learn Features -- A Local Analysis for Regularized Two-Layer Neural Networks ( http://arxiv.org/abs/2406.01766v1 )

ライセンス: Link先を確認
Mo Zhou, Rong Ge, (参考訳) 有用な特徴を学習する能力は、ニューラルネットワークの大きな利点の1つだ。 最近の研究は、ニューラルネットワークが機能学習を許さないニューラルタンジェントカーネル(NTK)で動作可能であることを示しているが、多くの研究は、ニューラルネットワークがNTKレギュレーションを超えて機能学習を行う可能性も示している。 最近、一連の研究は、勾配に基づくトレーニングの初期段階における特徴学習能力を強調した。 本稿では,局所収束解析による勾配降下による特徴学習の別のメカニズムについて考察する。 損失が一定の閾値以下になると、慎重に規則化された目標を持つ勾配降下が地道方向を捉えていることが示される。 以上の結果から,機能学習は最初の段階だけでなく,訓練の終わりにも起こりうることが示唆された。

The ability of learning useful features is one of the major advantages of neural networks. Although recent works show that neural network can operate in a neural tangent kernel (NTK) regime that does not allow feature learning, many works also demonstrate the potential for neural networks to go beyond NTK regime and perform feature learning. Recently, a line of work highlighted the feature learning capabilities of the early stages of gradient-based training. In this paper we consider another mechanism for feature learning via gradient descent through a local convergence analysis. We show that once the loss is below a certain threshold, gradient descent with a carefully regularized objective will capture ground-truth directions. Our results demonstrate that feature learning not only happens at the initial gradient steps, but can also occur towards the end of training.
翻訳日:2024-06-05 21:02:09 公開日:2024-06-03
# 正方形の原子周波数コム量子メモリの確率的最適性

Provable Optimality of the Square-Tooth Atomic Frequency Comb Quantum Memory ( http://arxiv.org/abs/2406.01769v1 )

ライセンス: Link先を確認
Allen Zang, Martin Suchara, Tian Zhong, (参考訳) AFC(Atomic frequency comb)量子メモリは、オンデマンド検索による光子の多モード高忠実な記憶を可能にするため、量子リピータネットワークにとって有望な技術である。 AFCメモリの検索効率の最適化は、量子ネットワークの絡み合い発生率に強い影響を与えるため重要である。 初期の理論的解析と最近の実験的実証にもかかわらず、最高AFC検索効率に対する普遍的最適構成の厳密な証明は示されていない。 本稿では,原子アンサンブルの最大光学深さの物理的制約の下で,最適化された2乗歯形 AFC がすべての歯形の中から最も高い検索効率を提供することを示す,簡単な解析的証明を提案する。 最適性は、非ゼロ背景吸収と原子の有限均一拡大を考慮した場合でも維持される。 我々の証明は、現実的な実験条件下で最適なAFCを作成する方法について、厳密な議論を実験者に提供する。 最後に、証明手法が適用可能な他の機能最適化問題も同定し、より一般的なシナリオで平方関数の最適性を証明する。

Atomic frequency comb (AFC) quantum memories are a promising technology for quantum repeater networks because they enable multi-mode, high-fidelity storage of photons with on-demand retrieval. The optimization of the retrieval efficiency of an AFC memory is important because it strongly impacts the entanglement generation rate in quantum networks. Despite initial theoretical analyses and recent experimental demonstrations, a rigorous proof of the universally optimal configuration for the highest AFC retrieval efficiency has not been presented. In this paper we offer a simple analytical proof which shows that the optimized square-tooth AFC provides the highest retrieval efficiency among all possible comb tooth shapes, under the physical constraint of maximal optical depth of an atomic ensemble. The optimality still holds even when the non-zero background absorption and the finite homogeneous broadening of atoms are considered. Our proof provides experimentalists with rigorous arguments how to create optimal AFC under realistic experimental conditions. Finally, we also identify other functional optimization problems where our proof technique is applicable, thus proving the optimality of the square function in more general scenarios.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# LLMs Beyond English: Multilingual Capability of LLMs with Cross-Lingual Feedback (英語)

LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback ( http://arxiv.org/abs/2406.01771v1 )

ライセンス: Link先を確認
Wen Lai, Mohsen Mesgar, Alexander Fraser, (参考訳) 大規模言語モデル(LLM)をほとんどの自然言語に民主化するためには、これらのモデルを多くの言語、特に低リソース言語におけるテキストの理解と生成を可能にすることが不可欠である。 近年の多言語 LLM はそのような能力において顕著な性能を示したが、低リソース言語のトレーニングデータが不足しているため、これらの LLM は限られた数の人間言語をサポートしている。 さらに、これらのLLMは、英語でのLLMの成功に欠かせない下流タスクに対する人間の嗜好と整合していない。 本稿では,LLaMAとBLOOMの多言語対応能力を100言語に拡張したxLLaMA-100とxBLOOM-100を紹介する。 そこで我々は,これまでで最大規模の言語カバレッジを示す100言語を含む多言語命令データセットと,30言語を含む言語間フィードバックデータセットの2つのデータセットを構築した。 我々は、構築した命令データに基づいて多言語命令チューニングを行い、さらにDPOアルゴリズムを用いて人間のフィードバックとLLMを一致させる。 5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。 実験結果から、xLLMs-100は100言語をサポートする新しい最先端の多言語LLMを定義することにより、ベンチマーク全体のピアをかなりのマージンで一貫して上回っていることがわかった。

To democratize large language models (LLMs) to most natural languages, it is imperative to make these models capable of understanding and generating texts in many languages, in particular low-resource ones. While recent multilingual LLMs demonstrate remarkable performance in such capabilities, these LLMs still support a limited number of human languages due to the lack of training data for low-resource languages. Moreover, these LLMs are not yet aligned with human preference for downstream tasks, which is crucial for the success of LLMs in English. In this paper, we introduce xLLaMA-100 and xBLOOM-100 (collectively xLLMs-100), which scale the multilingual capabilities of LLaMA and BLOOM to 100 languages. To do so, we construct two datasets: a multilingual instruction dataset including 100 languages, which represents the largest language coverage to date, and a cross-lingual human feedback dataset encompassing 30 languages. We perform multilingual instruction tuning on the constructed instruction data and further align the LLMs with human feedback using the DPO algorithm on our cross-lingual human feedback dataset. We evaluate the multilingual understanding and generating capabilities of xLLMs-100 on five multilingual benchmarks. Experimental results show that xLLMs-100 consistently outperforms its peers across the benchmarks by considerable margins, defining a new state-of-the-art multilingual LLM that supports 100 languages.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# 加速的フェデレーション学習のための効率的なデータ分布推定

Efficient Data Distribution Estimation for Accelerated Federated Learning ( http://arxiv.org/abs/2406.01774v1 )

ライセンス: Link先を確認
Yuanli Wang, Lei Huang, (参考訳) Federated Learning(FL)は、多数の分散エッジデバイスでグローバルモデルをその場でトレーニングする、プライバシ保護機械学習パラダイムである。 これらのシステムはしばしば数百万のユーザデバイスで構成されており、各エポックでのトレーニングには利用可能なデバイスのサブセットしか使用できない。 デバイスがシステムリソースとトレーニングデータの両方において非常に異質であることを考えると、デバイス選択戦略の設計は難しい。 この不均一性により、デバイス選択はタイムリーなモデル収束と十分なモデル精度にとって極めて重要である。 FLクライアントの不均一性問題に対処するため、モデルカバレッジと精度の点で有望な性能向上を示す様々なクライアント選択アルゴリズムが開発されている。 本研究では,大規模FL環境におけるクライアント選択アルゴリズムのオーバーヘッドについて検討する。 そこで本研究では,実世界の大規模FL環境におけるオーバヘッドを低減するために,効率的なデータ分散要約計算アルゴリズムを提案する。 評価の結果,提案手法はデータの要約時間を最大30倍に,クラスタリング時間を最大360倍に削減できることがわかった。

Federated Learning(FL) is a privacy-preserving machine learning paradigm where a global model is trained in-situ across a large number of distributed edge devices. These systems are often comprised of millions of user devices and only a subset of available devices can be used for training in each epoch. Designing a device selection strategy is challenging, given that devices are highly heterogeneous in both their system resources and training data. This heterogeneity makes device selection very crucial for timely model convergence and sufficient model accuracy. To tackle the FL client heterogeneity problem, various client selection algorithms have been developed, showing promising performance improvement in terms of model coverage and accuracy. In this work, we study the overhead of client selection algorithms in a large scale FL environment. Then we propose an efficient data distribution summary calculation algorithm to reduce the overhead in a real-world large scale FL environment. The evaluation shows that our proposed solution could achieve up to 30x reduction in data summary time, and up to 360x reduction in clustering time.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# OLoRA:大規模言語モデルの正規化低ランク適応

OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models ( http://arxiv.org/abs/2406.01775v1 )

ライセンス: Link先を確認
Kerim Büyükakyüz, (参考訳) 大規模言語モデル(LLM)の出現は自然言語処理に革命をもたらし、人間のようなテキストの理解と生成における前例のない能力を可能にした。 しかし、これらのモデルの微調整に伴う計算コストと収束時間は重要な課題である。 Low-Rank Adaptation (LoRA) は、トレーニング可能なパラメータの少ない効率的な微調整技術を導入することで、これらの問題を緩和する有望な方法として登場した。 本稿では、QR分解による正則行列初期化を利用するLoRA法の強化であるOLoRAを提案する。 OLoRAは、トレーニング可能なパラメータの数やGPUメモリフットプリントなどのLoRAの効率性を維持しながら、LLMトレーニングの収束を著しく加速する。 実験により,OLoRAはより高速に収束するだけでなく,様々な言語モデリングタスクにまたがる標準のLoRAと比較して性能も向上していることが示された。 この進歩により、LLMのより効率的でアクセスしやすい微調整のための新たな道が開かれ、自然言語アプリケーションに広く採用され、イノベーションがもたらされる可能性がある。

The advent of large language models (LLMs) has revolutionized natural language processing, enabling unprecedented capabilities in understanding and generating human-like text. However, the computational cost and convergence times associated with fine-tuning these models remain significant challenges. Low-Rank Adaptation (LoRA) has emerged as a promising method to mitigate these issues by introducing efficient fine-tuning techniques with a reduced number of trainable parameters. In this paper, we present OLoRA, an enhancement to the LoRA method that leverages orthonormal matrix initialization through QR decomposition. OLoRA significantly accelerates the convergence of LLM training while preserving the efficiency benefits of LoRA, such as the number of trainable parameters and GPU memory footprint. Our empirical evaluations demonstrate that OLoRA not only converges faster but also exhibits improved performance compared to standard LoRA across a variety of language modeling tasks. This advancement opens new avenues for more efficient and accessible fine-tuning of LLMs, potentially enabling broader adoption and innovation in natural language applications.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# DEFT:一般化された$h$-変換学習による条件拡散モデルの効率的な微調整

DEFT: Efficient Finetuning of Conditional Diffusion Models by Learning the Generalised $h$-transform ( http://arxiv.org/abs/2406.01781v1 )

ライセンス: Link先を確認
Alexander Denker, Francisco Vargas, Shreyas Padhy, Kieran Didi, Simon Mathis, Vincent Dutordoir, Riccardo Barbano, Emile Mathieu, Urszula Julia Komorowska, Pietro Lio, (参考訳) 退化拡散過程に基づく生成的モデリングパラダイムが,逆問題における条件付きサンプリングの第一候補として浮上している。 実世界の多くのアプリケーションでは、高価に訓練された大規模無条件拡散モデルにアクセスでき、条件付きサンプリングの改善に活用することを目的としている。 最近のアプローチはヒューリスティックに動機付けられており、それら間の接続を隠蔽する統一されたフレームワークが欠如している。 さらに、ハイパーパラメータに非常に敏感であること、トレーニングにコストがかかること、あるいはクローズドAPIの背後に隠されたウェイトへのアクセスが必要なこと、といった問題に悩まされることも少なくない。 本研究では,数学的によく理解されたDoobのh-transformを用いて条件付きトレーニングとサンプリングを統一する。 この新たな視点は、共通の傘の下で既存のメソッドを統一することを可能にする。 本フレームワークでは,条件付きネットワークを高速に学習し,大きめの条件付きネットワークを維持しつつ,非常に小さなネットワークを微調整する,条件付き生成のための新しいアプローチであるDEFT(Doob's h-transform Efficient FineTuning)を提案する。 DEFTは既存のベースラインよりもはるかに高速で、様々な線形および非線形のベンチマークで最先端のパフォーマンスを実現している。 画像再構成作業では, 自然画像の知覚品質と医用画像の再現性能に優れ, 最大1.6$\times$の高速化を実現している。

Generative modelling paradigms based on denoising diffusion processes have emerged as a leading candidate for conditional sampling in inverse problems. In many real-world applications, we often have access to large, expensively trained unconditional diffusion models, which we aim to exploit for improving conditional sampling. Most recent approaches are motivated heuristically and lack a unifying framework, obscuring connections between them. Further, they often suffer from issues such as being very sensitive to hyperparameters, being expensive to train or needing access to weights hidden behind a closed API. In this work, we unify conditional training and sampling using the mathematically well-understood Doob's h-transform. This new perspective allows us to unify many existing methods under a common umbrella. Under this framework, we propose DEFT (Doob's h-transform Efficient FineTuning), a new approach for conditional generation that simply fine-tunes a very small network to quickly learn the conditional $h$-transform, while keeping the larger unconditional network unchanged. DEFT is much faster than existing baselines while achieving state-of-the-art performance across a variety of linear and non-linear benchmarks. On image reconstruction tasks, we achieve speedups of up to 1.6$\times$, while having the best perceptual quality on natural images and reconstruction performance on medical images.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# 状態強化学習によるマルチエージェントの課題

Multi-agent assignment via state augmented reinforcement learning ( http://arxiv.org/abs/2406.01782v1 )

ライセンス: Link先を確認
Leopoldo Agorio, Sean Van Alen, Miguel Calvo-Fullana, Santiago Paternain, Juan Andres Bazerque, (参考訳) 我々は,制約付き強化学習を通じて,マルチエージェント代入問題の相反する要件に対処し,この目的のために標準正規化手法が不十分であることを強調する。 代わりに、二重変数の振動をエージェントによって利用してタスク間の交互化を行う状態拡張アプローチを繰り返す。 さらに,これらの乗算器を通信ネットワークを介してゴシップし,他のエージェント状態にアクセスする必要がなくなることで,各エージェントがローカル状態に作用する動作を協調する。 これらの方法により、モニタリング数値実験において相関する理論的実現可能性を保証する分散マルチエージェント割当てプロトコルを提案する。

We address the conflicting requirements of a multi-agent assignment problem through constrained reinforcement learning, emphasizing the inadequacy of standard regularization techniques for this purpose. Instead, we recur to a state augmentation approach in which the oscillation of dual variables is exploited by agents to alternate between tasks. In addition, we coordinate the actions of the multiple agents acting on their local states through these multipliers, which are gossiped through a communication network, eliminating the need to access other agent states. By these means, we propose a distributed multi-agent assignment protocol with theoretical feasibility guarantees that we corroborate in a monitoring numerical experiment.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# 密度行列精製によるオープン量子系のユニタリダイナミクス

Unitary Dynamics for Open Quantum Systems with Density-Matrix Purification ( http://arxiv.org/abs/2406.01783v1 )

ライセンス: Link先を確認
Luis H. Delgado-Granados, Samuel Warren, David A. Mazziotti, (参考訳) 環境と相互作用する量子システムの正確なモデリングには、計算のアプローチを著しく複雑にする非単項力学に対処する必要がある。 本研究では,密度行列の純化を用いた開量子系(OQS)理論を強化し,同じ次元の環境で系を絡み合わせることで力学のユニタリ記述を可能にする。 まず, 密度行列浄化法と従来のOQS法との接続性を確立する。 次に,システム環境相互作用を基本設計原理から導出することにより,浄化理論のスタンドアロン適用性を実証する。 モデルシステムを用いて, 完全正の条件を超えて浄化法が拡張されることを示し, マルコフ力学と非マルコフ力学の両方を効果的にモデル化する。 最後に、量子シミュレータに密度行列の精製を実装し、量子コンピュータに適したユニタリフレームワークに非ユニタリなOQSダイナミクスをマッピングする能力を示す。

Accurate modeling of quantum systems interacting with environments requires addressing non-unitary dynamics, which significantly complicates computational approaches. In this work, we enhance an open quantum system (OQS) theory using density-matrix purification, enabling a unitary description of dynamics by entangling the system with an environment of equal dimension. We first establish the connection between density-matrix purification and conventional OQS methods. We then demonstrate the standalone applicability of purification theory by deriving system-environment interactions from fundamental design principles. Using model systems, we show that the purification approach extends beyond the complete positivity condition and effectively models both Markovian and non-Markovian dynamics. Finally, we implement density-matrix purification on a quantum simulator, illustrating its capability to map non-unitary OQS dynamics onto a unitary framework suitable for quantum computers.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# データ駆動型ビジネスプロセス管理の最近の進歩

Recent Advances in Data-Driven Business Process Management ( http://arxiv.org/abs/2406.01786v1 )

ライセンス: Link先を確認
Lars Ackermann, Martin Käppel, Laura Marcus, Linda Moder, Sebastian Dunzer, Markus Hornsteiner, Annina Liessmann, Yorck Zisgen, Philip Empl, Lukas-Valentin Herm, Nicolas Neis, Julian Neuberger, Leo Poss, Myriam Schaschek, Sven Weinzierl, Niklas Wördehoff, Stefan Jablonski, Agnes Koschmider, Wolfgang Kratsch, Martin Matzner, Stefanie Rinderle-Ma, Maximilian Röglinger, Stefan Schönig, Axel Winkelmann, (参考訳) 最先端技術の急速な発展、データ量の増大、新しいタイプのデータソースの可用性と処理性は、データベースの管理と意思決定のパラダイムシフトにつながった。 ビジネスプロセスは組織作業の中核にあるので、これらの開発は組織にとって重要な成功要因としてBPMに大きな影響を与えます。 この新たな可能性を考えると、データ駆動型ビジネスプロセス管理は、関連性があり活気ある研究領域となっている。 研究分野の複雑さと学際性を考えると、このポジション・ペーパーはデータ駆動型BPMに関する研究知見を提示する。

The rapid development of cutting-edge technologies, the increasing volume of data and also the availability and processability of new types of data sources has led to a paradigm shift in data-based management and decision-making. Since business processes are at the core of organizational work, these developments heavily impact BPM as a crucial success factor for organizations. In view of this emerging potential, data-driven business process management has become a relevant and vibrant research area. Given the complexity and interdisciplinarity of the research field, this position paper therefore presents research insights regarding data-driven BPM.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# RSMM:研究ソフトウェアプロジェクトの成熟度を評価するフレームワーク

RSMM: A Framework to Assess Maturity of Research Software Project ( http://arxiv.org/abs/2406.01788v1 )

ライセンス: Link先を確認
Deekshitha, Rena Bakhshi, Jason Maassen, Carlos Martinez Ortiz, Rob van Nieuwpoort, Slinger Jansen, (参考訳) 研究ソフトウェアを開発する組織や研究者は、単一の研究プロジェクトが提供する資金を超えるソフトウェアを持続可能なものにするという共通の問題に直面している。 これは、ソフトウェアを中心としたコミュニティを構築し、適切なライセンスを提供し、信頼性があり再現可能な研究ソフトウェアを作成し、持続的で影響があり、研究ソフトウェアが研究ワークフローで簡単に採用できるようにすることを通じて、研究ソフトウェアエンジニアによって対処される。 その結果、研究ソフトウェアの品質、再利用可能性、持続可能性を高めるための多くのプラクティスとガイドラインが存在する。 しかしながら、これらのプラクティスを体系的に統合し、組織や研究ソフトウェア開発者が開発や管理プロセスを改善するのに役立つ統一されたフレームワークが欠如しています。 本稿では,新しいフレームワークであるRSMMを導入することで,このギャップを埋めることを目的とする。 組織的な文献レビューと、研究ソフトウェアプロジェクトの専門家とのインタビューからの洞察によって設計されている。 簡単に言うと、RSMMは、79のベストプラクティスを4つの焦点領域にまたがる17の能力に分類することで、研究ソフトウェアプロジェクト管理を評価し、改善するための構造化された経路を提供します。 コード品質とセキュリティの評価から影響、持続可能性、再現性の測定に至るまで、このモデルは研究ソフトウェアプロジェクトの成熟度を完全に評価します。 RSMMでは、研究ソフトウェア開発に関わる個人や組織が、さまざまな研究ソフトウェアエンジニアリング課題に取り組むための体系的なアプローチを得る。 包括的なチェックリストとしてRSMMを活用することで、組織はプロジェクト管理のプラクティスや組織構造を体系的に評価し、洗練することができる。

The organizations and researchers producing research software face a common problem of making their software sustainable beyond funding provided by a single research project. This is addressed by research software engineers through building communities around their software, providing appropriate licensing, creating reliable and reproducible research software, making it sustainable and impactful, promoting, and ensuring that the research software is easy to adopt in research workflows, etc. As a result, numerous practices and guidelines exist to enhance research software quality, reusability, and sustainability. However, there is a lack of a unified framework to systematically integrate these practices and help organizations and research software developers refine their development and management processes. Our paper aims at bridging this gap by introducing a novel framework: RSMM. It is designed through systematic literature review and insights from interviews with research software project experts. In short, RSMM offers a structured pathway for evaluating and refining research software project management by categorizing 79 best practices into 17 capabilities across 4 focus areas. From assessing code quality and security to measuring impact, sustainability, and reproducibility, the model provides a complete evaluation of a research software project maturity. With RSMM, individuals as well as organizations involved in research software development gain a systematic approach to tackling various research software engineering challenges. By utilizing RSMM as a comprehensive checklist, organizations can systematically evaluate and refine their project management practices and organizational structure.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# AIによるカスタマーサポートチケットの分類:AutoMLによる最先端と実装

AI-based Classification of Customer Support Tickets: State of the Art and Implementation with AutoML ( http://arxiv.org/abs/2406.01789v1 )

ライセンス: Link先を確認
Mario Truss, Stephan Boehm, (参考訳) サポートチケット分類の自動化は、顧客サポート性能の向上と顧客からの問い合わせの解決時間短縮に不可欠である。 本研究の目的は,自動機械学習(AutoML)の適用性を,サポートチケットを分類可能な機械学習モデル(MLモデル)をトレーニングする技術としてテストすることである。 本研究で行ったモデル評価は,AutoMLが機械学習モデルを優れた分類性能で訓練するのに利用できることを示す。 さらに、AutoMLを活用することで、専門のAI部門やスタッフを持たない企業にとって、AIソリューションの開発に関する新たな洞察を提供することで、研究ギャップを埋める。

Automation of support ticket classification is crucial to improve customer support performance and shortening resolution time for customer inquiries. This research aims to test the applicability of automated machine learning (AutoML) as a technology to train a machine learning model (ML model) that can classify support tickets. The model evaluation conducted in this research shows that AutoML can be used to train ML models with good classification performance. Moreover, this paper fills a research gap by providing new insights into developing AI solutions without a dedicated professional by utilizing AutoML, which makes this technology more accessible for companies without specialized AI departments and staff.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# マルチドメインラベルを用いたハイブリッド学習映像モーメント検索

Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels ( http://arxiv.org/abs/2406.01791v1 )

ライセンス: Link先を確認
Weitong Cai, Jiabo Huang, Shaogang Gong, (参考訳) ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。 既存の研究は、対象モーメントの時間的境界に関する徹底的なフレームワイズアノテーションの収集から始まり(十分に教師付き)、ビデオレベルのビデオテキストペアリングラベル(弱教師付き)のみで学習する。 前者は、高価なアノテーションコストの下でデータセットの規模や多様性が制限されたため、未知の概念や、あるいは新しいシーンへの一般化に乏しく、後者は不完全なラベルから視覚的・テクスチュアルな誤相関を受けやすい。 本研究では,共有ラベル空間を共有しない場合に,完全教師付きソースドメインから学習したビデオテキストマッチング関係を弱ラベルのターゲットドメインに適応させることにより,知識伝達による問題解決を目的としたハイブリッド学習ビデオモーメント検索という手法を提案する。 本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。 具体的には、マルチプル分岐ビデオテキストアライメントモデル(EVA)を導入し、マルチモーダル特徴アライメントと、ドメイン不変の視覚的特徴とテキスト的特徴を最適化する。 実験は、ソースドメインにおける時間セグメントアノテーションの探索におけるEVAの有効性を示し、ターゲットドメイン内の時間ラベルなしでビデオモーメント検索を学習するのに役立つ。

Video moment retrieval (VMR) is to search for a visual temporal moment in an untrimmed raw video by a given text query description (sentence). Existing studies either start from collecting exhaustive frame-wise annotations on the temporal boundary of target moments (fully-supervised), or learn with only the video-level video-text pairing labels (weakly-supervised). The former is poor in generalisation to unknown concepts and/or novel scenes due to restricted dataset scale and diversity under expensive annotation costs; the latter is subject to visual-textual mis-correlations from incomplete labels. In this work, we introduce a new approach called hybrid-learning video moment retrieval to solve the problem by knowledge transfer through adapting the video-text matching relationships learned from a fully-supervised source domain to a weakly-labelled target domain when they do not share a common label space. Our aim is to explore shared universal knowledge between the two domains in order to improve model learning in the weakly-labelled target domain. Specifically, we introduce a multiplE branch Video-text Alignment model (EVA) that performs cross-modal (visual-textual) matching information sharing and multi-modal feature alignment to optimise domain-invariant visual and textual features as well as per-task discriminative joint video-text representations. Experiments show EVA's effectiveness in exploring temporal segment annotations in a source domain to help learn video moment retrieval without temporal labels in a target domain.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# 正規化逆強化学習によるリワードの伝達可能性向上に向けて

Towards the Transferability of Rewards Recovered via Regularized Inverse Reinforcement Learning ( http://arxiv.org/abs/2406.01793v1 )

ライセンス: Link先を確認
Andreas Schlaginhaufen, Maryam Kamgarpour, (参考訳) 逆強化学習(IRL)は、専門家によるデモンストレーションから報酬を推し進めることを目的としており、その報酬は政策ではなく、最も簡潔で伝達可能なタスクの記述である(Ng et al, 2000)。 しかし、最適政策に対応する報酬はユニークではないため、その最適政策が専門家の真の報酬に対応する最適政策と一致しているという意味で、IRLが引き起こした報酬が新しい移行法に転送可能であるかどうかは不明である。 過去の研究は、専門家の方針に完全にアクセスできるという前提の下でのみこの問題に対処しており、同じ報酬を持つ2人の専門家から学びながら、特定の階級条件を満たす異なる移行法則(ローランド等、2022年)を学ぶ際に、移行可能性を保証する。 本研究は,専門家の方針に完全にアクセスして開発された条件が,専門家のデモンストレーションにのみアクセス可能なより実践的なシナリオにおいて,伝達可能性を保証することができないことを示す。 双対階数条件の代わりに、遷移法則間の類似性と相似性のより洗練された尺度として主角を提案する。 これに基づいて、我々は2つの重要な結果を確立する。 1) 十分に異なる移行法則を有する少なくとも2人の専門家から学ぶ際に、移行法則への移転可能性に関する十分な条件 2 一人の専門家から学ぶとき、移行法における局所的な変更に対する移転可能性の十分な条件。 さらに,複数の専門家のデモンストレーションから伝達可能な報酬を学習するための,ほぼ正しいPACアルゴリズムとエンドツーエンド分析も提供する。

Inverse reinforcement learning (IRL) aims to infer a reward from expert demonstrations, motivated by the idea that the reward, rather than the policy, is the most succinct and transferable description of a task [Ng et al., 2000]. However, the reward corresponding to an optimal policy is not unique, making it unclear if an IRL-learned reward is transferable to new transition laws in the sense that its optimal policy aligns with the optimal policy corresponding to the expert's true reward. Past work has addressed this problem only under the assumption of full access to the expert's policy, guaranteeing transferability when learning from two experts with the same reward but different transition laws that satisfy a specific rank condition [Rolland et al., 2022]. In this work, we show that the conditions developed under full access to the expert's policy cannot guarantee transferability in the more practical scenario where we have access only to demonstrations of the expert. Instead of a binary rank condition, we propose principal angles as a more refined measure of similarity and dissimilarity between transition laws. Based on this, we then establish two key results: 1) a sufficient condition for transferability to any transition laws when learning from at least two experts with sufficiently different transition laws, and 2) a sufficient condition for transferability to local changes in the transition law when learning from a single expert. Furthermore, we also provide a probably approximately correct (PAC) algorithm and an end-to-end analysis for learning transferable rewards from demonstrations of multiple experts.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# ブロックチェーン検証器のジレンマに対するPeer-Predictionソリューションは2つ

It Takes Two: A Peer-Prediction Solution for Blockchain Verifier's Dilemma ( http://arxiv.org/abs/2406.01794v1 )

ライセンス: Link先を確認
Zishuo Zhao, Xi Chen, Yuan Zhou, (参考訳) ブロックチェーンシステムのセキュリティは、基本的には、大多数の当事者が誠実に振る舞う分散コンセンサスに基づいており、ブロックチェーンシステムの堅牢性を維持するためには、コンテンツ検証のプロセスが不可欠である。 しかし、不正行為者が少ない、あるいは全くないセキュアなブロックチェーンシステムが、検証者が正直に検証を行うのに十分なインセンティブを与えられないという現象は、検証者のジレンマと呼ばれ、ブロックチェーンシステムの基本的なセキュリティを著しく損なう可能性がある。 既存の研究は遅延検証の非インセンティブ化のために意図的にエラーを挿入しようと試みているが、分散環境は検証の正しさを判断したり、悪意のある検証を直接検出することは不可能である。 本稿では,複数の検証者間での分散検証ゲームのためのベイズ的真理機構の設計に対するピア予測手法を活用する研究を開始し,検証プロセスにおけるノイズ観測の存在下においても,基礎的真理にアクセスせずに誠実な検証を行うよう,検証者全員にインセンティブを与える。 理論的に検証ゲームのメカニズムの真実性を保証することで、当社の作業は、ブロックチェーンやその他の分散システムのセキュリティと堅牢性を向上する検証メカニズムのフレームワークを提供します。

The security of blockchain systems is fundamentally based on the decentralized consensus in which the majority of parties behave honestly, and the process of content verification is essential to keep the robustness of blockchain systems. However, the phenomenon that a secure blockchain system with few or no cheaters could not provide sufficient incentive for verifiers to honestly perform the costly verification, referred to as the Verifier's Dilemma, could severely undermine the fundamental security of blockchain systems. While existing works have attempted to insert deliberate errors to disincentivize lazy verification, the decentralized environment makes it impossible to judge the correctness of verification or detect malicious verifiers directly. In this paper, we initiate the research that leverages the peer prediction approach towards the design of Bayesian truthful mechanisms for the decentralized verification game among multiple verifiers, incentivizing all verifiers to perform honest verification without access to the ground truth even in the presence of noisy observations in the verification process. With theoretically guaranteed truthfulness of our mechanism for the verification game, our work provides a framework of verification mechanisms that enhances the security and robustness of the blockchain and potentially other decentralized systems.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# 連続的視力計測における撮影・移動の実証的影響

The Empirical Impact of Forgetting and Transfer in Continual Visual Odometry ( http://arxiv.org/abs/2406.01797v1 )

ライセンス: Link先を確認
Paolo Cudrano, Xiaoyu Luo, Matteo Matteucci, (参考訳) ロボティクスが進歩を続けるにつれ、適応的で継続的な学習を行うエージェントの必要性が高まり、特に補助ロボティクスの領域ではその必要性が高まっている。 迅速な適応性と長期情報保持は、人間の日常生活に典型的な動的な環境での運用に不可欠である。 そのため、生涯学習パラダイムが必要であるが、現在のロボティクス文献ではほとんど扱われていない。 本研究は, 連続的にトレーニングされたニューラルネットワークにおいて, 破滅的記憶の影響と, 知識伝達の有効性を実験的に検討した。 我々は, 自己局在化の実現において, エンボディエージェントが重要な役割を担う視覚計測の課題に焦点をあてる。 本研究は,屋内空間間の離散的な遷移の簡易な連続シナリオを,異なるアパートをナビゲートするロボットと類似した実験である。 本体制では,環境間の移動性が高い初期満足度性能を観察し,その後,モデルが一般化を犠牲にして現在の環境固有の知識を優先する特殊化段階を呈する。 従来の正規化戦略とモデル容量の増加は、この現象を緩和するのに効果がないことを証明している。 リハーサルは軽度に有益だが、かなりのメモリコストがかかる。 動作情報を組み込むことは、具体的設定で一般的に行われるように、より早く収束しやすくするが、特殊化を悪化させるので、モデルは動きの期待に過度に依存し、視覚的手がかりを正しく解釈することができない。 これらの知見は、生涯ロボット工学における適応と記憶保持のバランスをとることのオープンな課題を強調し、生涯パラダイムの実施に関する貴重な洞察をエンボディエージェントに適用することに貢献した。

As robotics continues to advance, the need for adaptive and continuously-learning embodied agents increases, particularly in the realm of assistance robotics. Quick adaptability and long-term information retention are essential to operate in dynamic environments typical of humans' everyday lives. A lifelong learning paradigm is thus required, but it is scarcely addressed by current robotics literature. This study empirically investigates the impact of catastrophic forgetting and the effectiveness of knowledge transfer in neural networks trained continuously in an embodied setting. We focus on the task of visual odometry, which holds primary importance for embodied agents in enabling their self-localization. We experiment on the simple continual scenario of discrete transitions between indoor locations, akin to a robot navigating different apartments. In this regime, we observe initial satisfactory performance with high transferability between environments, followed by a specialization phase where the model prioritizes current environment-specific knowledge at the expense of generalization. Conventional regularization strategies and increased model capacity prove ineffective in mitigating this phenomenon. Rehearsal is instead mildly beneficial but with the addition of a substantial memory cost. Incorporating action information, as commonly done in embodied settings, facilitates quicker convergence but exacerbates specialization, making the model overly reliant on its motion expectations and less adept at correctly interpreting visual cues. These findings emphasize the open challenges of balancing adaptation and memory retention in lifelong robotics and contribute valuable insights into the application of a lifelong paradigm on embodied agents.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# 人口動態のオンライン制御

Online Control in Population Dynamics ( http://arxiv.org/abs/2406.01799v1 )

ライセンス: Link先を確認
Noah Golowich, Elad Hazan, Zhou Lu, Dhruv Rohatgi, Y. Jennifer Sun, (参考訳) 人口動態の研究は初期の社会学的な著作(Malthus, 1872)から始まったが、その後生物学、疫学、進化ゲーム理論、経済学など多くの分野に及んだ。 人口動態に関するほとんどの研究は、制御よりも予測の問題に焦点を当てている。 既存の人口制御の数学的モデルは、しばしば特定のノイズのない力学に制限されるが、現実の人口変動は複雑で敵対的である。 このギャップに対処するために,オンライン制御のパラダイムに基づく新しいフレームワークを提案する。 まず、進化する個体群を自然にモデル化できる線形力学系の集合を特徴づける。 次に、これらのシステムに対して、線形ポリシーの幅広いクラスに関して、ほぼ最適な後悔境界を持つ効率的な勾配ベースの制御を与える。 実験により,SIRやレプリケータダイナミクスなどの非線形モデルにおいても,提案アルゴリズムによる個体群制御の有効性が示された。

The study of population dynamics originated with early sociological works (Malthus, 1872) but has since extended into many fields, including biology, epidemiology, evolutionary game theory, and economics. Most studies on population dynamics focus on the problem of prediction rather than control. Existing mathematical models for population control are often restricted to specific, noise-free dynamics, while real-world population changes can be complex and adversarial. To address this gap, we propose a new framework based on the paradigm of online control. We first characterize a set of linear dynamical systems that can naturally model evolving populations. We then give an efficient gradient-based controller for these systems, with near-optimal regret bounds with respect to a broad class of linear policies. Our empirical evaluations demonstrate the effectiveness of the proposed algorithm for population control even in non-linear models such as SIR and replicator dynamics.
翻訳日:2024-06-05 20:52:25 公開日:2024-06-03
# 期待伝播におけるFearless Stochasticity

Fearless Stochasticity in Expectation Propagation ( http://arxiv.org/abs/2406.01801v1 )

ライセンス: Link先を確認
Jonathan So, Richard E. Turner, (参考訳) 予測伝搬 (EP) は確率論的モデルにおいて近似推論を行うアルゴリズムの一群である。 EPの更新には、モンテカルロ(MC)のサンプルから推定できるモーメント(特定の機能の期待)の評価が含まれる。 しかし、更新は直感的に行うとMCノイズに対して堅牢ではなく、様々な先行研究が様々な方法でこの問題に対処しようと試みている。 本研究では,EPのモーメントマッチング更新に対する新たな視点,すなわち,変動目的の自然な漸進的最適化を実現することを提案する。 我々はこの洞察を用いて2つの新しいEP変異体を動機付け、特にMC推定に適した更新を行い、安定であり、単一のサンプルで見積もると最もサンプル効率が高い。 これらの新しいバリエーションは、前者の利点と重要な弱点に対処するものである。 特に、チューニングが容易で、スピード精度の向上されたトレードオフを提供し、デバイアス推定器の使用に依存しない。 様々な確率的推論タスクにおいて有効性を示す。

Expectation propagation (EP) is a family of algorithms for performing approximate inference in probabilistic models. The updates of EP involve the evaluation of moments -- expectations of certain functions -- which can be estimated from Monte Carlo (MC) samples. However, the updates are not robust to MC noise when performed naively, and various prior works have attempted to address this issue in different ways. In this work, we provide a novel perspective on the moment-matching updates of EP; namely, that they perform natural-gradient-based optimisation of a variational objective. We use this insight to motivate two new EP variants, with updates that are particularly well-suited to MC estimation; they remain stable and are most sample-efficient when estimated with just a single sample. These new variants combine the benefits of their predecessors and address key weaknesses. In particular, they are easier to tune, offer an improved speed-accuracy trade-off, and do not rely on the use of debiasing estimators. We demonstrate their efficacy on a variety of probabilistic inference tasks.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# TabMDA: In-context Subsetting を用いた変換器を用いた任意の分類器に対するタブラルマニフォールドデータ拡張

TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting ( http://arxiv.org/abs/2406.01805v1 )

ライセンス: Link先を確認
Andrei Margeloiu, Adrián Bazaga, Nikola Simidjievski, Pietro Liò, Mateja Jamnik, (参考訳) タブラルデータは多くの臨界領域で広く使われているが、大量に取得することはしばしば困難である。 この不足は、通常、そのようなデータ上での機械学習モデルの性能の低下をもたらす。 データ拡張(Data Augmentation)は、視覚と言語タスクのパフォーマンス向上のための一般的な戦略であり、通常、入力空間に明示的な対称性が欠如しているため、表形式のデータではパフォーマンスが低下する。 この課題を克服するために,表データの多様体データ拡張法であるTabMDAを導入する。 この方法は、TabPFNのような事前訓練されたインコンテキストモデルを使用して、データを多様体空間にマッピングする。 TabMDAは、さまざまなコンテキストでデータを複数回エンコードすることで、ラベル不変変換を実行する。 このプロセスは、基礎となるインコンテキストモデルの多様体を探索し、トレーニングデータセットを拡大する。 TabMDAはトレーニング不要のメソッドであり、任意の分類器に適用できる。 我々は,5つの標準分類器上でTabMDAを評価し,様々な表付きデータセット間での大幅な性能向上を観察した。 この結果から,TabMDAは,事前学習したテキスト内モデルの情報を有効活用し,下流の分類器の性能を向上させることができることを示した。

Tabular data is prevalent in many critical domains, yet it is often challenging to acquire in large quantities. This scarcity usually results in poor performance of machine learning models on such data. Data augmentation, a common strategy for performance improvement in vision and language tasks, typically underperforms for tabular data due to the lack of explicit symmetries in the input space. To overcome this challenge, we introduce TabMDA, a novel method for manifold data augmentation on tabular data. This method utilises a pre-trained in-context model, such as TabPFN, to map the data into a manifold space. TabMDA performs label-invariant transformations by encoding the data multiple times with varied contexts. This process explores the manifold of the underlying in-context models, thereby enlarging the training dataset. TabMDA is a training-free method, making it applicable to any classifier. We evaluate TabMDA on five standard classifiers and observe significant performance improvements across various tabular datasets. Our results demonstrate that TabMDA provides an effective way to leverage information from pre-trained in-context models to enhance the performance of downstream classifiers.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# 文脈型シーケンスの類似性:自然言語生成における信頼度向上

Contextualized Sequence Likelihood: Enhanced Confidence Scores for Natural Language Generation ( http://arxiv.org/abs/2406.01806v1 )

ライセンス: Link先を確認
Zhen Lin, Shubhendu Trivedi, Jimeng Sun, (参考訳) 大規模言語モデル(LLM)の出現は、多くの自然言語生成タスクにおいて、最先端の技術を劇的に進歩させてきた。 LLMを確実に適用するには、その信頼性を正確に測定することが不可欠である。 現在最も一般的に使われている信頼スコア関数は、生成されたシーケンスの確率であり、セマンティックおよび構文成分を混同している。 例えば、質問応答(QA)タスクでは、正しい答えの曖昧な表現は、より低い確率予測をもたらす。 さらに、異なるトークンはコンテキストによって異なる重み付けをすべきである。 本研究では,LLMから抽出した注目値を用いて,様々なトークンに異なる重みを割り当てることで,予測シーケンスの確率を向上させることを提案する。 検証セットを用いることで、関連する注意ヘッドを識別し、バニラシーケンスの確率信頼度測定の信頼性を大幅に向上させることができる。 我々は、この新しいスコアをContextualized Sequence Likelihood (CSL)と呼ぶ。 CSLは実装が容易で、高速で計算でき、タスク固有のプロンプトでさらに改善する可能性がある。 いくつかのQAデータセットと多種多様なLLMの範囲で、CSLはAUROCやAUARCで測定されたように、生成品質の予測において最先端のベースラインよりもはるかに高い信頼性を示している。

The advent of large language models (LLMs) has dramatically advanced the state-of-the-art in numerous natural language generation tasks. For LLMs to be applied reliably, it is essential to have an accurate measure of their confidence. Currently, the most commonly used confidence score function is the likelihood of the generated sequence, which, however, conflates semantic and syntactic components. For instance, in question-answering (QA) tasks, an awkward phrasing of the correct answer might result in a lower probability prediction. Additionally, different tokens should be weighted differently depending on the context. In this work, we propose enhancing the predicted sequence probability by assigning different weights to various tokens using attention values elicited from the base LLM. By employing a validation set, we can identify the relevant attention heads, thereby significantly improving the reliability of the vanilla sequence probability confidence measure. We refer to this new score as the Contextualized Sequence Likelihood (CSL). CSL is easy to implement, fast to compute, and offers considerable potential for further improvement with task-specific prompts. Across several QA datasets and a diverse array of LLMs, CSL has demonstrated significantly higher reliability than state-of-the-art baselines in predicting generation quality, as measured by the AUROC or AUARC.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# 物理特性の文脈内学習:分布外分子グラフへのFew-Shot適応

In-Context Learning of Physical Properties: Few-Shot Adaptation to Out-of-Distribution Molecular Graphs ( http://arxiv.org/abs/2406.01808v1 )

ライセンス: Link先を確認
Grzegorz Kaszuba, Amirhossein D. Naghdi, Dario Massa, Stefanos Papanikolaou, Andrzej Jaszkiewicz, Piotr Sankowski, (参考訳) 大規模な言語モデルでは、提供されたサンプルのシーケンスへの少数ショット適応の能力を示す。 この振る舞いは、インコンテキスト学習(in-context learning)として知られるもので、推論中のみに非自明な機械学習タスクを実行することができる。 この研究で、我々は、イン・コンテクスト・ラーニングを利用して、配布外物質特性を予測できるだろうか? しかし、効率的な手法が変圧器モデルに原子レベルの幾何学的特徴を渡すことがなければ、構造特性予測タスクでは不可能である。 この問題に対処するために、GPT-2が幾何認識型グラフニューラルネットワークの出力に作用し、コンテキスト内情報に適応する複合モデルを用いる。 モデルの能力を実証するために、QM9データセットを共通のサブ構造を共有する分子列に分割し、コンテキスト内学習に使用します。 このアプローチは, 一般グラフニューラルネットワークモデルを上回る分布外例において, モデルの性能を著しく向上させる。

Large language models manifest the ability of few-shot adaptation to a sequence of provided examples. This behavior, known as in-context learning, allows for performing nontrivial machine learning tasks during inference only. In this work, we address the question: can we leverage in-context learning to predict out-of-distribution materials properties? However, this would not be possible for structure property prediction tasks unless an effective method is found to pass atomic-level geometric features to the transformer model. To address this problem, we employ a compound model in which GPT-2 acts on the output of geometry-aware graph neural networks to adapt in-context information. To demonstrate our model's capabilities, we partition the QM9 dataset into sequences of molecules that share a common substructure and use them for in-context learning. This approach significantly improves the performance of the model on out-of-distribution examples, surpassing the one of general graph neural network models.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# ゲノミクス概要統計の共有におけるプライバシとユーティリティのトレードオフに対するゲーム理論的アプローチ

A Game-Theoretic Approach to Privacy-Utility Tradeoff in Sharing Genomic Summary Statistics ( http://arxiv.org/abs/2406.01811v1 )

ライセンス: Link先を確認
Tao Zhang, Rajagopal Venkatesaramani, Rajat K. De, Bradley A. Malin, Yevgeniy Vorobeychik, (参考訳) オンラインゲノミクスデータ共有サービスの出現は、サマリ統計などの遺伝的変異に関するクエリーを許可し、スプリケートなゲノム変異と臨床的意義を区別するケアプロバイダを支援することによって、大きなゲノムデータセットのアクセシビリティを高めることを目指している。 しかし、多くの研究は、要約ゲノム情報を共有することでさえ、そのようなデータセットの個々のメンバーを、メンバーシップ推論攻撃による重大なプライバシーリスクに晒すことを実証している。 ノイズを追加したり、共有する情報の量を減らしたりすることでプライバシーリスクを減らすいくつかのアプローチが出現しているが、これらは通常、比例テスト(LRT)統計を用いた非適応攻撃を前提としている。 本稿では,ゲノムサマリー統計の共有において,最適なプライバシ・ユーティリティ・トレードオフのためのベイズゲーム理論フレームワークを提案する。 我々の最初の貢献は、我々のゲーム理論的アプローチを定着させる非常に一般的なベイズ攻撃モデルが従来のLRTベースの脅威モデルよりも強力であることを証明することである。 攻撃者が非インフォームティブな主観的前者を用いた場合であっても、これは事実であることを示す。 次に,ベイズ攻撃と任意の主観的先行点と,微分プライバシーフレームワークに共通するガウス機構の下でのナイマン・ピアソン最適LRT攻撃との比較を行う。 最後に、ディープニューラルネットワーク生成器を用いてプレイヤーのベイズ・ナッシュ均衡を近似し、プレイヤーの混合戦略を暗黙的に表現する手法を提案する。 実験により,提案したゲーム理論の枠組みは,最先端技術よりも強力な攻撃と強力な防衛戦略をもたらすことが示された。

The advent of online genomic data-sharing services has sought to enhance the accessibility of large genomic datasets by allowing queries about genetic variants, such as summary statistics, aiding care providers in distinguishing between spurious genomic variations and those with clinical significance. However, numerous studies have demonstrated that even sharing summary genomic information exposes individual members of such datasets to a significant privacy risk due to membership inference attacks. While several approaches have emerged that reduce privacy risks by adding noise or reducing the amount of information shared, these typically assume non-adaptive attacks that use likelihood ratio test (LRT) statistics. We propose a Bayesian game-theoretic framework for optimal privacy-utility tradeoff in the sharing of genomic summary statistics. Our first contribution is to prove that a very general Bayesian attacker model that anchors our game-theoretic approach is more powerful than the conventional LRT-based threat models in that it induces worse privacy loss for the defender who is modeled as a von Neumann-Morgenstern (vNM) decision-maker. We show this to be true even when the attacker uses a non-informative subjective prior. Next, we present an analytically tractable approach to compare the Bayesian attacks with arbitrary subjective priors and the Neyman-Pearson optimal LRT attacks under the Gaussian mechanism common in differential privacy frameworks. Finally, we propose an approach for approximating Bayes-Nash equilibria of the game using deep neural network generators to implicitly represent player mixed strategies. Our experiments demonstrate that the proposed game-theoretic framework yields both stronger attacks and stronger defense strategies than the state of the art.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# シリコンマイクロリング共振器非線形性に基づく時間遅延貯留層計算のメモリ容量解析

Memory Capacity Analysis of Time-delay Reservoir Computing Based on Silicon Microring Resonator Nonlinearities ( http://arxiv.org/abs/2406.01812v1 )

ライセンス: Link先を確認
Bernard J. Giron Castro, Christophe Peucheret, Francesco Da Ros, (参考訳) シリコンマイクロリング共振器(MRR)はフォトニック貯水池計算(RC)方式の非線形ノードとして機能する可能性が強い。 自由キャリア分散(FCD)や熱光学効果(TO)の影響などシリコンMRR内の非線形性を利用することで、RCの入力データを高次元空間にマッピングすることができる。 さらに、MRRのスルーとポートの間に外部導波路を追加することで、メモリを拡張したTDRC(Time-delay RC)を実装することができる。 スルーポートからの入力は、外部導波路によって印加された遅延がメモリを効果的に加算することでリングの加算ポートにフィードバックされる。 TDRCでは、ノードは時間内に多重化され、それぞれの時間進化がドロップポートで検出される。 MRRに基づくTDRCの性能は、MRRの非線形性の量に大きく依存する。 非線形効果は、その効果の寿命を決定するため、MRRの物理的性質に依存する。 もう一つの要因はMRR応答の安定性であり、ドロップポートにおける強い時間領域の不連続性は自己パルス(高い非線形挙動)によってFCD非線形性から生じることが知られている。 しかし、最適性能を達成するために、あるタスクにRCが必要とする正しい非線形性の定量化は困難である。 したがって、このTDRCセットアップの非線形力学を完全に理解するためには、さらなる解析が必要である。 本稿では, 先述したマイクロリング型TDRC方式の非線形・線形メモリ容量を, 発生したキャリアの時間定数とTO効果の熱の関数として定量化する。 本稿では,パラメータ空間を生成するTDRC力学の特性を,入力信号パワーと周波数調整範囲の観点から解析する。

Silicon microring resonators (MRRs) have shown strong potential in acting as the nonlinear nodes of photonic reservoir computing (RC) schemes. By using nonlinearities within a silicon MRR, such as the ones caused by free-carrier dispersion (FCD) and thermo-optic (TO) effects, it is possible to map the input data of the RC to a higher dimensional space. Furthermore, by adding an external waveguide between the through and add ports of the MRR, it is possible to implement a time-delay RC (TDRC) with enhanced memory. The input from the through port is fed back into the add port of the ring with the delay applied by the external waveguide effectively adding memory. In a TDRC, the nodes are multiplexed in time, and their respective time evolutions are detected at the drop port. The performance of MRR-based TDRC is highly dependent on the amount of nonlinearity in the MRR. The nonlinear effects, in turn, are dependent on the physical properties of the MRR as they determine the lifetime of the effects. Another factor to take into account is the stability of the MRR response, as strong time-domain discontinuities at the drop port are known to emerge from FCD nonlinearities due to self-pulsing (high nonlinear behaviour). However, quantifying the right amount of nonlinearity that RC needs for a certain task in order to achieve optimum performance is challenging. Therefore, further analysis is required to fully understand the nonlinear dynamics of this TDRC setup. Here, we quantify the nonlinear and linear memory capacity of the previously described microring-based TDRC scheme, as a function of the time constants of the generated carriers and the thermal of the TO effects. We analyze the properties of the TDRC dynamics that generate the parameter space, in terms of input signal power and frequency detuning range, over which conventional RC tasks can be satisfactorily performed by the TDRC scheme.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# 拡散隆起木

Diffusion Boosted Trees ( http://arxiv.org/abs/2406.01813v1 )

ライセンス: Link先を確認
Xizewen Han, Mingyuan Zhou, (参考訳) 拡散確率モデルと勾配促進モデルの両方の利点を組み合わせて、拡散促進パラダイムを導入し、教師付き学習問題に対処する。 本研究では,決定木によってパラメータ化される新たな拡散生成モデル(拡散時間ステップ毎に1本ずつの1本木)と,弱学習者を条件分布の強い学習者に組み合わせた新しいブースティングアルゴリズムを,その密度形式に関するパラメトリックな仮定を行うことなく開発する。 実験により,深層ニューラルネットワークに基づく拡散モデルに対するDBTの利点と,実世界の回帰タスクにおけるDBTの能力を示すとともに,遅延学習能力を備えた表データの分類のためのDBTのビジネスアプリケーション(詐欺検出)を提案する。

Combining the merits of both denoising diffusion probabilistic models and gradient boosting, the diffusion boosting paradigm is introduced for tackling supervised learning problems. We develop Diffusion Boosted Trees (DBT), which can be viewed as both a new denoising diffusion generative model parameterized by decision trees (one single tree for each diffusion timestep), and a new boosting algorithm that combines the weak learners into a strong learner of conditional distributions without making explicit parametric assumptions on their density forms. We demonstrate through experiments the advantages of DBT over deep neural network-based diffusion models as well as the competence of DBT on real-world regression tasks, and present a business application (fraud detection) of DBT for classification on tabular data with the ability of learning to defer.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# 教師なし細胞セグメンテーションのための深部非対称混合モデル

Deep asymmetric mixture model for unsupervised cell segmentation ( http://arxiv.org/abs/2406.01815v1 )

ライセンス: Link先を確認
Yang Nan, Guang Yang, (参考訳) 手指の脱線は過度に退屈で主観的であるため、疾患の診断や薬物発見において、細胞分画の自動化がますます重要になっている。 この問題を解決するために、研究者は半教師なしセグメンテーションアプローチを開発した。 これらのアプローチの中で、ディープガウス混合モデルは、複雑なデータ分散を促進する能力のために重要な役割を果たす。 しかし、これらのモデルは、データが対称正規分布に従うと仮定し、非対称分布のデータには適用できない。 これらのモデルもまた、一般化能力の弱い障害であり、外れ値に敏感である。 これらの問題に対処するために, 教師なし細胞分割のための新しい非対称混合モデルを提案する。 この非対称混合モデルは、ある多変量ガウス混合モデルをログ状および自己教師付き最適化関数で集約することによって構築される。 提案した非対称混合モデルは, セグメントを含むセルセグメンテーションにおける既存の非教師なしモデルよりも優れている(ダイス係数が約2-30%向上, p<0.05)。

Automated cell segmentation has become increasingly crucial for disease diagnosis and drug discovery, as manual delineation is excessively laborious and subjective. To address this issue with limited manual annotation, researchers have developed semi/unsupervised segmentation approaches. Among these approaches, the Deep Gaussian mixture model plays a vital role due to its capacity to facilitate complex data distributions. However, these models assume that the data follows symmetric normal distributions, which is inapplicable for data that is asymmetrically distributed. These models also obstacles weak generalization capacity and are sensitive to outliers. To address these issues, this paper presents a novel asymmetric mixture model for unsupervised cell segmentation. This asymmetric mixture model is built by aggregating certain multivariate Gaussian mixture models with log-likelihood and self-supervised-based optimization functions. The proposed asymmetric mixture model outperforms (nearly 2-30% gain in dice coefficient, p<0.05) the existing state-of-the-art unsupervised models on cell segmentation including the segment anything.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# 量子cpoのカテゴリ

Categories of quantum cpos ( http://arxiv.org/abs/2406.01816v1 )

ライセンス: Link先を確認
Andre Kornell, Bert Lindenhovius, Michael Mislove, (参考訳) 本論文は2つの研究線をまとめる。 1つ目は、量子プログラミング言語とその型システムの分類モデルを見つけることである。 第2の行は、これらの構造の非可換一般化(量子一般化とも呼ばれる)を見つけることにつながる数学的構造の量子化のプログラムに関するものである。 離散量子化と呼ばれる量子化法は、本質的にはフォン・ノイマン代数と量子関係の圏における構造の内部化に相当し、$\omega$-complete partial order (cpos) の非可換な一般化を見出す。 CPOはドメイン理論の中心であり、プログラミング言語の分類モデルを構築するために広く利用されている。 量子cposはcposに類似した分類特性を持ち、量子プログラミング言語の分類モデルの構築に適していることが、いくつかの例で示される。 このため、量子cposは将来の量子領域理論のバックボーンを形成することができる。

This paper unites two research lines. The first involves finding categorical models of quantum programming languages and their type systems. The second line concerns the program of quantization of mathematical structures, which amounts to finding noncommutative generalizations (also called quantum generalizations) of these structures. Using a quantization method called discrete quantization, which essentially amounts to the internalization of structures in a category of von Neumann algebras and quantum relations, we find a noncommutative generalization of $\omega$-complete partial orders (cpos), called quantum cpos. Cpos are central in domain theory, and are widely used to construct categorical models of programming languages. We show that quantum cpos have similar categorical properties to cpos and are therefore suitable for the construction of categorical models for quantum programming languages, which is illustrated with some examples. For this reason, quantum cpos may form the backbone of a future quantum domain theory.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# 教師なし学習と教師なし学習を併用した長期フェーン再建

Long-term foehn reconstruction combining unsupervised and supervised learning ( http://arxiv.org/abs/2406.01818v1 )

ライセンス: Link先を確認
Reto Stauffer, Achim Zeileis, Georg J. Mayr, (参考訳) 急激な気温上昇と風速変化を特徴とするフォーン・ウィンドは、山火事の広がりによって、山腹側(例:山火事)に著しく影響した。 気候変動の下でフォアーンがどのように変化するかを理解することが重要である。 残念ながら、フォアーンを直接測定することはできないが、適切な分類法を用いて気象観測から推定する必要がある。 したがって、このアプローチは通常、必要なデータが利用可能な特定の期間に限られる。 本稿では,教師なしおよび教師付き確率論的統計的学習法の組み合わせを用いて,歴史的フォアーン発生を再現する新しい手法を提案する。 本研究は,教師なし学習者(有限混合モデル)を訓練するためのin-situ測定(ここ数十年で利用可能)を利用する。 これらのラベル付きデータは、教師付き学習者(ラスソまたはブースティング)を使用して、再分析データ(長い期間をカバーする)にリンクされる。 これにより、分析データのみに基づいて過去のフォアーン確率を再構築することができる。 この手法をスイスとオーストリアの6つの駅のERA5の再解析データに適用すると、1940年に遡る北のフォアーンと南のフォアーンの正確な時間的復元が達成される。 このことは、過去83年間に季節的なフォアーンパターンがどのように進化してきたかを調査する方法であり、これらの臨界風事象に対する気候変動の影響についての貴重な洞察を与えてくれる。

Foehn winds, characterized by abrupt temperature increases and wind speed changes, significantly impact regions on the leeward side of mountain ranges, e.g., by spreading wildfires. Understanding how foehn occurrences change under climate change is crucial. Unfortunately, foehn cannot be measured directly but has to be inferred from meteorological measurements employing suitable classification schemes. Hence, this approach is typically limited to specific periods for which the necessary data are available. We present a novel approach for reconstructing historical foehn occurrences using a combination of unsupervised and supervised probabilistic statistical learning methods. We utilize in-situ measurements (available for recent decades) to train an unsupervised learner (finite mixture model) for automatic foehn classification. These labeled data are then linked to reanalysis data (covering longer periods) using a supervised learner (lasso or boosting). This allows to reconstruct past foehn probabilities based solely on reanalysis data. Applying this method to ERA5 reanalysis data for six stations across Switzerland and Austria achieves accurate hourly reconstructions of north and south foehn occurrence, respectively, dating back to 1940. This paves the way for investigating how seasonal foehn patterns have evolved over the past 83 years, providing valuable insights into climate change impacts on these critical wind events.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# データ駆動型スペクトルフォアサイト・プルーニングによる視覚モデルにおけるロッキーティケットの発見

Finding Lottery Tickets in Vision Models via Data-driven Spectral Foresight Pruning ( http://arxiv.org/abs/2406.01820v1 )

ライセンス: Link先を確認
Leonardo Iurada, Marco Ciccone, Tatiana Tommasi, (参考訳) ニューラルネットワークプルーニングの最近の進歩は、トレーニング前にディープラーニングモデルの計算コストとメモリ要求を削減できることを示している。 我々は,この枠組みに焦点をあて,ニューラルタンジェントカーネル(NTK)理論を利用して,スパースネットワークのトレーニングダイナミクスと高密度ネットワークのトレーニングダイナミクスを整合させる新しい初期化アルゴリズムを提案する。 具体的には、ニューラルネットワークを個別の経路に分解して得られたNTKのトレースに解析上界を与えることにより、NTKスペクトルの通常無視されるデータ依存成分を考慮に入れる方法を示す。 これはNTKのトレースに大きく影響するパラメータを保存するために設計された、先見的なプルーニング手法であるPath eXclusion(PX)につながります。 PXは、高い空き地でも宝くじ(つまり良い道)を見つけることができ、追加の訓練の必要性を大幅に減らすことができる。 事前訓練されたモデルに適用すると、いくつかの下流タスクで直接使用できるサブネットワークを抽出し、結果として高密度のタスクに匹敵するパフォーマンスを得るが、かなりのコストと計算コストを節約できる。 https://github.com/iurada/px-ntk-pruning

Recent advances in neural network pruning have shown how it is possible to reduce the computational costs and memory demands of deep learning models before training. We focus on this framework and propose a new pruning at initialization algorithm that leverages the Neural Tangent Kernel (NTK) theory to align the training dynamics of the sparse network with that of the dense one. Specifically, we show how the usually neglected data-dependent component in the NTK's spectrum can be taken into account by providing an analytical upper bound to the NTK's trace obtained by decomposing neural networks into individual paths. This leads to our Path eXclusion (PX), a foresight pruning method designed to preserve the parameters that mostly influence the NTK's trace. PX is able to find lottery tickets (i.e. good paths) even at high sparsity levels and largely reduces the need for additional training. When applied to pre-trained models it extracts subnetworks directly usable for several downstream tasks, resulting in performance comparable to those of the dense counterpart but with substantial cost and computational savings. Code available at: https://github.com/iurada/px-ntk-pruning
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# GPUによるルール評価と進化

GPU-Accelerated Rule Evaluation and Evolution ( http://arxiv.org/abs/2406.01821v1 )

ライセンス: Link先を確認
Hormoz Shahrzad, Risto Miikkulainen, (参考訳) 本稿では、進化的ルールに基づく機械学習(ERL)の効率性とスケーラビリティを高めるための革新的なアプローチを紹介する。 従来のERLシステムは複数のCPUに分散できるが、特に大規模なデータセットでは、候補ルールの適合性評価がボトルネックとなっている。 本稿では, AERL (Accelerated ERL) がこの問題を2つの方法で解決する手法を提案する。 まず、PyTorchフレームワーク内でのテンソル化表現によるGPU最適化ルールセットの採用により、AERLはボトルネックを緩和し、フィットネス評価を大幅に加速する。 第二に、AERLはバックプロパゲーションにより規則係数を微調整することでGPUをさらに活用し、探索空間探索を改善する。 実験的な証拠は、AERL検索がより速く、より効果的であることを確認し、説明可能な人工知能に力を与える。

This paper introduces an innovative approach to boost the efficiency and scalability of Evolutionary Rule-based machine Learning (ERL), a key technique in explainable AI. While traditional ERL systems can distribute processes across multiple CPUs, fitness evaluation of candidate rules is a bottleneck, especially with large datasets. The method proposed in this paper, AERL (Accelerated ERL) solves this problem in two ways. First, by adopting GPU-optimized rule sets through a tensorized representation within the PyTorch framework, AERL mitigates the bottleneck and accelerates fitness evaluation significantly. Second, AERL takes further advantage of the GPUs by fine-tuning the rule coefficients via back-propagation, thereby improving search space exploration. Experimental evidence confirms that AERL search is faster and more effective, thus empowering explainable artificial intelligence.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# 低条件独立試験による因果発見

Causal Discovery with Fewer Conditional Independence Tests ( http://arxiv.org/abs/2406.01823v1 )

ライセンス: Link先を確認
Kirankumar Shiragur, Jiaqi Zhang, Caroline Uhler, (参考訳) 科学における多くの疑問は、因果関係を理解するという根本的な問題に関するものである。 しかし、よく評価されたPCアルゴリズムを含むほとんどの制約ベースの因果探索アルゴリズムは、しばしば指数関数的な数の条件独立(CI)テストを引き起こし、様々なアプリケーションで制限を課している。 これに対応するために、当社の作業は、基礎となる因果グラフについて何が学べるかを、CIテストの数を減らすことで特徴づけることに重点を置いています。 隠れ因果グラフの粗い表現を多項式数で学習することは可能であることを示す。 この粗い表現はCausal Consistent Partition Graph (CCPG) と呼ばれ、頂点の分割と、そのコンポーネント上で定義された有向グラフからなる。 CCPGは、配向の一貫性と、より微細な分割を好む追加の制約を満たす。 さらに、因果グラフが識別可能であれば、根底にある因果グラフに還元される。 その結果,観測データと潜在的に追加的な介入によって因果グラフが完全に識別可能な場合において,真の因果グラフを多項式数で復元するための最初の効率的なアルゴリズムが得られた。

Many questions in science center around the fundamental problem of understanding causal relationships. However, most constraint-based causal discovery algorithms, including the well-celebrated PC algorithm, often incur an exponential number of conditional independence (CI) tests, posing limitations in various applications. Addressing this, our work focuses on characterizing what can be learned about the underlying causal graph with a reduced number of CI tests. We show that it is possible to a learn a coarser representation of the hidden causal graph with a polynomial number of tests. This coarser representation, named Causal Consistent Partition Graph (CCPG), comprises of a partition of the vertices and a directed graph defined over its components. CCPG satisfies consistency of orientations and additional constraints which favor finer partitions. Furthermore, it reduces to the underlying causal graph when the causal graph is identifiable. As a consequence, our results offer the first efficient algorithm for recovering the true causal graph with a polynomial number of tests, in special cases where the causal graph is fully identifiable through observational data and potentially additional interventions.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# EMOE:ロバストな不確実性に基づく拒絶のための専門家の広範囲なマッチング

EMOE: Expansive Matching of Experts for Robust Uncertainty Based Rejection ( http://arxiv.org/abs/2406.01825v1 )

ライセンス: Link先を確認
Yunni Qu, James Wellnitz, Alexander Tropsha, Junier Oliva, (参考訳) Expansive Matching of Experts (EMOE) は, アウト・オブ・ディストリビューション(OOD)点に基づく予測と不確実性に基づく拒絶を改善するために, サポート拡張, 補間的擬似ラベルを用いた新しい手法である。 本稿では,潜在空間におけるOODインスタンスを生成する拡張データ拡張手法と,擬似ラベル処理のための拡張拡張点をフィルタリングするための実証実験に基づくアプローチを提案する。 EMOEは、複数のベースエキスパートの多様なセットを、拡張データ上の擬似ラベルとして使用して、複数のヘッドを持つ共有MLP(専門家1人)を通じて、OODのパフォーマンスを改善する。 EMOEは表データの最先端手法に比べて優れた性能を示すことを示す。

Expansive Matching of Experts (EMOE) is a novel method that utilizes support-expanding, extrapolatory pseudo-labeling to improve prediction and uncertainty based rejection on out-of-distribution (OOD) points. We propose an expansive data augmentation technique that generates OOD instances in a latent space, and an empirical trial based approach to filter out augmented expansive points for pseudo-labeling. EMOE utilizes a diverse set of multiple base experts as pseudo-labelers on the augmented data to improve OOD performance through a shared MLP with multiple heads (one per expert). We demonstrate that EMOE achieves superior performance compared to state-of-the-art methods on tabular data.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# FacAID : 神経・筋肉のファサード再構築のためのトランスフォーマーモデル

FacAID: A Transformer Model for Neuro-Symbolic Facade Reconstruction ( http://arxiv.org/abs/2406.01829v1 )

ライセンス: Link先を確認
Aleksander Płocharski, Jan Swidzinski, Joanna Porter-Sobieraj, Przemyslaw Musialski, (参考訳) 本稿では, 階層型ファサード構造をカスタム設計のスプリット文法を用いて手続き的定義に変換するニューロシンボリックトランスフォーマーモデルを提案する。 そこで我々はまず,建築ファサードに適した半複素分割文法を開発し,それに対応する手続き表現とともにファサードからなるデータセットを生成する。 このデータセットはトランスモデルをトレーニングするために使われ、セグメント化された平坦なファサードを文法の手続き言語に変換する。 推論の間、この学習された変換を新しいファサードセグメンテーションに適用し、ユーザーが様々なファサードデザインを生成するように調整できる手続き的表現を提供する。 この方法は静的ファサード画像の動的で編集可能なプロシージャフォーマットへの変換を自動化するだけでなく、設計の柔軟性を高め、アーキテクトやデザイナによる変更やバリエーションを容易にする。 本手法は、手続き生成の精度とニューロシンボリック学習の適応性を組み合わせることで、ファサード設計の新たな標準を定めている。

We introduce a neuro-symbolic transformer-based model that converts flat, segmented facade structures into procedural definitions using a custom-designed split grammar. To facilitate this, we first develop a semi-complex split grammar tailored for architectural facades and then generate a dataset comprising of facades alongside their corresponding procedural representations. This dataset is used to train our transformer model to convert segmented, flat facades into the procedural language of our grammar. During inference, the model applies this learned transformation to new facade segmentations, providing a procedural representation that users can adjust to generate varied facade designs. This method not only automates the conversion of static facade images into dynamic, editable procedural formats but also enhances the design flexibility, allowing for easy modifications and variations by architects and designers. Our approach sets a new standard in facade design by combining the precision of procedural generation with the adaptability of neuro-symbolic learning.
翻訳日:2024-06-05 20:42:35 公開日:2024-06-03
# 人間-ロボットインタラクションシナリオにおけるマーカレス多人数追跡のためのロバストフィルタ

A Robust Filter for Marker-less Multi-person Tracking in Human-Robot Interaction Scenarios ( http://arxiv.org/abs/2406.01832v1 )

ライセンス: Link先を確認
Enrico Martini, Harshil Parekh, Shaoting Peng, Nicola Bombieri, Nadia Figueroa, (参考訳) 自然でマーカーのない人間-ロボットのインタラクション(HRI)は、物理的マーカーのないシームレスなコラボレーションのビジョンによって、長年にわたるロボット研究の焦点となっている。 マーカレスアプローチは、ユーザエクスペリエンスの向上を約束するが、人間のポーズ推定(HPE)とディープカメラにおける本質的なエラーによって引き起こされる課題に、最先端の技術は苦労する。 これらのエラーは、ロボットのジッタリングのような問題を引き起こす可能性がある。 本研究では,HPEバックボーンと1台のRGB-Dカメラから不完全な3Dポーズを洗練し,これらの課題に対処するフィルタパイプラインを提案する。 実験結果から,提案フィルタを用いることで,より一貫した雑音のない動きの表現が可能となり,予期せぬロボットの動きを低減し,よりスムーズな対話を可能にした。

Pursuing natural and marker-less human-robot interaction (HRI) has been a long-standing robotics research focus, driven by the vision of seamless collaboration without physical markers. Marker-less approaches promise an improved user experience, but state-of-the-art struggles with the challenges posed by intrinsic errors in human pose estimation (HPE) and depth cameras. These errors can lead to issues such as robot jittering, which can significantly impact the trust users have in collaborative systems. We propose a filtering pipeline that refines incomplete 3D human poses from an HPE backbone and a single RGB-D camera to address these challenges, solving for occlusions that can degrade the interaction. Experimental results show that using the proposed filter leads to more consistent and noise-free motion representation, reducing unexpected robot movements and enabling smoother interaction.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-03
# CAFO:時系列分類における特徴中心的説明

CAFO: Feature-Centric Explanation on Time Series Classification ( http://arxiv.org/abs/2406.01833v1 )

ライセンス: Link先を確認
Jaeho Kim, Seok-Ju Hahn, Yoontae Hwang, Junghye Lee, Seulki Lee, (参考訳) 多変量時系列分類(MTS)では、MTSデータの複雑で高次元の性質、複雑な時間ダイナミクス、ドメイン固有の解釈の必要性から、モデル性能の重要な特徴(例えばセンサ)を見つけることは極めて困難である。 MTSの現在の説明法は、主に時間中心の説明に焦点を当てており、重要な期間を特定できるが、重要な特徴を特定するのにはあまり効果がない。 この制限は、時間中心の分析を補完する重要で見過ごされがちな、機能中心のアプローチの必要性を浮き彫りにする。 このギャップを埋めるために,本稿ではCAFO(Channel Attention and Feature Orthgonalization)という,MCSのための特徴中心の説明・評価フレームワークを提案する。 CAFOは、チャネルアテンション機構を備えた畳み込みベースのアプローチを採用し、ディープワイドな分離可能なチャネルアテンションモジュール(DepCA)とQR分解に基づくロスを取り入れ、機能ワイドな直交性を促進する。 この直交化により、注意分布の分離性が向上し、特徴量のランク付けと安定化が図られる。 この機能的ランキングの改善は、MSSの機能的説明可能性の理解を高める。 さらに,グローバルな特徴とクラス固有の特徴の重要度を評価する指標を開発する。 我々のフレームワークの有効性は、2つの主要な公開ベンチマークと実世界のデータセットに関する広範な実証分析によって検証される。 MTS分類作業における特徴量評価におけるCAFOの頑健さと情報伝達能力を確認した。 本研究は,MTSにおける特徴中心的説明の理解を深めるだけでなく,特徴中心的説明の今後の探求の基盤となる。

In multivariate time series (MTS) classification, finding the important features (e.g., sensors) for model performance is crucial yet challenging due to the complex, high-dimensional nature of MTS data, intricate temporal dynamics, and the necessity for domain-specific interpretations. Current explanation methods for MTS mostly focus on time-centric explanations, apt for pinpointing important time periods but less effective in identifying key features. This limitation underscores the pressing need for a feature-centric approach, a vital yet often overlooked perspective that complements time-centric analysis. To bridge this gap, our study introduces a novel feature-centric explanation and evaluation framework for MTS, named CAFO (Channel Attention and Feature Orthgonalization). CAFO employs a convolution-based approach with channel attention mechanisms, incorporating a depth-wise separable channel attention module (DepCA) and a QR decomposition-based loss for promoting feature-wise orthogonality. We demonstrate that this orthogonalization enhances the separability of attention distributions, thereby refining and stabilizing the ranking of feature importance. This improvement in feature-wise ranking enhances our understanding of feature explainability in MTS. Furthermore, we develop metrics to evaluate global and class-specific feature importance. Our framework's efficacy is validated through extensive empirical analyses on two major public benchmarks and real-world datasets, both synthetic and self-collected, specifically designed to highlight class-wise discriminative features. The results confirm CAFO's robustness and informative capacity in assessing feature importance in MTS classification tasks. This study not only advances the understanding of feature-centric explanations in MTS but also sets a foundation for future explorations in feature-centric explanations.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-03
# ウィキペディアの可読性向上のためのオープン多言語システム

An Open Multilingual System for Scoring Readability of Wikipedia ( http://arxiv.org/abs/2406.01835v1 )

ライセンス: Link先を確認
Mykola Trokhymovych, Indira Sen, Martin Gerlach, (参考訳) 6000万以上の記事があり、ウィキペディアはオープンで自由にアクセスできる知識のための最大のプラットフォームになっている。 月間ビジター数は1500億を超えているが、テキストの読みやすさが欠如しているため、多くの読者にはアクセスできないと信じられている。 しかし、ウィキペディアの可読性に関する以前の調査は英語のみに限定されており、現在ウィキペディアの300以上の言語の自動可読性評価をサポートするシステムは存在しない。 このギャップを埋めるため、ウィキペディア記事の可読性を評価するための多言語モデルを構築した。 このモデルを訓練し、評価するために、ウィキペディアの論文を単純化したウィキペディアとオンライン児童百科事典にマッチングすることで、14言語にまたがる新しい多言語データセットを作成する。 ゼロショットのシナリオでは,14言語で80%以上のランキング精度が得られ,以前のベンチマークでは改善された。 これらの結果から, モデル微調整に利用できる基礎構造データがない言語に対して, 大規模に適用可能であることを示す。 さらに,ウィキペディアの可読性について,英語以外の文献で概説する。

With over 60M articles, Wikipedia has become the largest platform for open and freely accessible knowledge. While it has more than 15B monthly visits, its content is believed to be inaccessible to many readers due to the lack of readability of its text. However, previous investigations of the readability of Wikipedia have been restricted to English only, and there are currently no systems supporting the automatic readability assessment of the 300+ languages in Wikipedia. To bridge this gap, we develop a multilingual model to score the readability of Wikipedia articles. To train and evaluate this model, we create a novel multilingual dataset spanning 14 languages, by matching articles from Wikipedia to simplified Wikipedia and online children encyclopedias. We show that our model performs well in a zero-shot scenario, yielding a ranking accuracy of more than 80% across 14 languages and improving upon previous benchmarks. These results demonstrate the applicability of the model at scale for languages in which there is no ground-truth data available for model fine-tuning. Furthermore, we provide the first overview on the state of readability in Wikipedia beyond English.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-03
# トランスダクションによる視覚言語モデルの構築

Boosting Vision-Language Models with Transduction ( http://arxiv.org/abs/2406.01837v1 )

ライセンス: Link先を確認
Maxime Zanella, Benoît Gérin, Ismail Ben Ayed, (参考訳) トランスダクションは、ラベルのないデータの構造を利用して予測精度を高める強力なパラダイムである。 本稿では,視覚言語モデル(VLM)のための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。 TransCLIPは、一般的なインダクティブゼロおよび少数ショットモデルの上に、プラグイン・アンド・プレイモジュールとして適用でき、一貫してパフォーマンスを改善している。 我々の新たな目的関数は、テキストエンコーダの知識を統合し、トランスダクティブ学習プロセスを導くKL発散ペナルティによって制約された、正規化された最大類似度推定と見なすことができる。 さらに,BMM(Block Majorize-Minimize)手順の反復的導出を行い,コンバージェンスとデカップリングされたサンプルアサインメントの更新を保証し,大規模データセットに対する計算効率のよいトランスダクションを実現する。 以下に示すような総合的な評価、比較、アブレーション研究について報告する。 一 トランスダクションは、誘導事前訓練されたゼロ及び少数ショットVLMの一般化能力を大幅に向上させることができる。 (II)TransCLIPは,KL言語制約による視覚的特徴のみに頼って,標準的なトランスダクティブな少数ショット学習手法を著しく上回っている。

Transduction is a powerful paradigm that leverages the structure of unlabeled data to boost predictive accuracy. We present TransCLIP, a novel and computationally efficient transductive approach designed for Vision-Language Models (VLMs). TransCLIP is applicable as a plug-and-play module on top of popular inductive zero- and few-shot models, consistently improving their performances. Our new objective function can be viewed as a regularized maximum-likelihood estimation, constrained by a KL divergence penalty that integrates the text-encoder knowledge and guides the transductive learning process. We further derive an iterative Block Majorize-Minimize (BMM) procedure for optimizing our objective, with guaranteed convergence and decoupled sample-assignment updates, yielding computationally efficient transduction for large-scale datasets. We report comprehensive evaluations, comparisons, and ablation studies that demonstrate: (i) Transduction can greatly enhance the generalization capabilities of inductive pretrained zero- and few-shot VLMs; (ii) TransCLIP substantially outperforms standard transductive few-shot learning methods relying solely on vision features, notably due to the KL-based language constraint.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-03
# 関数空間におけるターゲットネットワークの学習

Learning the Target Network in Function Space ( http://arxiv.org/abs/2406.01838v1 )

ライセンス: Link先を確認
Kavosh Asadi, Yao Liu, Shoham Sabach, Ming Yin, Rasool Fakoor, (参考訳) 本稿では,強化学習(RL)における価値関数の学習に焦点をあてる。 この課題は、オンラインネットワークとターゲットネットワークのペアを更新し、これらの2つのネットワークのパラメータが等価であることを保証することで解決されることが多い。 このパラメータ空間同値性に依存しない新しい値関数近似アルゴリズムであるLookahead-Replicate (LR)を提案する。 代わりに、LRアルゴリズムは関数空間における2つのネットワーク間の等価性を維持するように設計されている。 この値ベースの等価性は、新しいターゲットネットワーク更新を用いて得られる。 LRは値関数の学習において収束挙動をもたらすことを示す。 また、LRベースのターゲットネットワーク更新により、Atariベンチマークの深いRLが大幅に改善されることを示す実験結果を示す。

We focus on the task of learning the value function in the reinforcement learning (RL) setting. This task is often solved by updating a pair of online and target networks while ensuring that the parameters of these two networks are equivalent. We propose Lookahead-Replicate (LR), a new value-function approximation algorithm that is agnostic to this parameter-space equivalence. Instead, the LR algorithm is designed to maintain an equivalence between the two networks in the function space. This value-based equivalence is obtained by employing a new target-network update. We show that LR leads to a convergent behavior in learning the value function. We also present empirical results demonstrating that LR-based target-network updates significantly improve deep RL on the Atari benchmark.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-03
# GraphWeaver: 数十億ドル規模のサイバーセキュリティインシデント相関

GraphWeaver: Billion-Scale Cybersecurity Incident Correlation ( http://arxiv.org/abs/2406.01842v1 )

ライセンス: Link先を確認
Scott Freitas, Amir Gharib, (参考訳) 大企業のサイバーセキュリティの動的な状況では、何十億ものセキュリティアラートを包括的インシデントに正確かつ効率的に関連付けることが大きな課題である。 伝統的な相関技術は、しばしば保守、スケーリング、新しい脅威やテレメトリの新たな源への適応に苦しむ。 GraphWeaverは、従来のインシデント相関プロセスを、データ最適化されたジオ分散グラフベースのアプローチに移行する、業界規模のフレームワークです。 GraphWeaverは、数十万の企業にまたがる数十億の共有エビデンスアラートに関連する複雑さを扱うために、一連のイノベーションを紹介している。 これらのイノベーションの鍵となるのは、大規模データ処理のためのジオ分散データベースとPySpark分析エンジン、相関ストレージを最適化する最小のスパンニングツリーアルゴリズム、セキュリティドメイン知識と脅威インテリジェンスの統合、重要な相関プロセスとパラメータを継続的に洗練するヒューマン・イン・ザ・ループフィードバックシステムである。 GraphWeaverはMicrosoft Defender XDR製品に統合され、世界中のデプロイされ、顧客からのフィードバックとセキュリティ専門家による広範な調査によって確認されたように、何十億もの相関を99%の精度で処理している。 この統合は高い相関精度を維持しただけでなく、従来の相関ストレージの要求を7.4倍削減した。 GraphWeaverの重要な設計と運用機能の詳細な概要を提供し、このレベルでこれらの重要な機能をオープンに議論する最初のサイバーセキュリティ企業として、前例を定めています。

In the dynamic landscape of large enterprise cybersecurity, accurately and efficiently correlating billions of security alerts into comprehensive incidents is a substantial challenge. Traditional correlation techniques often struggle with maintenance, scaling, and adapting to emerging threats and novel sources of telemetry. We introduce GraphWeaver, an industry-scale framework that shifts the traditional incident correlation process to a data-optimized, geo-distributed graph based approach. GraphWeaver introduces a suite of innovations tailored to handle the complexities of correlating billions of shared evidence alerts across hundreds of thousands of enterprises. Key among these innovations are a geo-distributed database and PySpark analytics engine for large-scale data processing, a minimum spanning tree algorithm to optimize correlation storage, integration of security domain knowledge and threat intelligence, and a human-in-the-loop feedback system to continuously refine key correlation processes and parameters. GraphWeaver is integrated into the Microsoft Defender XDR product and deployed worldwide, handling billions of correlations with a 99% accuracy rate, as confirmed by customer feedback and extensive investigations by security experts. This integration has not only maintained high correlation accuracy but reduces traditional correlation storage requirements by 7.4x. We provide an in-depth overview of the key design and operational features of GraphWeaver, setting a precedent as the first cybersecurity company to openly discuss these critical capabilities at this level of depth.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-03
# L-MAGIC:コヒーレンスを用いた画像生成支援言語モデル

L-MAGIC: Language Model Assisted Generation of Images with Coherence ( http://arxiv.org/abs/2406.01843v1 )

ライセンス: Link先を確認
Zhipeng Cai, Matthias Mueller, Reiner Birkl, Diana Wofk, Shao-Yen Tseng, JunDa Cheng, Gabriela Ben-Melech Stan, Vasudev Lal, Michael Paulitsch, (参考訳) 生成AIのブレークスルーの時代において、単一の入力画像からパノラマシーンを生成することは、依然として重要な課題である。 既存のほとんどのメソッドは拡散に基づく反復的もしくは同時多視点インペイントを使用する。 しかし、グローバルなシーンレイアウトの事前が欠如しているため、重複したオブジェクト(例えば、寝室の複数のベッド)をサブパー出力したり、ビューごとに人間のテキスト入力に時間を要する。 L-MAGICは,360度パノラマシーンの複数のコヒーレントなビューを拡散しながら,大規模言語モデルを利用した指導手法を提案する。 L-MAGICは、微調整なしで事前訓練された拡散と言語モデルを利用し、ゼロショット性能を保証する。 出力品質は超解像・多視点融合技術によりさらに向上する。 大規模な実験により、パノラマシーンは、人間の評価において70%以上の選好で、関連する作品と比較して、シーンレイアウトと視点表示の質が向上していることが示された。 条件付き拡散モデルと組み合わせることで、L-MAGICはテキスト、深度マップ、スケッチ、色付きスクリプトなど、様々な入力モダリティを受け入れることができる。 さらに深度推定を適用することで、3Dポイントクラウドの生成と流体カメラモーションによる動的シーン探索が可能になる。 コードはhttps://github.com/IntelLabs/MMPano.comで入手できる。 ビデオプレゼンテーションはhttps://youtu.be/XDMNEzH4-Ec? list=PLG9Zyvu7iBa0-a7ccNLO8LjcVRAoMn57s。

In the current era of generative AI breakthroughs, generating panoramic scenes from a single input image remains a key challenge. Most existing methods use diffusion-based iterative or simultaneous multi-view inpainting. However, the lack of global scene layout priors leads to subpar outputs with duplicated objects (e.g., multiple beds in a bedroom) or requires time-consuming human text inputs for each view. We propose L-MAGIC, a novel method leveraging large language models for guidance while diffusing multiple coherent views of 360 degree panoramic scenes. L-MAGIC harnesses pre-trained diffusion and language models without fine-tuning, ensuring zero-shot performance. The output quality is further enhanced by super-resolution and multi-view fusion techniques. Extensive experiments demonstrate that the resulting panoramic scenes feature better scene layouts and perspective view rendering quality compared to related works, with >70% preference in human evaluations. Combined with conditional diffusion models, L-MAGIC can accept various input modalities, including but not limited to text, depth maps, sketches, and colored scripts. Applying depth estimation further enables 3D point cloud generation and dynamic scene exploration with fluid camera motion. Code is available at https://github.com/IntelLabs/MMPano. The video presentation is available at https://youtu.be/XDMNEzH4-Ec?list=PLG9Zyvu7iBa0-a7ccNLO8LjcVRAoMn57s.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-03
# ECHOで高速でタイムリーに暗号化されたトラフィック分類

Non-uniformity is All You Need: Efficient and Timely Encrypted Traffic Classification With ECHO ( http://arxiv.org/abs/2406.01852v1 )

ライセンス: Link先を確認
Shilo Daum, Tal Shapira, David Hay, Anat Bremler-Barr, (参考訳) インターネットトラフィックの95%が暗号化されているため、このトラフィックを分類するための効果的なアプローチは、ネットワークのセキュリティと管理にとって不可欠である。 本稿では,ML/DLベースの暗号化トラフィック分類のための新しい最適化プロセスであるECHOを紹介する。 ECHOは、分類時間とメモリ利用の両方を目標とし、2つの革新的なテクニックを取り入れている。 最初のコンポーネントであるHO(Hyperparameter Optimization of binnings)は、効率的なトラフィック表現を作ることを目的としている。 従来の研究では,パケットサイズやパケット到着時刻を固定サイズのビンにマッピングする表現を用いていた。 これらの不均一な双対は、トレーニング段階でハイパーパラメータ最適化アルゴリズムを用いて導出される。 HOは必要な表現サイズに応じて精度を著しく向上させるか、または同等に、より小さな表現を用いて同等の精度を達成する。 次に,EC(Early Classification of traffic)を導入し,信頼度に基づいて,異なる終了時間に適応した分類器のカスケードを用いて,より高速な分類を可能にする。 ECは、平均分類遅延を最大90%削減する。 注目すべきは、この手法が分類精度を維持するだけでなく、場合によってはその精度を向上させることである。 3つの公開データセットを用いて、組み合わせた手法であるEarly Classification with Hyperparameter Optimization (ECHO)が、分類効率を大幅に向上させることを示した。

With 95% of Internet traffic now encrypted, an effective approach to classifying this traffic is crucial for network security and management. This paper introduces ECHO -- a novel optimization process for ML/DL-based encrypted traffic classification. ECHO targets both classification time and memory utilization and incorporates two innovative techniques. The first component, HO (Hyperparameter Optimization of binnings), aims at creating efficient traffic representations. While previous research often uses representations that map packet sizes and packet arrival times to fixed-sized bins, we show that non-uniform binnings are significantly more efficient. These non-uniform binnings are derived by employing a hyperparameter optimization algorithm in the training stage. HO significantly improves accuracy given a required representation size, or, equivalently, achieves comparable accuracy using smaller representations. Then, we introduce EC (Early Classification of traffic), which enables faster classification using a cascade of classifiers adapted for different exit times, where classification is based on the level of confidence. EC reduces the average classification latency by up to 90\%. Remarkably, this method not only maintains classification accuracy but also, in certain cases, improves it. Using three publicly available datasets, we demonstrate that the combined method, Early Classification with Hyperparameter Optimization (ECHO), leads to a significant improvement in classification efficiency.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-03
# 放射線治療におけるリーフシークエンシングとマルチエージェント強化学習

Multi-Agent Reinforcement Learning Meets Leaf Sequencing in Radiotherapy ( http://arxiv.org/abs/2406.01853v1 )

ライセンス: Link先を確認
Riqiang Gao, Florin C. Ghesu, Simon Arberet, Shahab Basiri, Esa Kuusela, Martin Kraus, Dorin Comaniciu, Ali Kamen, (参考訳) 現代の放射線治療計画(RTP)では、キーモジュールのリーフシークエンシングは主に最適化に基づくアプローチによって対処される。 本稿では,リーフシークエンシングのためのマルチエージェントフレームワークにおいて,強化リーフシークエンサー(RLS)と呼ばれる新しい深層強化学習(DRL)モデルを提案する。 RLSモデルは、大規模なトレーニングを通じて、時間を要する反復最適化ステップを改善し、報酬機構の設計を通じて運動パターンを制御することができる。 我々は、4つのメトリクスを持つ4つのデータセットの実験を行い、我々のモデルを主要な最適化シーケンサと比較した。 その結果,提案したRSSモデルはフラエンス再構成誤差を低減し,最適化プランナに組み込むとより高速に収束できることがわかった。 さらに、RSSは完全な人工知能RTPパイプラインで有望な結果を示している。 我々は、この先駆的なマルチエージェントRLリーフシーケンサーが、RTPのための機械学習の研究を後押しできることを期待している。

In contemporary radiotherapy planning (RTP), a key module leaf sequencing is predominantly addressed by optimization-based approaches. In this paper, we propose a novel deep reinforcement learning (DRL) model termed as Reinforced Leaf Sequencer (RLS) in a multi-agent framework for leaf sequencing. The RLS model offers improvements to time-consuming iterative optimization steps via large-scale training and can control movement patterns through the design of reward mechanisms. We have conducted experiments on four datasets with four metrics and compared our model with a leading optimization sequencer. Our findings reveal that the proposed RLS model can achieve reduced fluence reconstruction errors, and potential faster convergence when integrated in an optimization planner. Additionally, RLS has shown promising results in a full artificial intelligence RTP pipeline. We hope this pioneer multi-agent RL leaf sequencer can foster future research on machine learning for RTP.
翻訳日:2024-06-05 20:32:51 公開日:2024-06-03
# 個人統計推測のためのサンプリング手法

Resampling methods for private statistical inference ( http://arxiv.org/abs/2402.07131v3 )

ライセンス: Link先を確認
Karan Chadha, John Duchi, Rohith Kuditipudi, (参考訳) 我々は、信頼区間を異なるプライバシーで構築する作業について検討する。 本研究では,複数のブートストラップがデータのパーティション上で実行された結果の中央値をプライベートに計算し,その結果の信頼区間のカバレッジ誤差に漸近的境界を与える,非パラメトリックブートストラップの2つのプライベート変種を提案する。 固定差分プライバシーパラメータ$\epsilon$に対して、我々のメソッドは、サンプルサイズ$n$の対数係数内の非プライベートブートストラップと同じエラー率を享受します。 我々は,実データと合成データの両方を用いて,平均推定,中央値推定,ロジスティック回帰の手法の性能を実証的に検証した。 提案手法は,既存手法(および非プライベートベースライン)と同様のカバレッジ精度を達成し,従来手法よりもはるかに短い信頼区間(10ドル倍)を提供する。

We consider the task of constructing confidence intervals with differential privacy. We propose two private variants of the non-parametric bootstrap, which privately compute the median of the results of multiple "little" bootstraps run on partitions of the data and give asymptotic bounds on the coverage error of the resulting confidence intervals. For a fixed differential privacy parameter $\epsilon$, our methods enjoy the same error rates as that of the non-private bootstrap to within logarithmic factors in the sample size $n$. We empirically validate the performance of our methods for mean estimation, median estimation, and logistic regression with both real and synthetic data. Our methods achieve similar coverage accuracy to existing methods (and non-private baselines) while providing notably shorter ($\gtrsim 10$ times) confidence intervals than previous approaches.
翻訳日:2024-06-05 10:48:12 公開日:2024-06-03
# API Pack: APIコール生成のための大規模マルチプログラミング言語データセット

API Pack: A Massive Multi-Programming Language Dataset for API Call Generation ( http://arxiv.org/abs/2402.09615v4 )

ライセンス: Link先を確認
Zhen Guo, Adriana Meza Soria, Wei Sun, Yikang Shen, Rameswar Panda, (参考訳) 我々は,大規模言語モデルのAPIコール生成機能を改善するために,100万以上の命令-APIコールペアを含む大規模マルチプログラミング言語データセットであるAPI Packを紹介する。 API Packから2万のPythonインスタンス上でCodeLlama-13Bを微調整することで、未確認のAPI呼び出しを生成する際に、GPT-3.5とGPT-4を上回ります。 API Packの微調整は、1つの言語で大量のデータと、他の言語からの少量のデータを活用することで、クロスプログラミング言語の一般化を容易にする。 トレーニングデータを100万インスタンスにスケールアップすることで、トレーニングに使用されていない新しいAPIにモデルを一般化する能力がさらに向上する。 さらなる研究を容易にするため、私たちは、API Packデータセット、トレーニングされたモデル、および関連するソースコードをhttps://github.com/zguo0525/API-Packでオープンソース化しました。

We introduce API Pack, a massive multi-programming language dataset containing more than 1 million instruction-API call pairs to improve the API call generation capabilities of large language models. By fine-tuning CodeLlama-13B on 20,000 Python instances from API Pack, we enable it to outperform GPT-3.5 and GPT-4 in generating unseen API calls. Fine-tuning on API Pack also facilitates cross-programming language generalization by leveraging a large amount of data in one language and small amounts of data from other languages. Scaling the training data to 1 million instances further improves the model's ability to generalize to new APIs not used in training. To facilitate further research, we open-source the API Pack dataset, trained model, and associated source code at https://github.com/zguo0525/API-Pack.
翻訳日:2024-06-05 10:48:12 公開日:2024-06-03
# CheXpert Plus:テキストラジオグラフィーレポート、患者のデモグラフィー、画像フォーマットを追加して胸部X線データセットを拡大

CheXpert Plus: Augmenting a Large Chest X-ray Dataset with Text Radiology Reports, Patient Demographics and Additional Image Formats ( http://arxiv.org/abs/2405.19538v2 )

ライセンス: Link先を確認
Pierre Chambon, Jean-Benoit Delbrouck, Thomas Sounack, Shih-Cheng Huang, Zhihong Chen, Maya Varma, Steven QH Truong, Chu The Chuong, Curtis P. Langlotz, (参考訳) 5年前にCheXpertの最初の論文がリリースされて以来、CheXpertは最も広く使われ、引用された臨床AIデータセットの1つになった。 ビジョン言語モデルの出現は、CheXpertイメージに関連するレポートの共有要求の高まりを招き、人口統計データを取得することへのAIフェアネス研究者の関心が高まった。 これを解決するため、CheXpert Plusは、放射線学の分野におけるその後のすべての機械学習タスクに対するモデルのスケーリング、パフォーマンス、堅牢性、公平性を高めるために公開された、新しい放射線学データソースのコレクションとして機能する。 CheXpert Plusは、放射線学で公開された最大のテキストデータセットで、合計で3600万のテキストトークンがあり、1300万のインプレッショントークンが含まれている。 私たちの知る限りでは、これは放射線学における最大のテキスト識別の取り組みであり、ほぼ100万PHIが匿名化されている。 大規模な英語ペアデータセットが放射線学でリリースされたのは2回目であり、これにより初めて大規模なクロスインスティテュートトレーニングが可能になる。 全てのレポートは、DICOMフォーマットの高品質な画像と組み合わせられ、様々な臨床および社会経済的グループを含む多数の画像と患者のメタデータ、および多くの病理ラベルとRadGraphアノテーションが提供される。 このデータセットは、放射線科医のさらなる支援と医療改善に役立つAIモデルの研究を促進することを願っている。 https://stanfordaimi.azurewebsites.net/datasets/5158c524-d3ab-4e02-96e9-6ee9efc110a1 モデルは以下のURLで利用可能である。

Since the release of the original CheXpert paper five years ago, CheXpert has become one of the most widely used and cited clinical AI datasets. The emergence of vision language models has sparked an increase in demands for sharing reports linked to CheXpert images, along with a growing interest among AI fairness researchers in obtaining demographic data. To address this, CheXpert Plus serves as a new collection of radiology data sources, made publicly available to enhance the scaling, performance, robustness, and fairness of models for all subsequent machine learning tasks in the field of radiology. CheXpert Plus is the largest text dataset publicly released in radiology, with a total of 36 million text tokens, including 13 million impression tokens. To the best of our knowledge, it represents the largest text de-identification effort in radiology, with almost 1 million PHI spans anonymized. It is only the second time that a large-scale English paired dataset has been released in radiology, thereby enabling, for the first time, cross-institution training at scale. All reports are paired with high-quality images in DICOM format, along with numerous image and patient metadata covering various clinical and socio-economic groups, as well as many pathology labels and RadGraph annotations. We hope this dataset will boost research for AI models that can further assist radiologists and help improve medical care. Data is available at the following URL: https://stanfordaimi.azurewebsites.net/datasets/5158c524-d3ab-4e02-96e9-6ee9efc110a1 Models are available at the following URL: https://github.com/Stanford-AIMI/chexpert-plus
翻訳日:2024-06-05 10:40:04 公開日:2024-06-03
# 単一画像からの物理的に適合する3次元物体モデリング

Physically Compatible 3D Object Modeling from a Single Image ( http://arxiv.org/abs/2405.20510v2 )

ライセンス: Link先を確認
Minghao Guo, Bohan Wang, Pingchuan Ma, Tianyuan Zhang, Crystal Elaine Owens, Chuang Gan, Joshua B. Tenenbaum, Kaiming He, Wojciech Matusik, (参考訳) 単一画像を3次元物理オブジェクトに変換する計算フレームワークを提案する。 画像中の物体の視覚的幾何学は、機械的特性、外部力、静止形状の3つの直交特性によって決定される。 既存の1次元の3D再構成手法は、剛性や外力の無視を前提として、しばしばこの基礎となる構成を見落としている。 その結果、再構成された物体は現実世界の物理的力に耐えられず、不安定または望ましくない変形をもたらす。 我々の最適化フレームワークは、物理互換性を再構築プロセスに埋め込むことによって、この問題に対処する。 3つの物理的属性を明示的に分解し、静的平衡によってリンクし、これはハード制約として機能し、最適化された物理的形状が望ましい物理的挙動を示すことを保証する。 Objaverseから収集したデータセットの評価は、我々のフレームワークが既存の手法よりも連続的に3Dモデルの物理的現実性を高めることを示した。 我々のフレームワークの実用性は、動的シミュレーションや3Dプリンティングにおける実践的な応用にまで拡張され、物理的互換性への固執が最重要である。

We present a computational framework that transforms single images into 3D physical objects. The visual geometry of a physical object in an image is determined by three orthogonal attributes: mechanical properties, external forces, and rest-shape geometry. Existing single-view 3D reconstruction methods often overlook this underlying composition, presuming rigidity or neglecting external forces. Consequently, the reconstructed objects fail to withstand real-world physical forces, resulting in instability or undesirable deformation -- diverging from their intended designs as depicted in the image. Our optimization framework addresses this by embedding physical compatibility into the reconstruction process. We explicitly decompose the three physical attributes and link them through static equilibrium, which serves as a hard constraint, ensuring that the optimized physical shapes exhibit desired physical behaviors. Evaluations on a dataset collected from Objaverse demonstrate that our framework consistently enhances the physical realism of 3D models over existing methods. The utility of our framework extends to practical applications in dynamic simulations and 3D printing, where adherence to physical compatibility is paramount.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-03
# 近代LLMの量子化に及ぼす外乱と校正セットの影響

Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs ( http://arxiv.org/abs/2405.20835v2 )

ライセンス: Link先を確認
Davide Paglieri, Saurabh Dash, Tim Rocktäschel, Jack Parker-Holder, (参考訳) PTQ(Post-Training Quantization)は、メモリ使用量を減らすことで、より高速な操作と、よりアクセスしやすいハードウェアとの互換性を実現することで、パフォーマンス低下のコストで、Large Language Models(LLMs)の効率を向上させる。 PTQにおけるキャリブレーションセットの役割,特に各種オープンソースLCMにおける隠れアクティベーションへの影響について検討する。 キャリブレーションセットは、アクティベーションの規模を評価して、量子化範囲を歪め、性能に悪影響を及ぼすような外れ値を特定するのに不可欠である。 我々の分析では、モデル間で量子化の有効性が顕著に比較されている。 量子化文献の大部分をベースとした古いOPTモデルでは, キャリブレーションセットの異なる外れ値に対して, 顕著な性能劣化と高い感受性を示す。 対照的に、Llama-2 7B、Llama-3 8B、Command-R 35B、Mistral 7Bといった新しいモデルは強い堅牢性を示し、Mistral 7Bは外れ値と安定した活性化を示す。 これらの結果はPTQ戦略の転換が必要であることを示唆している。 事前学習手法の進歩により、外れ値の関連性が低下するにつれ、現在の量子化文学の基礎を再評価する必要性が高まっている。 現状のLDMの進化する特性に合わせるために、主にアウターリー保存に焦点を当てるのではなく、推論速度の最適化に重点を置くべきである。

Post-Training Quantization (PTQ) enhances the efficiency of Large Language Models (LLMs) by enabling faster operation and compatibility with more accessible hardware through reduced memory usage, at the cost of small performance drops. We explore the role of calibration sets in PTQ, specifically their effect on hidden activations in various notable open-source LLMs. Calibration sets are crucial for evaluating activation magnitudes and identifying outliers, which can distort the quantization range and negatively impact performance. Our analysis reveals a marked contrast in quantization effectiveness across models. The older OPT model, upon which much of the quantization literature is based, shows significant performance deterioration and high susceptibility to outliers with varying calibration sets. In contrast, newer models like Llama-2 7B, Llama-3 8B, Command-R 35B, and Mistral 7B demonstrate strong robustness, with Mistral 7B showing near-immunity to outliers and stable activations. These findings suggest a shift in PTQ strategies might be needed. As advancements in pre-training methods reduce the relevance of outliers, there is an emerging need to reassess the fundamentals of current quantization literature. The emphasis should pivot towards optimizing inference speed, rather than primarily focusing on outlier preservation, to align with the evolving characteristics of state-of-the-art LLMs.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-03
# ロボットがバーに足を踏み入れる:コメディーの創造性支援ツールとして言語モデルが生き残るか? : コメディアンによるLLMのユーモアアライメントの評価

A Robot Walks into a Bar: Can Language Models Serve as Creativity Support Tools for Comedy? An Evaluation of LLMs' Humour Alignment with Comedians ( http://arxiv.org/abs/2405.20956v2 )

ライセンス: Link先を確認
Piotr Wojciech Mirowski, Juliette Love, Kory W. Mathewson, Shakir Mohamed, (参考訳) 我々は2023年8月にエディンバラ・フェスティバル・フランジで行われた「AI x Comedy」のワークショップの一環として,聴衆の前でライブショーを行う20人のプロコメディアンにインタビューを行った。 ワークショップは、大規模言語モデル(LLMs)によるコメディ執筆セッション、AIの創造性サポート指標を記述ツールとして評価するための人間とコンピュータのインタラクションのアンケート、AIの使用の動機とプロセスに対するコメディアンの疑問、バイアス、検閲、著作権に関する倫理的懸念などで構成された。 参加者は、安全フィルタリングや指導訓練のLLMで使用されている既存のモデレーション戦略は、少数派とその視点を消去することでヘゲモニックな視点を強化し、検閲の一形態としてこれを認定した。 同時に、ほとんどの参加者は、LLMが創造性支援ツールとして成功しなかったと感じ、1950年代の「船の喜劇の素材を掘り下げるが、少し人種差別的でない」というような、白地と偏見のある喜劇のトロープを制作した。 我々の研究は、一方が有害な言論であり、他方が抵抗、風刺、そして '`punching up'' の実践である '`offensive'' 言語との微妙な相違についての学問を拡張している。 我々はまた、そのような言語モデルの背後にあるグローバルな価値アライメントを疑問視し、アーティストのニーズに合うAIツールを構築するために、コミュニティベースの価値アライメントとデータオーナシップの重要性について議論する。

We interviewed twenty professional comedians who perform live shows in front of audiences and who use artificial intelligence in their artistic process as part of 3-hour workshops on ``AI x Comedy'' conducted at the Edinburgh Festival Fringe in August 2023 and online. The workshop consisted of a comedy writing session with large language models (LLMs), a human-computer interaction questionnaire to assess the Creativity Support Index of AI as a writing tool, and a focus group interrogating the comedians' motivations for and processes of using AI, as well as their ethical concerns about bias, censorship and copyright. Participants noted that existing moderation strategies used in safety filtering and instruction-tuned LLMs reinforced hegemonic viewpoints by erasing minority groups and their perspectives, and qualified this as a form of censorship. At the same time, most participants felt the LLMs did not succeed as a creativity support tool, by producing bland and biased comedy tropes, akin to ``cruise ship comedy material from the 1950s, but a bit less racist''. Our work extends scholarship about the subtle difference between, one the one hand, harmful speech, and on the other hand, ``offensive'' language as a practice of resistance, satire and ``punching up''. We also interrogate the global value alignment behind such language models, and discuss the importance of community-based value alignment and data ownership to build AI tools that better suit artists' needs.
翻訳日:2024-06-05 10:40:04 公開日:2024-06-03
# 一般化された「Notの平方根」行列とその隠れた論理作用素の発表および完全行列円ユーラー関数の定義への応用

Generalized "Square roots of Not" matrices, their application to the unveiling of hidden logical operators and to the definition of fully matrix circular Euler functions ( http://arxiv.org/abs/2107.06067v3 )

ライセンス: Link先を確認
Eduardo Mizraji, (参考訳) ノットの平方根は量子コンピューティング理論において重要な論理演算子であり、それ自身で数学的対象として興味を持つ。 物理学では、次元 2 の平方複素行列である。 現在の研究において、これは任意の次元の複素正方行列である。 線形代数の論理理論への導入は、近年、ニューラルネットワークと量子コンピューティングの分野の研究によって強化されている。 ここでは、行列による論理演算の表現を簡潔に記述し、Nt演算子の2乗根に対する一般表現がどのように得られるかを示す。 次に2つのトピックを探求します。 まず、Deutschのアルゴリズムの短い形式の非量子領域の拡張について検討する。 そして、Not の根は虚数単位 i の行列拡大であると仮定し、この考えの下で、オイラー拡大と複素指数関数による円函数の表現に対する完全行列バージョンを得る。

The square root of Not is a logical operator of importance in quantum computing theory and of interest as a mathematical object in its own right. In physics, it is a square complex matrix of dimension 2. In the present work it is a complex square matrix of arbitrary dimension. The introduction of linear algebra into logical theory has been enhanced in recent decades by the researches in the field of neural networks and quantum computing. Here we will make a brief description of the representation of logical operations through matrices and we show how general expressions for the two square roots of the Not operator are obtained. Then, we explore two topics. First, we study an extension to a non-quantum domain of a short form of Deutsch's algorithm. Then, we assume that a root of Not is a matrix extension of the imaginary unit i, and under this idea we obtain fully matrix versions for the Euler expansions and for the representations of circular functions by complex exponentials.
翻訳日:2024-06-05 07:04:28 公開日:2024-06-03
# 言語理解のためのレイテンシ適応型トランスフォーマーエンコーダ

Latency Adjustable Transformer Encoder for Language Understanding ( http://arxiv.org/abs/2201.03327v8 )

ライセンス: Link先を確認
Sajjad Kachuee, Mohammad Sharifkhani, (参考訳) 自然言語理解モデルのレイテンシ、パワー、精度を調整することは、効率的なアーキテクチャの望ましい目的である。 本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。 微調整フェーズにおいて、提案手法は、重要でない隠れシーケンス要素(ワードベクター)を検出し、提案したAttention Context Contribution (ACC) メトリックを用いて、各エンコーダ層でそれらを除去する。 ファインチューニングフェーズの後、新しいオフラインチューニング特性により、モデルの推論遅延を、それ以上のトレーニングをすることなく、広範囲の推論スピードアップ選択で調整することができる。 提案手法をBERT_base, GPT-2, Flan-T5モデルに適用して評価を行った。 大規模な実験では、高いトランスフォーマー層におけるワードベクタの大部分が、その後のレイヤへの寄与が少ないことが示されており、推論遅延を改善するためにそれらを取り除くことができる。 GLUEのような大規模な感情分析、分類、テキスト生成タスク、回帰ベンチマークによる実験の結果、この手法は入力のグローバルな文脈に最小限の影響を与えることなく、様々なデータセットに有効であることが示された。 また,本手法を指導指導パラダイムで評価し,異なる種類のプロンプトを用いて評価した。 提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。 提案するアプローチは、Large Language Models (LLMs) において、トレーニングには完全なネットワークが必要であるが、微調整フェーズで切り離すことができることを示唆している。

Adjusting the latency, power, and accuracy of natural language understanding models is a desirable objective of an efficient architecture. This paper proposes an efficient Transformer architecture that adjusts the inference computational cost adaptively with a desired inference latency speedup. In fine-tuning phase, the proposed method detects less important hidden sequence elements (word-vectors) and eliminates them in each encoder layer using a proposed Attention Context Contribution (ACC) metric. After the fine-tuning phase, with the novel offline-tuning property, the inference latency of the model can be adjusted in a wide range of inference speedup selections without any further training. The proposed method is applied to the BERT_base, GPT-2 and Flan-T5 models for evaluation. Extensive experiments show that most of the word-vectors in higher Transformer layers have less contribution to the subsequent layers; hence, they can be eliminated to improve the inference latency. Experimental results on extensive sentiment analysis, classification, text generation tasks and regression benchmarks like GLUE showed that the method is effective in various datasets with minimal impact on the input's global context. The method was also evaluated under the instruction tuning paradigm, and its performance was measured using different types of prompting. The proposed method mathematically and experimentally improves the inference latency of BERT_base and GPT-2 by up to 4.8 and 3.72 times with less than 0.75% accuracy drop and passable perplexity on average. The suggested approach posits that in Large Language Models (LLMs), although the complete network is necessary for training, it can be truncated during the fine-tuning phase.
翻訳日:2024-06-05 07:04:28 公開日:2024-06-03
# 自動後編集のための半教師付き学習の促進:不正用語によるマスク埋込みによるデータ合成

Advancing Semi-Supervised Learning for Automatic Post-Editing: Data-Synthesis by Mask-Infilling with Erroneous Terms ( http://arxiv.org/abs/2204.03896v2 )

ライセンス: Link先を確認
Wonkee Lee, Seong-Hwan Heo, Jong-Hyeok Lee, (参考訳) 学習に合成データを利用する半教師付き学習は、トレーニングデータの欠如により自動後編集(APE)モデルの開発に広く採用されている。 本研究の目的は,高品質な合成データを作成するためのデータ合成手法に焦点を当てることである。 APEが誤りを含むかもしれない機械翻訳結果の入力となることを考慮し、結果の合成データが実際のデータにある翻訳誤りを模倣するデータ合成法を提案する。 我々は,マスク付き言語モデルに適応して,マスク付きトークンに誤ったトークンを埋め込むことで,クリーンテキストからノイズの多いテキストを生成し,雑音に基づくデータ合成手法を提案する。 さらに,2つの異なる合成データセットを組み合わせた選択的コーパスインターリーブを提案する。 実験結果から, 提案手法により生成した合成データを用いることで, 既存の合成データよりもAPEの性能が有意に向上することがわかった。

Semi-supervised learning that leverages synthetic data for training has been widely adopted for developing automatic post-editing (APE) models due to the lack of training data. With this aim, we focus on data-synthesis methods to create high-quality synthetic data. Given that APE takes as input a machine-translation result that might include errors, we present a data-synthesis method by which the resulting synthetic data mimic the translation errors found in actual data. We introduce a noising-based data-synthesis method by adapting the masked language model approach, generating a noisy text from a clean text by infilling masked tokens with erroneous tokens. Moreover, we propose selective corpus interleaving that combines two separate synthetic datasets by taking only the advantageous samples to enhance the quality of the synthetic data further. Experimental results show that using the synthetic data created by our approach results in significantly better APE performance than other synthetic data created by existing methods.
翻訳日:2024-06-05 07:04:28 公開日:2024-06-03
# GFlowNetと変分ベイズを用いた因果構造とメカニズムのベイズ的学習

Bayesian learning of Causal Structure and Mechanisms with GFlowNets and Variational Bayes ( http://arxiv.org/abs/2211.02763v3 )

ライセンス: Link先を確認
Mizu Nishikawa-Toomey, Tristan Deleu, Jithendaraa Subramanian, Yoshua Bengio, Laurent Charlin, (参考訳) ベイズ因果構造学習は、有向非巡回グラフ(DAG)上の後部分布と、親と子の関係を定義するメカニズムを学習することを目的としている。 ベイズ的アプローチをとることで、因果モデルの不確実性について推論することができる。 モデルに対する不確実性をモデル化するという概念は、有限量の観測データしか与えられない場合、モデルが識別できないため、因果構造学習において特に重要である。 本稿では,変分ベイズを用いた因果モデルの構造と機構を共同で学習する新しい手法を提案し,これを変分ベイズ-DAG-GFlowNet(VBG)と呼ぶ。 我々は,GFlowNetsを用いたベイズ的因果構造学習の手法を拡張し,構造上の後部分布だけでなく,線形ガウスモデルのパラメータも学習する。 シミュレーションデータを用いた結果,VBG は DAG や機構よりも後方をモデル化する上で,いくつかの基本ラインと競合する一方で,非巡回グラフのサンプリングを保証すること,非線形因果機構に一般化する柔軟性など,既存の手法よりもいくつかの利点があることがわかった。

Bayesian causal structure learning aims to learn a posterior distribution over directed acyclic graphs (DAGs), and the mechanisms that define the relationship between parent and child variables. By taking a Bayesian approach, it is possible to reason about the uncertainty of the causal model. The notion of modelling the uncertainty over models is particularly crucial for causal structure learning since the model could be unidentifiable when given only a finite amount of observational data. In this paper, we introduce a novel method to jointly learn the structure and mechanisms of the causal model using Variational Bayes, which we call Variational Bayes-DAG-GFlowNet (VBG). We extend the method of Bayesian causal structure learning using GFlowNets to learn not only the posterior distribution over the structure, but also the parameters of a linear-Gaussian model. Our results on simulated data suggest that VBG is competitive against several baselines in modelling the posterior over DAGs and mechanisms, while offering several advantages over existing methods, including the guarantee to sample acyclic graphs, and the flexibility to generalize to non-linear causal mechanisms.
翻訳日:2024-06-05 07:04:28 公開日:2024-06-03
# SPD多様体上の領域適応のための深部輸送

Deep Optimal Transport for Domain Adaptation on SPD Manifolds ( http://arxiv.org/abs/2201.05745v4 )

ライセンス: Link先を確認
Ce Ju, Cuntai Guan, (参考訳) 機械学習コミュニティは、対称正定値多様体(SPD)上の領域適応問題への関心が高まっている。 この関心は主に、脳信号から生成された神経画像データの複雑さによって引き起こされる。 これらのニューロイメージングデータは信号共分散行列で表され、対称性と正の定値性の数学的性質を持つ。 しかし、これらの数学的性質は共分散行列を操作する際に破壊されるため、従来の領域適応法の適用は困難である。 本研究では,SPD多様体上の最適輸送を利用した幾何学的深層学習手法を提案する。 提案手法の有効性を3つのクロスセッション脳コンピュータインタフェースシナリオで評価し,さらなる知見を得るための可視化結果を提供する。 この研究のGitHubリポジトリはhttps://github.com/GeometricBCI/Deep-Optimal-Transport-for-Domain-Adaptation-on-SPD-Manifoldsでアクセスできる。

The machine learning community has shown increasing interest in addressing the domain adaptation problem on symmetric positive definite (SPD) manifolds. This interest is primarily driven by the complexities of neuroimaging data generated from brain signals, which often exhibit shifts in data distribution across recording sessions. These neuroimaging data, represented by signal covariance matrices, possess the mathematical properties of symmetry and positive definiteness. However, applying conventional domain adaptation methods is challenging because these mathematical properties can be disrupted when operating on covariance matrices. In this study, we introduce a novel geometric deep learning-based approach utilizing optimal transport on SPD manifolds to manage discrepancies in both marginal and conditional distributions between the source and target domains. We evaluate the effectiveness of this approach in three cross-session brain-computer interface scenarios and provide visualized results for further insights. The GitHub repository of this study can be accessed at https://github.com/GeometricBCI/Deep-Optimal-Transport-for-Domain-Adaptation-on-SPD-Manifolds.
翻訳日:2024-06-05 00:04:47 公開日:2024-06-03
# リレーショナル・セルフ・スーパーバイザード・ラーニングによる弱弱化指導

Weak Augmentation Guided Relational Self-Supervised Learning ( http://arxiv.org/abs/2203.08717v3 )

ライセンス: Link先を確認
Mingkai Zheng, Shan You, Fei Wang, Chen Qian, Changshui Zhang, Xiaogang Wang, Chang Xu, (参考訳) 主流のコントラスト学習を含む自己教師あり学習(SSL)は、データアノテーションなしで視覚表現を学習することに成功した。 しかしながら、ほとんどのメソッドは、主にインスタンスレベルの情報に焦点を当てています(つまり、同じインスタンスの異なる拡張イメージは、同じ機能または同じクラスにクラスタされるべきです)。 本稿では,異なるインスタンス間の関係をモデル化して表現を学習するリレーショナル自己教師型学習(Relational Self-supervised Learning, ReSSL)フレームワークを提案する。 特に,提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,異なる拡張の特徴埋め込みに適合させるために,‘textit{relation} metric’として用いた。 性能を高めるために、より信頼性の高い関係を示すために弱い拡張が重要であり、実用的な効率のために運動量戦略を活用することを議論する。 設計された非対称予測ヘッドとInfoNCEウォームアップ戦略は、ハイパーパラメータへのロバスト性を高め、その結果のパフォーマンスを向上する。 実験の結果,提案したReSSLは,様々な軽量ネットワーク(\eg,EfficientNet,MobileNet)を含む,さまざまなネットワークアーキテクチャにおける最先端の手法よりも大幅に優れていた。

Self-supervised Learning (SSL) including the mainstream contrastive learning has achieved great success in learning visual representations without data annotations. However, most methods mainly focus on the instance level information (\ie, the different augmented images of the same instance should have the same feature or cluster into the same class), but there is a lack of attention on the relationships between different instances. In this paper, we introduce a novel SSL paradigm, which we term as relational self-supervised learning (ReSSL) framework that learns representations by modeling the relationship between different instances. Specifically, our proposed method employs sharpened distribution of pairwise similarities among different instances as \textit{relation} metric, which is thus utilized to match the feature embeddings of different augmentations. To boost the performance, we argue that weak augmentations matter to represent a more reliable relation, and leverage momentum strategy for practical efficiency. The designed asymmetric predictor head and an InfoNCE warm-up strategy enhance the robustness to hyper-parameters and benefit the resulting performance. Experimental results show that our proposed ReSSL substantially outperforms the state-of-the-art methods across different network architectures, including various lightweight networks (\eg, EfficientNet and MobileNet).
翻訳日:2024-06-05 00:04:47 公開日:2024-06-03
# 公正とは何か : 保護された属性と架空の世界の役割について

What Is Fairness? On the Role of Protected Attributes and Fictitious Worlds ( http://arxiv.org/abs/2205.09622v5 )

ライセンス: Link先を確認
Ludwig Bothmann, Kristina Peters, Bernd Bischl, (参考訳) フェアネス対応機械学習(fairML)における文献の増大は、機械学習(ML)に関連する不公平さを自動意思決定(ADM)で軽減することを目的としており、MLモデルの公正性を測定するメトリクスを定義し、トレーニングされたMLモデルがこれらのメトリクスで低いスコアを達成するようにする方法を提案する。 しかしながら、公正とは何かという根本的な概念は、何世紀にもわたって哲学的な議論と近年のMLコミュニティにおける概念の採用との間に大きなギャップを残しているため、ほとんど議論されない。 本研究では,公正性という一貫した概念を定式化し,哲学的考察をADMシステムにおけるMLモデルのトレーニングと評価のための形式的枠組みに変換することにより,このギャップを埋めようとしている。 我々は,保護属性(PA)がなくても公平性の問題が発生することを論じ,公正性と予測性能は相反するものではなく,前者を達成するためには後者が必要であることを指摘する。 さらに, PAが因果的影響を持たない架空の規範的(FiND)世界を提案することによって, PAの存在の公平性を評価する上で, 因果的配慮がなぜ必要かについて議論する。 実際には、このFiND世界は、実世界のデータからPAの因果効果を除去する歪んだ世界によって近似されなければならない。 最後に,fairMLの議論において,言語的明瞭度の向上を図っている。 実用化のためのアルゴリズムの概要とCompASデータに関する実証実験について述べる。

A growing body of literature in fairness-aware machine learning (fairML) aims to mitigate machine learning (ML)-related unfairness in automated decision-making (ADM) by defining metrics that measure fairness of an ML model and by proposing methods to ensure that trained ML models achieve low scores on these metrics. However, the underlying concept of fairness, i.e., the question of what fairness is, is rarely discussed, leaving a significant gap between centuries of philosophical discussion and the recent adoption of the concept in the ML community. In this work, we try to bridge this gap by formalizing a consistent concept of fairness and by translating the philosophical considerations into a formal framework for the training and evaluation of ML models in ADM systems. We argue that fairness problems can arise even without the presence of protected attributes (PAs), and point out that fairness and predictive performance are not irreconcilable opposites, but that the latter is necessary to achieve the former. Furthermore, we argue why and how causal considerations are necessary when assessing fairness in the presence of PAs by proposing a fictitious, normatively desired (FiND) world in which PAs have no causal effects. In practice, this FiND world must be approximated by a warped world in which the causal effects of the PAs are removed from the real-world data. Finally, we achieve greater linguistic clarity in the discussion of fairML. We outline algorithms for practical applications and present illustrative experiments on COMPAS data.
翻訳日:2024-06-04 23:55:24 公開日:2024-06-03
# 情報処理による機械学習:知識の体系化

Machine Learning with Confidential Computing: A Systematization of Knowledge ( http://arxiv.org/abs/2208.10134v3 )

ライセンス: Link先を確認
Fan Mo, Zahra Tarkhani, Hamed Haddadi, (参考訳) 機械学習(ML)におけるプライバシとセキュリティの課題は、MLの広範な開発と、最近の大規模な攻撃面のデモとともに、ますます深刻になっている。 成熟したシステム指向のアプローチとして、Confidential Computingは、さまざまなMLシナリオにおけるプライバシとセキュリティの問題を軽減するために、学術と産業の両方で使用されている。 本稿では,ML と Confidential Computing の連携について検討する。 機密情報処理支援ML技術に関する先行研究を体系化する。 一 秘密の保証及び保証 二 完全性保証及びその先進的な特徴及び欠点について議論すること。 MLのユースケースに対する既存のTrusted Execution Environment(TEE)システムにおける制約の専門的な分析を行う。 最後に、クローズドループ保護のための基盤となるプライバシー定義、効率的なMLのパーティショニングされた実行、ML専用のTEEアシストデザイン、TEE対応ML、ML完全なパイプライン保証などについて論じる。 知識の体系化にこれらの潜在的なソリューションを提供することで、計算やシステムコストを導入することなく、より強力なTEE対応MLをプライバシ保証のために実現するための橋を構築することを目指している。

Privacy and security challenges in Machine Learning (ML) have become increasingly severe, along with ML's pervasive development and the recent demonstration of large attack surfaces. As a mature system-oriented approach, Confidential Computing has been utilized in both academia and industry to mitigate privacy and security issues in various ML scenarios. In this paper, the conjunction between ML and Confidential Computing is investigated. We systematize the prior work on Confidential Computing-assisted ML techniques that provide i) confidentiality guarantees and ii) integrity assurances, and discuss their advanced features and drawbacks. Key challenges are further identified, and we provide dedicated analyses of the limitations in existing Trusted Execution Environment (TEE) systems for ML use cases. Finally, prospective works are discussed, including grounded privacy definitions for closed-loop protection, partitioned executions of efficient ML, dedicated TEE-assisted designs for ML, TEE-aware ML, and ML full pipeline guarantees. By providing these potential solutions in our systematization of knowledge, we aim to build the bridge to help achieve a much stronger TEE-enabled ML for privacy guarantees without introducing computation and system costs.
翻訳日:2024-06-04 23:55:24 公開日:2024-06-03
# 古典回路は量子面をシミュレートできる

Classical circuits can simulate quantum aspects ( http://arxiv.org/abs/2209.10402v2 )

ライセンス: Link先を確認
M. Caruso, (参考訳) 本研究では,電気ネットワークを用いた量子システムのシミュレーション手法を提案する。 提案手法では,異なるハミルトニアンを接続する一般化された類似性変換を活用し,古典回路を用いた量子システムシミュレーションのための明確に定義された経路を実現する。 相互作用ネットワークを合成することにより、2-$state から$n-$state まで、様々な複雑さの量子システムを正確にシミュレートする。 量子コンピュータとは異なり、古典的なアプローチは厳密な条件を必要としないため、実用的な実装ではよりアクセスしやすい。 電気回路シミュレーションの文脈におけるボルンの規則の再解釈は、量子現象の視点を与える。

This study introduces a method for simulating quantum systems using electrical networks. Our approach leverages a generalized similarity transformation, which connects different Hamiltonians, enabling well-defined paths for quantum system simulation using classical circuits. By synthesizing interaction networks, we accurately simulate quantum systems of varying complexity, from $2-$state to $n-$state systems. Unlike quantum computers, classical approaches do not require stringent conditions, making them more accessible for practical implementation. Our reinterpretation of Born's rule in the context of electrical circuit simulations offers a perspective on quantum phenomena.
翻訳日:2024-06-04 23:55:24 公開日:2024-06-03
# 逐次的ニューラルスコア推定:条件付きスコアに基づく拡散モデルによる自由推論

Sequential Neural Score Estimation: Likelihood-Free Inference with Conditional Score Based Diffusion Models ( http://arxiv.org/abs/2210.04872v3 )

ライセンス: Link先を確認
Louis Sharrock, Jack Simons, Song Liu, Mark Beaumont, (参考訳) SNPSE(Sequential Neural Posterior Score Estimation)は,シミュレータに基づくモデルにおけるベイズ推定のためのスコアベース手法である。 生成モデルにおけるスコアベース手法の顕著な成功に触発された本手法は,条件付きスコアベース拡散モデルを用いて,関心の後方分布からサンプルを生成する。 モデルは、後部のスコアを直接推定する客観的関数を用いて訓練される。 このモデルを逐次訓練手順に組み込み、関心事の観測時に後部の現在の近似を用いてシミュレーションを誘導し、シミュレーションコストを低減させる。 また、いくつかの代替的なシーケンシャルアプローチを導入し、それらの相対的なメリットについて議論する。 次に,提案手法と,その非逐次的,非逐次的,変種をいくつかの数値例で検証し,逐次的ニューラルネットワーク後推定(SNPE)のような既存の最先端手法に匹敵する,あるいは優れた性能を示す。

We introduce Sequential Neural Posterior Score Estimation (SNPSE), a score-based method for Bayesian inference in simulator-based models. Our method, inspired by the remarkable success of score-based methods in generative modelling, leverages conditional score-based diffusion models to generate samples from the posterior distribution of interest. The model is trained using an objective function which directly estimates the score of the posterior. We embed the model into a sequential training procedure, which guides simulations using the current approximation of the posterior at the observation of interest, thereby reducing the simulation cost. We also introduce several alternative sequential approaches, and discuss their relative merits. We then validate our method, as well as its amortised, non-sequential, variant on several numerical examples, demonstrating comparable or superior performance to existing state-of-the-art methods such as Sequential Neural Posterior Estimation (SNPE).
翻訳日:2024-06-04 23:55:24 公開日:2024-06-03
# 条件付き変分オートエンコーダを用いたアクセントテキスト音声合成

Accented Text-to-Speech Synthesis with a Conditional Variational Autoencoder ( http://arxiv.org/abs/2211.03316v2 )

ライセンス: Link先を確認
Jan Melechovsky, Ambuj Mehrish, Berrak Sisman, Dorien Herremans, (参考訳) アクセントは、人のアイデンティティを伝達するだけでなく、理解する能力に影響を与える、音声コミュニケーションにおいて重要な役割を果たす。 本稿では,条件付き変分オートエンコーダに基づくアクセント付きテキスト音声合成のための,新しい,効率的なフレームワークを提案する。 選択された話者の声を合成する機能があり、任意のターゲットアクセントに変換される。 提案手法の有効性を客観的評価と主観評価の両方を用いて検証した。 また, 合成音声のアクセントを操作できることや, 将来的なアクセント付きTS研究の道筋として期待できることを示す。

Accent plays a significant role in speech communication, influencing one's capability to understand as well as conveying a person's identity. This paper introduces a novel and efficient framework for accented Text-to-Speech (TTS) synthesis based on a Conditional Variational Autoencoder. It has the ability to synthesize a selected speaker's voice, which is converted to any desired target accent. Our thorough experiments validate the effectiveness of the proposed framework using both objective and subjective evaluations. The results also show remarkable performance in terms of the ability to manipulate accents in the synthesized speech and provide a promising avenue for future accented TTS research.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-03
# 古典計画におけるヒューリスティック関数学習のためのサンプル生成戦略の理解

Understanding Sample Generation Strategies for Learning Heuristic Functions in Classical Planning ( http://arxiv.org/abs/2211.13316v3 )

ライセンス: Link先を確認
R. V. Bettker, P. P. Minini, A. G. Pereira, M. Ritt, (参考訳) 本研究では,従来の計画課題に対するニューラルネットワークを用いた優れたヒューリスティック関数の学習課題について,コスト・ツー・ゴール推定値で表されるサンプルに基づいて検討する。 ヒューリスティック関数は状態空間とゴール条件に対して学習され、サンプルの数は状態空間のサイズのごく一部に制限され、同じゴール条件を持つ状態空間の全ての状態に対してうまく一般化されなければならない。 本研究の目的は,サンプル生成戦略が学習ヒューリスティック関数によって誘導される欲求最優先ヒューリスティックサーチ(GBFS)の性能に与える影響をよりよく理解することである。 制御された実験のセットにおいて、2つの主要な要因が学習されたヒューリスティックの質を決定することを発見した。 完全なコスト・ツー・ゴール推定を持つことは、サンプルが状態空間に分散していない場合、不十分である。 また,高値推定値のサンプルの追加など,他の効果についても検討する。 本研究は,学習ヒューリスティックスの品質向上のための実践的戦略として,より代表的な状態を生成するための3つの戦略と,コスト・ツー・ゴール推定を改善する2つの戦略を提案する。 我々の実践戦略は、GBFSアルゴリズムを導くと、ベースラインの学習ヒューリスティックに比べて平均カバレッジが30%以上増加するという学習ヒューリスティックをもたらす。

We study the problem of learning good heuristic functions for classical planning tasks with neural networks based on samples represented by states with their cost-to-goal estimates. The heuristic function is learned for a state space and goal condition with the number of samples limited to a fraction of the size of the state space, and must generalize well for all states of the state space with the same goal condition. Our main goal is to better understand the influence of sample generation strategies on the performance of a greedy best-first heuristic search (GBFS) guided by a learned heuristic function. In a set of controlled experiments, we find that two main factors determine the quality of the learned heuristic: the algorithm used to generate the sample set and how close the sample estimates to the perfect cost-to-goal are. These two factors are dependent: having perfect cost-to-goal estimates is insufficient if the samples are not well distributed across the state space. We also study other effects, such as adding samples with high-value estimates. Based on our findings, we propose practical strategies to improve the quality of learned heuristics: three strategies that aim to generate more representative states and two strategies that improve the cost-to-goal estimates. Our practical strategies result in a learned heuristic that, when guiding a GBFS algorithm, increases by more than 30% the mean coverage compared to a baseline learned heuristic.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-03
# マルチプレイヤーバンディットに関する調査

A survey on multi-player bandits ( http://arxiv.org/abs/2211.16275v2 )

ライセンス: Link先を確認
Etienne Boursier, Vianney Perchet, (参考訳) 主に認知無線ネットワークへの応用により、この10年でマルチプレイヤーのバンドが大きな関心を集めている。 理論的な側面からはかなり進歩している。 しかし、現在のアルゴリズムは適用不可能であり、これらの理論結果と実際の認知無線ネットワークにおけるマルチプレイヤー帯域幅アルゴリズムの実装の間には、多くの障害が残っている。 この調査は、リッチなマルチプレイヤーバンディット文学を文脈化し、整理する。 既存の研究を鑑みると、今後の研究の方向性が明らかになる。 これらの異なる方向のさらなる研究は、現実の状況に適応した理論的アルゴリズムに繋がる可能性があると我々は信じている。

Due mostly to its application to cognitive radio networks, multiplayer bandits gained a lot of interest in the last decade. A considerable progress has been made on its theoretical aspect. However, the current algorithms are far from applicable and many obstacles remain between these theoretical results and a possible implementation of multiplayer bandits algorithms in real cognitive radio networks. This survey contextualizes and organizes the rich multiplayer bandits literature. In light of the existing works, some clear directions for future research appear. We believe that a further study of these different directions might lead to theoretical algorithms adapted to real-world situations.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-03
# 正方形・対数的損失を有する生存モデルの外部検証における正当性の検討

Examining properness in the external validation of survival models with squared and logarithmic losses ( http://arxiv.org/abs/2212.05260v2 )

ライセンス: Link先を確認
Raphael Sonabend, John Zobolas, Philipp Kopper, Lukas Burk, Andreas Bender, (参考訳) Scoring rulesは合理的で誠実な意思決定を促進する。 本稿では,生存分析のための共通二乗法および対数法則を調査し,どの損失が適切で不適切なかを判定する。 一般に用いられている正方形および対数的スコアリングルールは、ISBS(Integrated Survival Brier Score)など、実際は不適切であることを示す。 さらに、厳密な仮定の下では、スコアリングルールのクラスは、我々が言うところの「近似的」生存損失に対して厳密に適切なものであることを証明します。 適正性の違いにもかかわらず、シミュレーションと実世界のデータセットによる実験では、広く使われているISBSの不適切なバージョンと適切なバージョンの間に大きな違いがないことが示され、評価のために元のスコアを利用した以前の実験を合理的に信頼することができる。 損失の微妙な違いでさえ、モデルチューニングのような自動化プロセスにおいて重要な意味を持つ可能性があるため、適切なスコアリングルールの使用を引き続き主張する。 本研究の成果は, 生存モデルに対する頑健かつ誠実な評価が達成できるように, 生存対策の特性に関するさらなる研究を奨励するものであることを願っている。

Scoring rules promote rational and honest decision-making, which is becoming increasingly important for automated procedures in `auto-ML'. In this paper we survey common squared and logarithmic scoring rules for survival analysis and determine which losses are proper and improper. We prove that commonly utilised squared and logarithmic scoring rules that are claimed to be proper are in fact improper, such as the Integrated Survival Brier Score (ISBS). We further prove that under a strict set of assumptions a class of scoring rules is strictly proper for, what we term, `approximate' survival losses. Despite the difference in properness, experiments in simulated and real-world datasets show there is no major difference between improper and proper versions of the widely-used ISBS, ensuring that we can reasonably trust previous experiments utilizing the original score for evaluation purposes. We still advocate for the use of proper scoring rules, as even minor differences between losses can have important implications in automated processes such as model tuning. We hope our findings encourage further research into the properties of survival measures so that robust and honest evaluation of survival models can be achieved.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-03
# 位置:大規模公開事前学習による個人差分学習の考察

Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining ( http://arxiv.org/abs/2212.06470v2 )

ライセンス: Link先を確認
Florian Tramèr, Gautam Kamath, Nicholas Carlini, (参考訳) 大規模公開データセットで事前訓練された非プライベートモデルの転送学習能力を活用することで、差分プライベート機械学習の性能を大幅に向上させることができる。 このアプローチを批判的にレビューする。 主に、大規模なWebスクラッドデータセットの使用は、差分プライバシ保存と見なされるべきかどうかを疑問視する。 Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。 公開データの利用に関するプライバシー上の考慮を超えて、このパラダイムの有用性をさらに疑問視する。 我々は、既存の機械学習ベンチマークが、事前訓練されたモデルが機密ドメインに一般化する能力を測定するのに適切かどうかを精査する。 最後に、プレトレーニングは、最も大きな利用可能なモデルに対して特に影響があることに気付きました -- エンドユーザーが自身のデバイスでそれらを実行するのを阻止するのに十分な大きさのモデルです。 このように、今日のそのようなモデルをデプロイすることは、より計算力のあるサードパーティにアウトソースする(プライベートな)データを必要とするため、プライバシの純損失になる可能性がある。 公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。

The performance of differentially private machine learning can be boosted significantly by leveraging the transfer learning capabilities of non-private models pretrained on large public datasets. We critically review this approach. We primarily question whether the use of large Web-scraped datasets should be viewed as differential-privacy-preserving. We caution that publicizing these models pretrained on Web data as "private" could lead to harm and erode the public's trust in differential privacy as a meaningful definition of privacy. Beyond the privacy considerations of using public data, we further question the utility of this paradigm. We scrutinize whether existing machine learning benchmarks are appropriate for measuring the ability of pretrained models to generalize to sensitive domains, which may be poorly represented in public Web data. Finally, we notice that pretraining has been especially impactful for the largest available models -- models sufficiently large to prohibit end users running them on their own devices. Thus, deploying such models today could be a net loss for privacy, as it would require (private) data to be outsourced to a more compute-powerful third party. We conclude by discussing potential paths forward for the field of private learning, as public pretraining becomes more popular and powerful.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-03
# 腱の部分変性

Partial Degeneration of Tensors ( http://arxiv.org/abs/2212.14095v2 )

ライセンス: Link先を確認
Matthias Christandl, Fulvio Gesmundo, Vladimir Lysikov, Vincent Steffan, (参考訳) 前者はテンソル因子上の局所線型写像によるテンソルの変換を記述し、後者は局所線型写像が曲線に沿って変化する可能性のある変換を記述し、結果として生じるテンソルはこの曲線に沿って極限として表される。 本研究では,局所線型写像の1つが定数であるのに対して,他の1つが曲線に沿って変化する特別な縮退版である部分退化を導入,研究する。 代数的複雑性、量子エンタングルメント、テンソルネットワークによって動機付けられ、行列乗算テンソルに基づく構造を示し、前均質テンソル空間の理論に接続することで例を見つける。 我々は、単位テンソルの障害と分類結果を示すことによって、この新しい概念の微妙さを強調する。 この目的のために、テンソル階数の自然な一般化である補助階数の概念を研究する。 部分退化の存在は、テンソルの助けられたランクに強い上限を与えるので、退化を制約にすることができる。 特に、W-テンソルとCupersmith-Winogradテンソルに基づくいくつかの例を示す。

Tensors are often studied by introducing preorders such as restriction and degeneration: the former describes transformations of the tensors by local linear maps on its tensor factors; the latter describes transformations where the local linear maps may vary along a curve, and the resulting tensor is expressed as a limit along this curve. In this work we introduce and study partial degeneration, a special version of degeneration where one of the local linear maps is constant whereas the others vary along a curve. Motivated by algebraic complexity, quantum entanglement and tensor networks, we present constructions based on matrix multiplication tensors and find examples by making a connection to the theory of prehomogeneous tensor spaces. We highlight the subtleties of this new notion by showing obstruction and classification results for the unit tensor. To this end, we study the notion of aided rank, a natural generalization of tensor rank. The existence of partial degenerations gives strong upper bounds on the aided rank of a tensor, which allows one to turn degenerations into restrictions. In particular, we present several examples, based on the W-tensor and the Coppersmith-Winograd tensors, where lower bounds on aided rank provide obstructions to the existence of certain partial degenerations.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-03
# 周期的焼成系における量子相転移

Quantum Phase Transitions in periodically quenched systems ( http://arxiv.org/abs/2302.00382v3 )

ライセンス: Link先を確認
Á. Sáiz, J. Khalouf-Rivera, J. M. Arias, P. Pérez-Fernández, J. Casado-Pascual, (参考訳) 量子相転移は、いくつかの可能な対称性を示す量子系で起こる様々な現象を含む。 伝統的に、これらの遷移は、2つの異なる対称性構成を接続する制御パラメータを連続的に変化させることによって探索される。 本稿では,制御パラメータの急激な変化と2つの値間の時間周期的なジャンプを行う方法を提案する。 この手法は従来の手法と驚くほどよく似ており、制御パラメータへのアクセスが困難である状況では実験的に有用であることが証明される。

Quantum phase transitions encompass a variety of phenomena that occur in quantum systems exhibiting several possible symmetries. Traditionally, these transitions are explored by continuously varying a control parameter that connects two different symmetry configurations. Here we propose an alternative approach where the control parameter undergoes abrupt and time-periodic jumps between only two values. This approach yields results surprisingly similar to those obtained by the traditional one and may prove experimentally useful in situations where accessing the control parameter is challenging.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-03
# グラフ学習における永続ホモロジーの表現性について

On the Expressivity of Persistent Homology in Graph Learning ( http://arxiv.org/abs/2302.09826v3 )

ライセンス: Link先を確認
Rubén Ballester, Bastian Rieck, (参考訳) 計算トポロジのテクニックである永続化ホモロジーは、最近、グラフ分類の文脈において、強い経験的性能を示した。 任意の長さのサイクルや多スケールのトポロジ記述子といった高次のトポロジ的特徴により、長い範囲のグラフ特性をキャプチャできるようになり、分子のような顕著なトポロジ的構造を持つデータセットの予測性能が向上した。 同時に、永続ホモロジーの理論的性質は、この文脈で公式に評価されていない。 本稿では,グラフの文脈における永続的ホモロジーを簡潔に紹介することにより,計算トポロジとグラフ機械学習のギャップを埋めることを目的としている。

Persistent homology, a technique from computational topology, has recently shown strong empirical performance in the context of graph classification. Being able to capture long range graph properties via higher-order topological features, such as cycles of arbitrary length, in combination with multi-scale topological descriptors, has improved predictive performance for data sets with prominent topological structures, such as molecules. At the same time, the theoretical properties of persistent homology have not been formally assessed in this context. This paper intends to bridge the gap between computational topology and graph machine learning by providing a brief introduction to persistent homology in the context of graphs, as well as a theoretical discussion and empirical analysis of its expressivity for graph learning tasks.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-03
# 拡散モデルによる行動クローン化

Diffusion Model-Augmented Behavioral Cloning ( http://arxiv.org/abs/2302.13335v4 )

ライセンス: Link先を確認
Shang-Fu Chen, Hsiang-Chun Wang, Ming-Hao Hsu, Chun-Mao Lai, Shao-Hua Sun, (参考訳) シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家のデモンストレーションを観察することで学習の課題に対処する。 環境と相互作用する必要のない既存の模倣学習法の多くは、専門家分布を条件付き確率 p(a|s) (例えば、行動的クローン、BC) または関節型確率 p(s,a) としてモデル化する。 BC で条件確率をモデル化する単純さにもかかわらず、通常は一般化に苦しむ。 結合確率をモデル化すると一般化性能が向上するが、推論手順は時間を要することが多く、モデルは多様体オーバーフィッティングに悩まされることがある。 本研究は、専門家分布の条件付き確率と結合確率の両方をモデル化することの恩恵を受ける模倣学習フレームワークを提案する。 提案した拡散モデル拡張行動クローニング(DBC)では,専門家の振る舞いをモデル化するための拡散モデルを用いて,BC損失(条件)と拡散モデル損失(結合)の両方を最適化するポリシを学習する。 DBCは、ナビゲーション、ロボットアーム操作、器用な操作、移動における様々な連続的な制御タスクにおいて、ベースラインよりも優れています。 我々は,条件付き確率と専門家分布の結合確率のどちらかをモデル化する限界を検証し,異なる生成モデルを比較するために,追加実験を設計する。 アブレーション研究は、我々の設計選択の有効性を正当化する。

Imitation learning addresses the challenge of learning by observing an expert's demonstrations without access to reward signals from environments. Most existing imitation learning methods that do not require interacting with environments either model the expert distribution as the conditional probability p(a|s) (e.g., behavioral cloning, BC) or the joint probability p(s, a). Despite the simplicity of modeling the conditional probability with BC, it usually struggles with generalization. While modeling the joint probability can improve generalization performance, the inference procedure is often time-consuming, and the model can suffer from manifold overfitting. This work proposes an imitation learning framework that benefits from modeling both the conditional and joint probability of the expert distribution. Our proposed Diffusion Model-Augmented Behavioral Cloning (DBC) employs a diffusion model trained to model expert behaviors and learns a policy to optimize both the BC loss (conditional) and our proposed diffusion model loss (joint). DBC outperforms baselines in various continuous control tasks in navigation, robot arm manipulation, dexterous manipulation, and locomotion. We design additional experiments to verify the limitations of modeling either the conditional probability or the joint probability of the expert distribution, as well as compare different generative models. Ablation studies justify the effectiveness of our design choices.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-03
# 自己整合性を有する効率的なマスク付きオートエンコーダ

Efficient Masked Autoencoders with Self-Consistency ( http://arxiv.org/abs/2302.14431v2 )

ライセンス: Link先を確認
Zhaowen Li, Yousong Zhu, Zhiyang Chen, Wei Li, Chaoyang Zhao, Rui Zhao, Ming Tang, Jinqiao Wang, (参考訳) 自然言語処理タスクにおけるマスク付き言語モデリング(MLM)に触発されて、マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。 しかし、MIMの高ランダムマスク比は2つの深刻な問題をもたらす。 1) 各イテレーションにおける画像の不適切なデータ利用は、長期間の事前学習をもたらし、 2) 予測の不整合度が高いと、信頼性の低い世代、すなわち$は、同一のパッチの予測が異なるマスクラウンドで矛盾し、最終的に生成された結果において異なる意味論をもたらす可能性がある。 これらの問題に対処するために,自己整合性を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率の向上とMIMの整合性の向上を図る。 特に,画像をK個の非重なり部分に分割し,それぞれが同じマスク比のランダムマスクによって生成されるパラレルマスク戦略を提案する。 そして、MIMタスクをイテレーション中のすべての部分に並列に実行し、予測とマスクされたパッチの間の損失を最小限に抑える。 さらに,部分間の重なり合うパッチの予測の一貫性をさらに維持するために,自己整合性学習を設計する。 全体として,本手法はより効率的にデータを利用でき,信頼性の高い表現が得られる。 ImageNetの実験によると、EMAEはNVIDIA A100 GPUを使用したMAE事前トレーニング時間のわずか13%で、ViT-Large上で最高のパフォーマンスを達成する。 多様なデータセットを事前トレーニングした後、EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。

Inspired by the masked language modeling (MLM) in natural language processing tasks, the masked image modeling (MIM) has been recognized as a strong self-supervised pre-training method in computer vision. However, the high random mask ratio of MIM results in two serious problems: 1) the inadequate data utilization of images within each iteration brings prolonged pre-training, and 2) the high inconsistency of predictions results in unreliable generations, $i.e.$, the prediction of the identical patch may be inconsistent in different mask rounds, leading to divergent semantics in the ultimately generated outcomes. To tackle these problems, we propose the efficient masked autoencoders with self-consistency (EMAE) to improve the pre-training efficiency and increase the consistency of MIM. In particular, we present a parallel mask strategy that divides the image into K non-overlapping parts, each of which is generated by a random mask with the same mask ratio. Then the MIM task is conducted parallelly on all parts in an iteration and the model minimizes the loss between the predictions and the masked patches. Besides, we design the self-consistency learning to further maintain the consistency of predictions of overlapping masked patches among parts. Overall, our method is able to exploit the data more efficiently and obtains reliable representations. Experiments on ImageNet show that EMAE achieves the best performance on ViT-Large with only 13% of MAE pre-training time using NVIDIA A100 GPUs. After pre-training on diverse datasets, EMAE consistently obtains state-of-the-art transfer ability on a variety of downstream tasks, such as image classification, object detection, and semantic segmentation.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-03
# 非マルコフ環境における政策分散

Policy Dispersion in Non-Markovian Environment ( http://arxiv.org/abs/2302.14509v2 )

ライセンス: Link先を確認
Bohao Qu, Xiaofeng Cao, Jielong Yang, Hechang Chen, Chang Yi, Ivor W. Tsang, Yew-Soon Ong, (参考訳) マルコフ決定過程(MDP)は、強化学習におけるエージェントの学習過程を定式化する数学的枠組みを示す。 MDPは、報酬は即時状態と行動にのみ依存するというマルコフの仮定によって制限される。 しかし、報酬は時として国家や行動の歴史に依存し、非マルコフ的環境における決定過程をもたらす可能性がある。 このような環境では、エージェントは時間的に拡張された行動を通じて報酬を受け取り、学習されたポリシーは似ているかもしれない。 これにより、類似したポリシーで取得されたエージェントは、一般に与えられたタスクに過度に適合し、環境の摂動に迅速に適応できない。 この問題を解決するために,本稿では,多様政策表現を求める政策分散スキームを設計した非マルコフ環境下で,状態-作用対の歴史から多様政策の学習を試みる。 具体的には、まず、ポリシー埋め込みを学習するトランスフォーマーベースの手法を採用する。 次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。 最後に、分散行列が正定値であれば、分散埋め込みはポリシー間の不一致を効果的に拡大することができ、元のポリシー埋め込み分布に対する多様な表現が得られることを証明した。 実験結果から, この分散方式は, 様々な学習環境下での最近の学習ベースラインよりも, より表現力に富んだ多種多様な政策を導出できることが示された。

Markov Decision Process (MDP) presents a mathematical framework to formulate the learning processes of agents in reinforcement learning. MDP is limited by the Markovian assumption that a reward only depends on the immediate state and action. However, a reward sometimes depends on the history of states and actions, which may result in the decision process in a non-Markovian environment. In such environments, agents receive rewards via temporally-extended behaviors sparsely, and the learned policies may be similar. This leads the agents acquired with similar policies generally overfit to the given task and can not quickly adapt to perturbations of environments. To resolve this problem, this paper tries to learn the diverse policies from the history of state-action pairs under a non-Markovian environment, in which a policy dispersion scheme is designed for seeking diverse policy representation. Specifically, we first adopt a transformer-based method to learn policy embeddings. Then, we stack the policy embeddings to construct a dispersion matrix to induce a set of diverse policies. Finally, we prove that if the dispersion matrix is positive definite, the dispersed embeddings can effectively enlarge the disagreements across policies, yielding a diverse expression for the original policy embedding distribution. Experimental results show that this dispersion scheme can obtain more expressive diverse policies, which then derive more robust performance than recent learning baselines under various learning environments.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-03
# 埋め込みとグラフニューラルネットワークを用いた知識グラフによる心性推定

Cardinality Estimation over Knowledge Graphs with Embeddings and Graph Neural Networks ( http://arxiv.org/abs/2303.01140v2 )

ライセンス: Link先を確認
Tim Schwabe, Maribel Acosta, (参考訳) KG(Cardinality Estimation over Knowledge Graphs)は、クエリ最適化において重要であるが、半構造化された性質と典型的な知識グラフの複雑な相関のため、依然として難しい課題である。 本研究では,知識グラフの埋め込みとグラフニューラルネットワーク(GNN)を利用して,結合クエリの濃度を正確に予測する手法であるGNCEを提案する。 GNCEはまず、KG内のすべてのエンティティに対して意味論的に意味のある埋め込みを生成し、それが与えられたクエリに統合され、GNNによって処理され、クエリの濃度を推定する。 我々は、q-Errorの観点から複数のKG上でGNCEを評価し、サンプリング、要約、(機械)の学習において、より少ない実行時間と少ないパラメータをもちながら、推定精度の点で、最先端の手法よりも優れていることを示した。 さらに、GNCEは、動的クエリ処理のシナリオで使用するのに適した、見知らぬエンティティに誘導的に一般化できることを示す。 提案手法は,接続クエリの正確な濃度推定に依存するクエリ最適化および関連アプリケーションを大幅に改善する可能性がある。

Cardinality Estimation over Knowledge Graphs (KG) is crucial for query optimization, yet remains a challenging task due to the semi-structured nature and complex correlations of typical Knowledge Graphs. In this work, we propose GNCE, a novel approach that leverages knowledge graph embeddings and Graph Neural Networks (GNN) to accurately predict the cardinality of conjunctive queries. GNCE first creates semantically meaningful embeddings for all entities in the KG, which are then integrated into the given query, which is processed by a GNN to estimate the cardinality of the query. We evaluate GNCE on several KGs in terms of q-Error and demonstrate that it outperforms state-of-the-art approaches based on sampling, summaries, and (machine) learning in terms of estimation accuracy while also having lower execution time and less parameters. Additionally, we show that GNCE can inductively generalise to unseen entities, making it suitable for use in dynamic query processing scenarios. Our proposed approach has the potential to significantly improve query optimization and related applications that rely on accurate cardinality estimates of conjunctive queries.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-03
# データバイアス調査における特徴的重要性の相違

Feature Importance Disparities for Data Bias Investigations ( http://arxiv.org/abs/2303.01704v4 )

ライセンス: Link先を確認
Peter W. Chang, Leor Fishman, Seth Neel, (参考訳) 分類器における下流バイアスの1つの原因は、トレーニングデータに存在するバイアスであると広く考えられている。 このようなバイアスの是正には、サブグループで別々のモデルをトレーニングしたり、収集プロセスでバイアスのある特徴を取り除いたり、実際の実験を行ってバイアスの源を突き止めたりといったコンテキスト依存的な介入が含まれる。 このようなデータバイアスの調査の必要性にもかかわらず、これらの取り組みの実践者を支援する自動化された方法はほとんどない。 本稿では、保護された機能と保護されていない機能からなるデータセット$X$と、保護されていない機能からなるデータセット$y$と、与えられた$X$を予測するregressor$h$と、トレーニングデータセットのサブセットである$(X, y)$に相当する$(f_j, g)$を出力する。 機械学習コミュニティは、指数関数的に大きなサブグループクラスでさえ、大きなFID値を持つサブグループを効率的に見つけることができ、実際、これらのグループは、標準の公正度測定値によって測定された、潜在的に深刻なバイアスのあるサブグループに対応することができる。

It is widely held that one cause of downstream bias in classifiers is bias present in the training data. Rectifying such biases may involve context-dependent interventions such as training separate models on subgroups, removing features with bias in the collection process, or even conducting real-world experiments to ascertain sources of bias. Despite the need for such data bias investigations, few automated methods exist to assist practitioners in these efforts. In this paper, we present one such method that given a dataset $X$ consisting of protected and unprotected features, outcomes $y$, and a regressor $h$ that predicts $y$ given $X$, outputs a tuple $(f_j, g)$, with the following property: $g$ corresponds to a subset of the training dataset $(X, y)$, such that the $j^{th}$ feature $f_j$ has much larger (or smaller) influence in the subgroup $g$, than on the dataset overall, which we call feature importance disparity (FID). We show across $4$ datasets and $4$ common feature importance methods of broad interest to the machine learning community that we can efficiently find subgroups with large FID values even over exponentially large subgroup classes and in practice these groups correspond to subgroups with potentially serious bias issues as measured by standard fairness metrics.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-03
# スーパーセレクション規則の存在下でのフェルミオンモードの絡み合いの操作

Manipulating fermionic mode entanglement in the presence of superselection rules ( http://arxiv.org/abs/2303.04559v3 )

ライセンス: Link先を確認
Ömer Tırınk, Gökhan Torun, Onur Pusuluk, (参考訳) スーパーセレクションルール(SSR)は、パリティや粒子数などの物理量の保存に関連しており、フェルミオン系における許容可能な物理演算に制約を課している。 これは、与えられた状態にある抽出可能なモードの絡み合いの量と、いわゆる絡み合いのない操作による操作に影響を与える。 ここでは,2部モード絡み合いの混合状態変換(資源非生成操作),すなわち局所演算と古典的通信を局所的なSSRによって制限する,多元化に基づくアルゴリズムを提案する。 次に,局所パリティSSRに着目し,触媒によって課される制約を緩和する可能性を検討する。 特に,アシラリーモードが局所パリティの変化を触媒することを示す。 最後に,様々な分野の様々な問題に対する方法論の適用について論じる。 そこで本研究では, 化学分子における軌道エンタングルメントの活性化と, 量子系における多粒子エンタングルメントや量子不協和の操作に新たな光が当たることを提案する。

Superselection rules (SSRs), linked to the conservation of physical quantities such as parity or particle number, impose constraints on allowable physical operations in fermionic systems. This affects the amount of extractable mode entanglement possessed in a given state and its manipulation by the so-called entanglement-free operations. Here, we present a majorization-based algorithm for the mixed state transformations of bipartite mode entanglement, where the allowed operations (i.e., resource non-generating operations), that is, local operations and classical communication, are restricted by local SSRs. We then focus on the local parity SSR and investigate the possibility to relax the constraints imposed by it through a catalyst. In particular, we show that an ancillary mode system can catalyze the change in local parity. Finally, we discuss the application of our methodology to various problems in different fields. Accordingly, we propose that it may shed new light on the activation of orbital entanglement in chemical molecules and the manipulation of multipartite entanglement or quantum discord in distinguishable quantum systems.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-03
# ZeroNLG: Zero-Shot Multimodal と Multilingual Natural Language 生成のためのドメインのアライメントと自動エンコーディング

ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation ( http://arxiv.org/abs/2303.06458v3 )

ライセンス: Link先を確認
Bang Yang, Fenglin Liu, Yuexian Zou, Xian Wu, Yaowei Wang, David A. Clifton, (参考訳) 自然言語生成(NLG)は、画像、ビデオ、テキストの形式で入力データを受け付け、対応する自然言語テキストを出力として生成する。 既存のNLGメソッドは、主に教師付きアプローチを採用し、結合されたデータとテキストのペアに大きく依存している。 しかし、多くのターゲットシナリオや英語以外の言語では、十分な量のラベル付きデータが利用できないことが多い。 下流タスクのラベル付きデータへの依存を緩和するため、画像からテキストへの変換(画像キャプション)、ビデオからテキストへの変換(ビデオキャプション)、テキストからテキストへの変換(音声機械翻訳)など、複数のNLGタスクを統一されたフレームワークで処理可能な、直感的で効果的なゼロショット学習フレームワークであるZeroNLGを提案する。 ZeroNLGはトレーニングのためにラベル付き下流ペアを必要としない。 ZeroNLGのトレーニング中 i) 共通潜伏空間において対応する座標に異なる領域(全モダリティ及び言語)を計画すること。 (二 この空間において対応する座標を整列させて異なる領域を橋渡しすること。) 三 教師なし多言語自動エンコーダを構築し、共有潜在空間における座標が与えられた入力テキストを再構成することにより、テキストを生成することを学習する。 これにより、データ・トゥ・テキスト・パイプラインに基づく推論において、ZeroNLGは、共通空間における入力データの座標が与えられた場合、異なる言語間でターゲット文を生成することができる。 この統合されたフレームワーク内では、視覚的(画像またはビデオ)データを入力として、ZeroNLGはゼロショットの視覚キャプションを実行することができ、テキスト文を入力として、ゼロショットの機械翻訳を行うことができる。 我々は,12のNLGタスクに対する広範な実験結果を示し,ラベル付き下流ペアをトレーニングに使わずに,ZeroNLGは高品質で信頼性の高い出力を生成し,既存のゼロショット法を著しく上回ることを示す。

Natural Language Generation (NLG) accepts input data in the form of images, videos, or text and generates corresponding natural language text as output. Existing NLG methods mainly adopt a supervised approach and rely heavily on coupled data-to-text pairs. However, for many targeted scenarios and for non-English languages, sufficient quantities of labeled data are often not available. To relax the dependency on labeled data of downstream tasks, we propose an intuitive and effective zero-shot learning framework, ZeroNLG, which can deal with multiple NLG tasks, including image-to-text (image captioning), video-to-text (video captioning), and text-to-text (neural machine translation), across English, Chinese, German, and French within a unified framework. ZeroNLG does not require any labeled downstream pairs for training. During training, ZeroNLG (i) projects different domains (across modalities and languages) to corresponding coordinates in a shared common latent space; (ii) bridges different domains by aligning their corresponding coordinates in this space; and (iii) builds an unsupervised multilingual auto-encoder to learn to generate text by reconstructing the input text given its coordinate in shared latent space. Consequently, during inference, based on the data-to-text pipeline, ZeroNLG can generate target sentences across different languages given the coordinate of input data in the common space. Within this unified framework, given visual (imaging or video) data as input, ZeroNLG can perform zero-shot visual captioning; given textual sentences as input, ZeroNLG can perform zero-shot machine translation. We present the results of extensive experiments on twelve NLG tasks, showing that, without using any labeled downstream pairs for training, ZeroNLG generates high-quality and believable outputs and significantly outperforms existing zero-shot methods.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-03
# 分類における量子データの特徴マップ

Feature Map for Quantum Data in Classification ( http://arxiv.org/abs/2303.15665v2 )

ライセンス: Link先を確認
Hyeokjea Kwon, Hojun Lee, Joonwoo Bae, (参考訳) 教師付き学習におけるカーネルトリックは、特徴写像によって内部積の変換を示し、与えられた内部積に従ってより大きなヒルベルト空間でのトレーニングデータを再構成する。 量子特徴写像は、量子資源を機械学習アルゴリズムに燃やすことにより、量子状態のヒルベルト空間を持つインスタンスに対応する。 本研究では, 量子状態空間は, 測定仮定が内積を特徴づけること, 古典的データから生成した量子状態の操作がデータ点の識別可能性を高めることができないことを指摘した。 本稿では,教師付き学習アルゴリズムを改善するために,量子状態の確率論的操作として,量子データの特徴マップを提案する。

The kernel trick in supervised learning signifies transformations of an inner product by a feature map, which then restructures training data in a larger Hilbert space according to an endowed inner product. A quantum feature map corresponds to an instance with a Hilbert space of quantum states by fueling quantum resources to machine learning algorithms. In this work, we point out that the quantum state space is specific such that a measurement postulate characterizes an inner product and that manipulation of quantum states prepared from classical data cannot enhance the distinguishability of data points. We present a feature map for quantum data as a probabilistic manipulation of quantum states to improve supervised learning algorithms.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-03
# 大規模言語モデルにおけるアライメントの基本的限界

Fundamental Limitations of Alignment in Large Language Models ( http://arxiv.org/abs/2304.11082v6 )

ライセンス: Link先を確認
Yotam Wolf, Noam Wies, Oshri Avnery, Yoav Levine, Amnon Shashua, (参考訳) 人間と対話する言語モデルを開発する上で重要な側面は、人間のユーザにとって有用で有害な振る舞いを整列させることである。 これは通常、望ましい振る舞いを高め、望ましくない振る舞いを阻害する方法でモデルをチューニングすることで達成される。 本稿では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。 重要なことに、このフレームワークの限界内では、モデルによって提示される確率が有限である任意の挙動に対して、プロンプトの長さとともに増加する確率で、モデルにこの挙動を出力させるようなプロンプトが存在することを証明している。 これは、望ましくない振る舞いを弱めるが、完全に取り除かないアライメントプロセスは、敵の攻撃に対して安全ではないことを意味する。 さらに,この枠組みは,人間からのフィードバックからの強化学習などの指導的アライメントアプローチが,LLMを望ましくない行動に駆り立てる傾向があることを示唆している。 この理論的な結果は、現代の"chatGPT jailbreaks"と呼ばれる、敵のユーザがLSMを騙してアライメントガードレールを壊し、悪意のあるペルソナとして行動させることによって、大規模に実証されている。 この結果から,LLMのアライメントにおける基本的な制限が明らかになり,AIの安全性を確保するための信頼性の高いメカニズムの策定の必要性が最前線に浮かび上がっている。

An important aspect in developing language models that interact with humans is aligning their behavior to be useful and unharmful for their human users. This is usually achieved by tuning the model in a way that enhances desired behaviors and inhibits undesired ones, a process referred to as alignment. In this paper, we propose a theoretical approach called Behavior Expectation Bounds (BEB) which allows us to formally investigate several inherent characteristics and limitations of alignment in large language models. Importantly, we prove that within the limits of this framework, for any behavior that has a finite probability of being exhibited by the model, there exist prompts that can trigger the model into outputting this behavior, with probability that increases with the length of the prompt. This implies that any alignment process that attenuates an undesired behavior but does not remove it altogether, is not safe against adversarial prompting attacks. Furthermore, our framework hints at the mechanism by which leading alignment approaches such as reinforcement learning from human feedback make the LLM prone to being prompted into the undesired behaviors. This theoretical result is being experimentally demonstrated in large scale by the so called contemporary "chatGPT jailbreaks", where adversarial users trick the LLM into breaking its alignment guardrails by triggering it into acting as a malicious persona. Our results expose fundamental limitations in alignment of LLMs and bring to the forefront the need to devise reliable mechanisms for ensuring AI safety.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-03
# 蒸留・符号化における非対称性に基づく信頼性量子通信

Reliable Quantum Communications based on Asymmetry in Distillation and Coding ( http://arxiv.org/abs/2305.00949v2 )

ライセンス: Link先を確認
Lorenzo Valentini, René Bødker Christensen, Petar Popovski, Marco Chiani, (参考訳) 絡み合った量子ビットの信頼できるプロビジョニングは、分散量子コンピューティングの様々なスキームにおいて必須の前提条件である。 これは、量子リンク上での伝送中のエラーなど、複数の問題によって解決されるが、デコヒーレンスにより時間の経過とともに絡み合いが悪化するためである。 後者は、量子プロトコルのレイテンシの制約と見なすことができ、量子プロトコル設計の問題をレイテンシ-信頼性制約のコンテキストにもたらす。 本稿では,(1)テレポーテーションと蒸留に基づく間接送信,(2)量子誤り補正(QEC)に基づく直接送信というハイブリッド方式を用いてこの問題に対処する。 直観的には、現在量子ハードウェアは蒸留を必要とする低忠実度を提供しており、一方でQEC技術によって低レイテンシを得ることができる。 提案手法では,非対称な量子誤り訂正符号 (QECC) を用いて, 独自のハイブリッド蒸留および符号化設計の基礎となる非対称性が生じることが示されている。 その結果、アドホックな非対称符号は、従来のQECと比較して、単一リンクと量子ネットワークのシナリオの両方において、性能向上とコードワードサイズ削減をもたらすことがわかった。

The reliable provision of entangled qubits is an essential precondition in a variety of schemes for distributed quantum computing. This is challenged by multiple nuisances, such as errors during the transmission over quantum links, but also due to degradation of the entanglement over time due to decoherence. The latter can be seen as a constraint on the latency of the quantum protocol, which brings the problem of quantum protocol design into the context of latency-reliability constraints. We address the problem through hybrid schemes that combine: (1) indirect transmission based on teleportation and distillation; (2) direct transmission, based on quantum error correction (QEC). The intuition is that, at present, the quantum hardware offers low fidelity, which demands distillation; on the other hand, low latency can be obtained by QEC techniques. It is shown that, in the proposed framework, the distillation protocol gives rise to asymmetries that can be exploited by asymmetric quantum error correcting code (QECC), which sets the basis for unique hybrid distillation and coding design. Our results show that ad-hoc asymmetric codes give, compared to conventional QEC, a performance boost and codeword size reduction both in a single link and in a quantum network scenario.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-03
# NUBO:ベイズ最適化のための透過的なPythonパッケージ

NUBO: A Transparent Python Package for Bayesian Optimization ( http://arxiv.org/abs/2305.06709v2 )

ライセンス: Link先を確認
Mike Diessner, Kevin J. Wilson, Richard D. Whalley, (参考訳) NUBO(ニューカッスル大学ベイズ最適化、英: Newcastle University Bayesian Optimization)は、物理実験やコンピュータシミュレータなど、高価なブラックボックス関数を最適化するためのベイズ最適化フレームワークである。 ベイズ最適化(ベイズ最適化、英: Bayesian optimization)は、ガウス過程による代理モデルを用いて目的関数と獲得関数を表現し、対象関数の大域的最適度を近似するために候補点の選択を導くコスト効率のよい最適化戦略である。 NUBOは透明性とユーザエクスペリエンスを重視し、ベイズ最適化をあらゆる分野の研究者が利用できるようにしている。 クリーンで理解可能なコード、正確な参照、詳細なドキュメントは透明性を保証する一方で、モジュール的で柔軟な設計、書きやすい構文、ベイジアン最適化アルゴリズムの慎重に選択は、優れたユーザエクスペリエンスを保証する。 NUBOは、提供されたビルディングブロックを使用してカスタム最適化ループを記述することで、ベイズ最適化を自身の問題に合わせることができる。 連続的な単一点、並列多点、および有界、制約付き、混合(離散および連続)パラメータ入力空間の非同期最適化をサポートする。 正常に動作するために広範囲にテストされ、検証されたアルゴリズムとメソッドのみがNUBOに含まれる。 これにより、パッケージがコンパクトで、不要な数のオプションでユーザを圧倒しないことが保証される。 パッケージはPythonで書かれているが、シミュレータと実験を最適化するためにPythonのエキスパート知識は必要ない。 NUBOはBSD 3-Clauseライセンスの下でオープンソースソフトウェアとして配布されている。

NUBO, short for Newcastle University Bayesian Optimization, is a Bayesian optimization framework for optimizing expensive-to-evaluate black-box functions, such as physical experiments and computer simulators. Bayesian optimization is a cost-efficient optimization strategy that uses surrogate modeling via Gaussian processes to represent an objective function and acquisition functions to guide the selection of candidate points to approximate the global optimum of the objective function. NUBO focuses on transparency and user experience to make Bayesian optimization accessible to researchers from all disciplines. Clean and understandable code, precise references, and thorough documentation ensure transparency, while a modular and flexible design, easy-to-write syntax, and careful selection of Bayesian optimization algorithms ensure a good user experience. NUBO allows users to tailor Bayesian optimization to their problem by writing a custom optimization loop using the provided building blocks. It supports sequential single-point, parallel multi-point, and asynchronous optimization of bounded, constrained, and mixed (discrete and continuous) parameter input spaces. Only algorithms and methods extensively tested and validated to perform well are included in NUBO. This ensures that the package remains compact and does not overwhelm the user with an unnecessarily large number of options. The package is written in Python but does not require expert knowledge of Python to optimize simulators and experiments. NUBO is distributed as open-source software under the BSD 3-Clause license.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-03
# 編集:マルチグラデーション・ユーザー・コントロールによるビデオ・キャプション編集

Edit As You Wish: Video Caption Editing with Multi-grained User Control ( http://arxiv.org/abs/2305.08389v2 )

ライセンス: Link先を確認
Linli Yao, Yuanmeng Zhang, Ziheng Wang, Xinglin Hou, Tiezheng Ge, Yuning Jiang, Xu Sun, Qin Jin, (参考訳) ユーザ要求に応じた自然言語による動画の自動ナレーション、すなわち制御可能なビデオキャプションタスクは、人々が望んだ意図で巨大なビデオを管理するのに役立つ。 しかし、現存する作品は2つの欠点に悩まされている。 1) 制御信号は単一粒状であり, 多様なユーザ意図を満足できない。 2)ビデオ記述は1ラウンドで生成され,動的なニーズを満たすためにさらに編集することはできない。 本稿では,多粒度ユーザ要求によってガイドされた既存のビデオ記述を自動的に修正する,新しい \textbf{V}ideo \textbf{C}aption \textbf{E}diting \textbf{(VCE)} タスクを提案する。 人間の書き直し習慣にインスパイアされたユーザコマンドは、粗粒度から細粒度まで多様なユーザニーズをカバーするために、ピボット三重項 \{\textit{operation, position, attribute}\} として設計する。 VCEタスクを容易にするために、VATEX-EDITというオープンドメインベンチマークデータセットを構築し、EMMAD-EDITと呼ばれるEコマースデータセットを収集します。 さらに,2つの一般化した大規模マルチモーダルモデルと比較して,新しいタスクを網羅的に分析するために,特殊小スケールモデル(OPA)を提案する。 評価には、キャプション流速、コマンド・キャプションの整合性、ビデオ・キャプションの整合性を考慮した総合的なメトリクスを採用する。 実験は、微細なマルチモーダル意味論の理解と処理の課題を明らかにする。 データセット、コード、評価ツールがオープンソース化される準備ができています。

Automatically narrating videos in natural language complying with user requests, i.e. Controllable Video Captioning task, can help people manage massive videos with desired intentions. However, existing works suffer from two shortcomings: 1) the control signal is single-grained which can not satisfy diverse user intentions; 2) the video description is generated in a single round which can not be further edited to meet dynamic needs. In this paper, we propose a novel \textbf{V}ideo \textbf{C}aption \textbf{E}diting \textbf{(VCE)} task to automatically revise an existing video description guided by multi-grained user requests. Inspired by human writing-revision habits, we design the user command as a pivotal triplet \{\textit{operation, position, attribute}\} to cover diverse user needs from coarse-grained to fine-grained. To facilitate the VCE task, we \textit{automatically} construct an open-domain benchmark dataset named VATEX-EDIT and \textit{manually} collect an e-commerce dataset called EMMAD-EDIT. We further propose a specialized small-scale model (i.e., OPA) compared with two generalist Large Multi-modal Models to perform an exhaustive analysis of the novel task. For evaluation, we adopt comprehensive metrics considering caption fluency, command-caption consistency, and video-caption alignment. Experiments reveal the task challenges of fine-grained multi-modal semantics understanding and processing. Our datasets, codes, and evaluation tools are ready to be open-sourced.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-03
# CFT-Forensics:Crash Fault Tolerant Protocolの高性能ビザンチン会計

CFT-Forensics: High-Performance Byzantine Accountability for Crash Fault Tolerant Protocols ( http://arxiv.org/abs/2305.09123v3 )

ライセンス: Link先を確認
Weizhao Tang, Peiyao Sheng, Ronghao Ni, Pronoy Roy, Xuechao Wang, Giulia Fanti, Pramod Viswanath, (参考訳) クラッシュフォールトトレラント(CFT)コンセンサスアルゴリズムは、システムコンポーネントが信頼されているシナリオ -- エンタープライズ設定や政府インフラストラクチャなど -- で一般的に使用されている。 しかし、CFTのコンセンサスは単一の破損ノードによっても破られる。 破損したノードがプロトコルを破り、コンセンサス安全性に影響する場合、ノード状態から暗号的完全性を持った計算可能なコンポーネントを識別できる。 現在、CFTプロトコルに説明責任を提供する最もよく知られているプロトコルはPeerReviewと呼ばれ、基本的にはCFTプロトコル中に送信されたすべてのメッセージの署名された書き起こしを記録している。 PeerReviewは基盤となるCFTプロトコルに依存しないため、高い通信とストレージオーバーヘッドが発生する。 CFTプロトコルのアカウンタビリティフレームワークであるCFT-Forensicsを提案する。 CFTプロトコル(RaftやMulti-Paxosのような広く使われているCFTプロトコルを含む)の特別なファミリーに対して、CFT-Forensicsは証明可能な説明責任を保証する。 現実的な展開設定の下では、CFT-Forensics が PeerReview のコストのごく一部で機能していることが理論的に示される。 その後、RaftのCFT-Forensicsをインスタンス化し、人気のあるnuRaftライブラリの拡張としてRaft-Forensicsを実装した。 大規模な実験では、バニラ・ラフトにラフト・フォレスティクスが低いオーバーヘッドを付加することを示した。 256バイトのメッセージで、Raft-Forensicsは最高スループット87.8 %のバニラ・ラフトを46 %高いレイテンシ(+44$ms)で達成している。 最終的に、Raft-Forensicsをオープンソースの中央銀行デジタル通貨OpenCBDCに統合し、広範囲のネットワーク実験において、Raftのスループットの97.8倍のレイテンシ(+326$ms)を達成したことを示す。

Crash fault tolerant (CFT) consensus algorithms are commonly used in scenarios where system components are trusted -- e.g., enterprise settings and government infrastructure. However, CFT consensus can be broken by even a single corrupt node. A desirable property in the face of such potential Byzantine faults is \emph{accountability}: if a corrupt node breaks protocol and affects consensus safety, it should be possible to identify the culpable components with cryptographic integrity from the node states. Today, the best-known protocol for providing accountability to CFT protocols is called PeerReview; it essentially records a signed transcript of all messages sent during the CFT protocol. Because PeerReview is agnostic to the underlying CFT protocol, it incurs high communication and storage overhead. We propose CFT-Forensics, an accountability framework for CFT protocols. We show that for a special family of \emph{forensics-compliant} CFT protocols (which includes widely-used CFT protocols like Raft and multi-Paxos), CFT-Forensics gives provable accountability guarantees. Under realistic deployment settings, we show theoretically that CFT-Forensics operates at a fraction of the cost of PeerReview. We subsequently instantiate CFT-Forensics for Raft, and implement Raft-Forensics as an extension to the popular nuRaft library. In extensive experiments, we demonstrate that Raft-Forensics adds low overhead to vanilla Raft. With 256 byte messages, Raft-Forensics achieves a peak throughput 87.8\% of vanilla Raft at 46\% higher latency ($+44$ ms). We finally integrate Raft-Forensics into the open-source central bank digital currency OpenCBDC, and show that in wide-area network experiments, Raft-Forensics achieves 97.8\% of the throughput of Raft, with 14.5\% higher latency ($+326$ ms).
翻訳日:2024-06-04 21:39:44 公開日:2024-06-03
# MCI因果解析のための逆階層拡散モデルを用いた脳イメージング-グラフ生成

Brain Imaging-to-Graph Generation using Adversarial Hierarchical Diffusion Models for MCI Causality Analysis ( http://arxiv.org/abs/2305.10754v2 )

ライセンス: Link先を確認
Qiankun Zuo, Hao Tian, Chi-Man Pun, Hongfei Wang, Yudong Zhang, Jin Hong, (参考訳) 効果的な接続性は、脳領域間の因果パターンを記述することができる。 これらのパターンは、病態のメカニズムを明らかにし、早期診断と認知疾患に対する効果的な薬物開発を促進する可能性がある。 しかし、現在の手法ではソフトウェアツールキットを用いて脳画像から経験的特徴を抽出し、効果的な接続性を推定している。 これらの手法は手動のパラメータ設定に大きく依存しており、効果的な接続推定の際に大きなエラーが発生する可能性がある。 本稿では、機能的磁気共鳴画像(fMRI)を軽度認知障害(MCI)解析に有効な接続性に変換するため、新しい脳画像合成(BIGG)フレームワークを提案する。 具体的には、BIGGフレームワークは拡散復調確率モデル(DDPM)に基づいており、各復調ステップをGAN(Generative Adversarial Network)としてモデル化し、ノイズと条件fMRIを効果的に接続する。 発電機の階層変換器は、複数のスケールでノイズを推定するように設計されている。 各尺度は、脳領域間の空間的情報と時間的情報の両方に集中し、ノイズ除去の良質な品質と因果関係のより良い推論を可能にする。 一方、トランスを用いた判別器は、高品質で多様性の高い生成を改善するために、グローバルなパターンとローカルなパターンをさらに捉えるよう、ジェネレータを制約する。 拡散係数を導入することにより、サンプリングステップサイズが大きいデノイング推論をより効率的にし、効率的な接続生成のための高品質な結果を維持することができる。 ADNIデータセットの評価は,提案モデルの有効性と有効性を示す。 提案モデルは,他の競合手法と比較して優れた予測性能を得るだけでなく,臨床研究と整合したMCI関連因果関係も予測する。

Effective connectivity can describe the causal patterns among brain regions. These patterns have the potential to reveal the pathological mechanism and promote early diagnosis and effective drug development for cognitive disease. However, the current methods utilize software toolkits to extract empirical features from brain imaging to estimate effective connectivity. These methods heavily rely on manual parameter settings and may result in large errors during effective connectivity estimation. In this paper, a novel brain imaging-to-graph generation (BIGG) framework is proposed to map functional magnetic resonance imaging (fMRI) into effective connectivity for mild cognitive impairment (MCI) analysis. To be specific, the proposed BIGG framework is based on the diffusion denoising probabilistic models (DDPM), where each denoising step is modeled as a generative adversarial network (GAN) to progressively translate the noise and conditional fMRI to effective connectivity. The hierarchical transformers in the generator are designed to estimate the noise at multiple scales. Each scale concentrates on both spatial and temporal information between brain regions, enabling good quality in noise removal and better inference of causal relations. Meanwhile, the transformer-based discriminator constrains the generator to further capture global and local patterns for improving high-quality and diversity generation. By introducing the diffusive factor, the denoising inference with a large sampling step size is more efficient and can maintain high-quality results for effective connectivity generation. Evaluations of the ADNI dataset demonstrate the feasibility and efficacy of the proposed model. The proposed model not only achieves superior prediction performance compared with other competing methods but also predicts MCI-related causal connections that are consistent with clinical studies.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-03
# 無線ネットワークにおけるパワーアロケーションのためのエッジプルーニングによるグラフニューラルネットワークの高速化

Accelerating Graph Neural Networks via Edge Pruning for Power Allocation in Wireless Networks ( http://arxiv.org/abs/2305.12639v2 )

ライセンス: Link先を確認
Lili Chen, Jingge Zhu, Jamie Evans, (参考訳) グラフニューラルネットワーク(GNN)は、無線ネットワークにおける電力割り当て問題に対処するための有望なアプローチとして最近登場した。 未ペア送信機と受信機は空間的に離れた場合が多いため,GNNのチャネル状態情報を取り除いたり含めたりすることで,計算時間を短縮するために距離ベースしきい値を提案する。 本稿では,GNNの時間的複雑性を抑えるために,近隣のしきい値を用いたアプローチを初めて導入する。 さらに,距離に基づく閾値と近傍の閾値の両方を包括的に分析し,異なる通信チャネルのシナリオで適切な値を選択するためのレコメンデーションを提供する。 ネットワークスループットを最大化するために送信電力の割当を目的とし、近隣のグラフニューラルネットワーク(N-GNN)を設計する。 以上の結果から,提案したN-GNNは,高い性能と一般化能力を維持しつつ,時間的複雑性を低減できるという利点があることがわかった。 さらに、適切なしきい値を選択することで、時間複雑性が O(|V|^2) から O(|V|) に還元され、|V| はトランシーバー対の総数であることを示す。

Graph Neural Networks (GNNs) have recently emerged as a promising approach to tackling power allocation problems in wireless networks. Since unpaired transmitters and receivers are often spatially distant, the distance-based threshold is proposed to reduce the computation time by excluding or including the channel state information in GNNs. In this paper, we are the first to introduce a neighbour-based threshold approach to GNNs to reduce the time complexity. Furthermore, we conduct a comprehensive analysis of both distance-based and neighbour-based thresholds and provide recommendations for selecting the appropriate value in different communication channel scenarios. We design the corresponding neighbour-based Graph Neural Networks (N-GNN) with the aim of allocating transmit powers to maximise the network throughput. Our results show that our proposed N-GNN offer significant advantages in terms of reducing time complexity while preserving strong performance and generalisation capacity. Besides, we show that by choosing a suitable threshold, the time complexity is reduced from O(|V|^2) to O(|V|), where |V| is the total number of transceiver pairs.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-03
# 回転平衡(Rotational Equilibrium) - ニューラルネットワーク間の学習バランスの低下

Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks ( http://arxiv.org/abs/2305.17212v4 )

ライセンス: Link先を確認
Atli Kosson, Bettina Messmer, Martin Jaggi, (参考訳) 本研究では, 応用解析と実験を組み合わせることで, 深部ニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討した。 軽量崩壊は、ニューロンの重みベクトルの期待される大きさと角の更新を、回転平衡と呼ばれる定常状態に収束させる。 これらの状態は高度に均一であり、異なる層やニューロン間で平均回転(効果的な学習速度のプロキシ)を効果的にバランスさせることができる。 私たちの研究は、Adam、Lion、SGDといったオプティマイザにまたがるこれらのダイナミクスを運動量で分析し、ディープラーニングにおいて広く使われているが、理解されていない方法の有効性を解明する、トレーニングに関する新たなシンプルな視点を提供します。 本稿では,L2-正則化を施したAdamWとAdamWの両法則化の有効性において,バランスの取れた回転が重要な役割を担っていることを示す。 最後に, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習速度のウォームアップを著しく低減できることを示した。

This study investigates how weight decay affects the update behavior of individual neurons in deep neural networks through a combination of applied analysis and experimentation. Weight decay can cause the expected magnitude and angular updates of a neuron's weight vector to converge to a steady state we call rotational equilibrium. These states can be highly homogeneous, effectively balancing the average rotation -- a proxy for the effective learning rate -- across different layers and neurons. Our work analyzes these dynamics across optimizers like Adam, Lion, and SGD with momentum, offering a new simple perspective on training that elucidates the efficacy of widely used but poorly understood methods in deep learning. We demonstrate how balanced rotation plays a key role in the effectiveness of normalization like Weight Standardization, as well as that of AdamW over Adam with L2-regularization. Finally, we show that explicitly controlling the rotation provides the benefits of weight decay while substantially reducing the need for learning rate warmup.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-03
# 自由フェルミオン分布は学習が難しい

Free Fermion Distributions Are Hard to Learn ( http://arxiv.org/abs/2306.04731v2 )

ライセンス: Link先を確認
Alexander Nietner, (参考訳) 自由フェルミオンは、最も研究されている量子系の1つである。 しかし、自由フェルミオン分布の学習の複雑さについてはほとんど分かっていない。 この研究は、粒子数非保存の場合において、このタスクの硬さを確立する。 特に,期待値から学習する一般的なタスクに対して情報理論的硬度結果を与えるとともに,アルゴリズムがサンプルへのアクセスを与えられた場合,確率密度関数を学習するためのLPN仮定に基づく計算硬度結果を与える。

Free fermions are some of the best studied quantum systems. However, little is known about the complexity of learning free-fermion distributions. In this work we establish the hardness of this task in the particle number non-preserving case. In particular, we give an information theoretical hardness result for the general task of learning from expectation values and, in the more general case when the algorithm is given access to samples, we give a computational hardness result based on the LPN assumption for learning the probability density function.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-03
# 最適化の観点からの拡散モデルの解釈と改善

Interpreting and Improving Diffusion Models from an Optimization Perspective ( http://arxiv.org/abs/2306.04848v4 )

ライセンス: Link先を確認
Frank Permenter, Chenyang Yuan, (参考訳) 妄想は射影と直感的に関連している。 実際、多様体仮説の下では、ランダムノイズを加えることは直交摂動とほぼ同値である。 したがって、妄想を学ぶことは、プロジェクトを学ぶことです。 本稿では,この観測結果を用いて,ユークリッド距離関数に適用される近似勾配勾配として拡散モデルを解釈する。 そこで本研究では, DDIM サンプルの直進収束解析をデノイザの投影誤差に関する簡単な仮定で行う。 最後に,理論結果からの洞察を用いてDDIMを一般化した新しい勾配推定サンプリング手法を提案する。 CIFAR-10 と CelebA のモデルを用いて, 5-10 の関数評価を行い, 潜伏拡散モデル上で高品質なサンプルを生成する。

Denoising is intuitively related to projection. Indeed, under the manifold hypothesis, adding random noise is approximately equivalent to orthogonal perturbation. Hence, learning to denoise is approximately learning to project. In this paper, we use this observation to interpret denoising diffusion models as approximate gradient descent applied to the Euclidean distance function. We then provide straight-forward convergence analysis of the DDIM sampler under simple assumptions on the projection error of the denoiser. Finally, we propose a new gradient-estimation sampler, generalizing DDIM using insights from our theoretical results. In as few as 5-10 function evaluations, our sampler achieves state-of-the-art FID scores on pretrained CIFAR-10 and CelebA models and can generate high quality samples on latent diffusion models.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-03
# データ駆動信頼最小化による保守的予測

Conservative Prediction via Data-Driven Confidence Minimization ( http://arxiv.org/abs/2306.04974v2 )

ライセンス: Link先を確認
Caroline Choi, Fahim Tajwar, Yoonho Lee, Huaxiu Yao, Ananya Kumar, Chelsea Finn, (参考訳) 機械学習の安全性クリティカルな応用においては、トレーニングデータによく表現されていない未知の入力に対する予測を控え、保守的であることが望ましい場合が多い。 しかし、テスト時に全ての潜在的な入力を予測できないため、未知のサンプルを検出することは困難である。 これに対処するため、事前の作業(Hendrycks et al , 2018)は、トレーニング分布から切り離されるように慎重にキュレートされた補助アウトリアデータセットに対するモデルの信頼性を最小化する。 理論的には、信頼度最小化のための補助データセットの選択を解析し、(1)補助セットがテスト時間で見られるような未知の例を含む場合、信頼性最小化は未知のテスト例の証明可能な検出につながること、(2)第一条件が満たされた場合、アウト・オブ・ディストリビューション(OOD)検出の既知の例をフィルタリングする必要がないこと、の2つの実行可能な洞察を明らかにする。 これらのガイドラインにより、不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化(DCM)フレームワークを提案する。 予備的な予測が最重要である2つの問題(選択的分類とOOD検出)にDCMを適用し、各設定に対する不確実性データを収集する現実的な方法を提供する。 我々の実験では、DCMは、12のID-OODデータセットペアに対して、未確認分布でテストされた場合、既存の4つのデータセットに対する選択的分類手法を一貫して上回り、最先端のOOD検出手法を上回り、FPR(TPR 9,5\%$)を6.3\%、CIFAR-10およびCIFAR-100で5.1\%で削減する。

In safety-critical applications of machine learning, it is often desirable for a model to be conservative, abstaining from making predictions on unknown inputs which are not well-represented in the training data. However, detecting unknown examples is challenging, as it is impossible to anticipate all potential inputs at test time. To address this, prior work (Hendrycks et al., 2018) minimizes model confidence on an auxiliary outlier dataset carefully curated to be disjoint from the training distribution. We theoretically analyze the choice of auxiliary dataset for confidence minimization, revealing two actionable insights: (1) if the auxiliary set contains unknown examples similar to those seen at test time, confidence minimization leads to provable detection of unknown test examples, and (2) if the first condition is satisfied, it is unnecessary to filter out known examples for out-of-distribution (OOD) detection. Motivated by these guidelines, we propose the Data-Driven Confidence Minimization (DCM) framework, which minimizes confidence on an uncertainty dataset. We apply DCM to two problem settings in which conservative prediction is paramount -- selective classification and OOD detection -- and provide a realistic way to gather uncertainty data for each setting. In our experiments, DCM consistently outperforms existing selective classification approaches on 4 datasets when tested on unseen distributions and outperforms state-of-the-art OOD detection methods on 12 ID-OOD dataset pairs, reducing FPR (at TPR $95\%$) by $6.3\%$ and $58.1\%$ on CIFAR-10 and CIFAR-100 compared to Outlier Exposure.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-03
# 分散変分不等式のための通信効率の良いグラディエントDescent-Accent法:統一解析と局所更新

Communication-Efficient Gradient Descent-Accent Methods for Distributed Variational Inequalities: Unified Analysis and Local Updates ( http://arxiv.org/abs/2306.05100v2 )

ライセンス: Link先を確認
Siqi Zhang, Sayantan Choudhury, Sebastian U Stich, Nicolas Loizou, (参考訳) 分散およびフェデレートされた学習アルゴリズムと、主に最小化問題に関連する技術。 しかし、機械学習におけるミニマックス最適化と変分不等式問題の増加に伴い、これらの問題に対して効率的な分散/フェデレート学習アプローチを設計する必要性が高まっている。 本稿では,分散変動不等式問題(VIP)に対する通信効率の良い局所訓練手法の統一収束解析を行う。 提案手法は,非単調なVIPのクラスを解くための1つの枠組みの下で,複数の新しい局所学習アルゴリズムの提案と解析を可能にする確率的推定に関する一般的な鍵となる仮定に基づいている。 異種データにおける分散変分不等式を解決するために,通信複雑性を向上した最初の局所勾配降下偏差アルゴリズムを提案する。 一般的なアルゴリズムフレームワークは、最先端のアルゴリズムを復元し、設定が最小化または最小化の最適化問題に特化する場合、その鋭い収束を保証する。 最後に,フェデレートされたミニマックス最適化問題の解法における最先端手法と比較して,提案アルゴリズムの強い性能を示す。

Distributed and federated learning algorithms and techniques associated primarily with minimization problems. However, with the increase of minimax optimization and variational inequality problems in machine learning, the necessity of designing efficient distributed/federated learning approaches for these problems is becoming more apparent. In this paper, we provide a unified convergence analysis of communication-efficient local training methods for distributed variational inequality problems (VIPs). Our approach is based on a general key assumption on the stochastic estimates that allows us to propose and analyze several novel local training algorithms under a single framework for solving a class of structured non-monotone VIPs. We present the first local gradient descent-accent algorithms with provable improved communication complexity for solving distributed variational inequalities on heterogeneous data. The general algorithmic framework recovers state-of-the-art algorithms and their sharp convergence guarantees when the setting is specialized to minimization or minimax optimization problems. Finally, we demonstrate the strong performance of the proposed algorithms compared to state-of-the-art methods when solving federated minimax optimization problems.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-03
# Chain-of-Knowledge Promptingによる言語モデルの強化

Boosting Language Models Reasoning with Chain-of-Knowledge Prompting ( http://arxiv.org/abs/2306.06427v3 )

ライセンス: Link先を確認
Jianing Wang, Qiushi Sun, Xiang Li, Ming Gao, (参考訳) 最近、Chain-of-Thought(CoT)プロンプトは複雑な推論タスクの成功をもたらしており、これは '`Let's Think Step by Step'' のような単純なプロンプトを設計することを目的としている。 しかし、生成された合理性はしばしば間違いを伴い、非事実的で不誠実な推論連鎖を作る。 この脆さを緩和するために,我々は,構造三重の形で明示的な知識証拠を生成するためにLSMを抽出することを目的とした,新しい知識の連鎖(CoK)プロンプトを提案する。 これは人間の行動、つまり、複雑な質問に答える前に脳の推論証拠としてマインドマップや知識マップを描けることにインスパイアされている。 さらに, 事実性および忠実性の観点から, 推論チェーンの信頼性を推定するF^2-Verification法を導入する。 信頼できない反応については、誤った証拠がLSMに再考を促すために示される。 広汎な実験により,本手法はコモンセンス,事実,記号,算術的推論タスクの性能をさらに向上させることができることが示された。

Recently, Chain-of-Thought (CoT) prompting has delivered success on complex reasoning tasks, which aims at designing a simple prompt like ``Let's think step by step'' or multiple in-context exemplars with well-designed rationales to elicit Large Language Models (LLMs) to generate intermediate reasoning steps. However, the generated rationales often come with mistakes, making unfactual and unfaithful reasoning chains. To mitigate this brittleness, we propose a novel Chain-of-Knowledge (CoK) prompting, where we aim at eliciting LLMs to generate explicit pieces of knowledge evidence in the form of structure triple. This is inspired by our human behaviors, i.e., we can draw a mind map or knowledge map as the reasoning evidence in the brain before answering a complex question. Benefiting from CoK, we additionally introduce a F^2-Verification method to estimate the reliability of the reasoning chains in terms of factuality and faithfulness. For the unreliable response, the wrong evidence can be indicated to prompt the LLM to rethink. Extensive experiments demonstrate that our method can further improve the performance of commonsense, factual, symbolic, and arithmetic reasoning tasks.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-03
# ハイパースペクトル画像分類のための多段階多段階拡散特性の探索

Exploring Multi-Timestep Multi-Stage Diffusion Features for Hyperspectral Image Classification ( http://arxiv.org/abs/2306.08964v2 )

ライセンス: Link先を確認
Jingyi Zhou, Jiamu Sheng, Jiayuan Fan, Peng Ye, Tong He, Bin Wang, Tao Chen, (参考訳) スペクトル空間特徴学習の有効性は、ハイパースペクトル画像(HSI)分類タスクにおいて重要である。 拡散モデルは、新たな基盤となる生成モデルのクラスとして、異なる時間ステップ次元から文脈意味論とテキスト詳細の両方を学ぶ能力を持ち、HSIにおける複雑なスペクトル-空間関係のモデリングを可能にする。 しかし、既存の拡散に基づくHSI分類法は、拡散モデルに隠されたリッチな文脈意味論とテキスト情報の完全な探索と活用を制限し、手動で選択した単一段階の特徴のみを利用する。 この問題に対処するために,HSI分類のためのマルチステップ多段階拡散機能(MTMSD)を初めて検討する,拡散に基づく新しい特徴学習フレームワークを提案する。 具体的には、拡散モデルをまずラベルなしHSIパッチで事前訓練し、ラベルなしデータの意味をマイニングし、マルチステップ多段拡散特徴を抽出する。 マルチステップのマルチステージ特徴を効果的かつ効率的に活用するため、さらに2つの戦略が開発されている。 1つの戦略は、クラスとタイムステップ指向のマルチステージ機能浄化モジュールで、クラス間とタイムステップ間は、マルチステージ機能の冗長性を低減し、メモリ制約を軽減する。 もうひとつは、グローバル機能のガイダンスを備えた選択タイムステップ機能融合モジュールで、テクスチャとセマンティクスを統合するために、異なるタイムステップ機能を適応的に選択する。 どちらの戦略も、様々なHSIデータのパターンに対するMTMSDフレームワークの汎用性と適応性を促進する。 大規模な実験は4つの公開HSIデータセットで行われ、その結果、HSI分類のための最先端の手法、特にHouston 2018データセットよりも優れた結果が得られた。

The effectiveness of spectral-spatial feature learning is crucial for the hyperspectral image (HSI) classification task. Diffusion models, as a new class of groundbreaking generative models, have the ability to learn both contextual semantics and textual details from the distinct timestep dimension, enabling the modeling of complex spectral-spatial relations in HSIs. However, existing diffusion-based HSI classification methods only utilize manually selected single-timestep single-stage features, limiting the full exploration and exploitation of rich contextual semantics and textual information hidden in the diffusion model. To address this issue, we propose a novel diffusion-based feature learning framework that explores Multi-Timestep Multi-Stage Diffusion features for HSI classification for the first time, called MTMSD. Specifically, the diffusion model is first pretrained with unlabeled HSI patches to mine the connotation of unlabeled data, and then is used to extract the multi-timestep multi-stage diffusion features. To effectively and efficiently leverage multi-timestep multi-stage features,two strategies are further developed. One strategy is class & timestep-oriented multi-stage feature purification module with the inter-class and inter-timestep prior for reducing the redundancy of multi-stage features and alleviating memory constraints. The other one is selective timestep feature fusion module with the guidance of global features to adaptively select different timestep features for integrating texture and semantics. Both strategies facilitate the generality and adaptability of the MTMSD framework for diverse patterns of different HSI data. Extensive experiments are conducted on four public HSI datasets, and the results demonstrate that our method outperforms state-of-the-art methods for HSI classification, especially on the challenging Houston 2018 dataset.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-03
# ProtoGate: タブラルバイオメディカルデータに対するグローバル-ローカル特徴選択によるプロトタイプベースニューラルネットワーク

ProtoGate: Prototype-based Neural Networks with Global-to-local Feature Selection for Tabular Biomedical Data ( http://arxiv.org/abs/2306.12330v2 )

ライセンス: Link先を確認
Xiangjian Jiang, Andrei Margeloiu, Nikola Simidjievski, Mateja Jamnik, (参考訳) タブラルバイオメディカルデータは、しばしば高次元で典型的には低サンプルサイズ(HDLSS)であるため、機械学習において課題を提起する。 従来の研究では、局所的な特徴選択を通じてこれらの課題に対処しようと試みてきたが、グローバルな重要な特徴の特定と、協調適応問題への感受性の制限により、既存のアプローチは最適な性能を達成できない場合が多い。 本稿では,HDLSSデータの特徴選択のためのプロトタイプベースニューラルモデルであるProtoGateを提案する。 ProtoGateはまず、グローバルとローカルの機能選択を適応的にバランスさせることで、インスタンスワイズ機能を選択する。 さらに、ProtoGateは、非パラメトリックプロトタイプベースの予測メカニズムを使用して、コ適応問題に対処し、特徴の選択結果と予測が基礎となるデータクラスタと一致していることを保証する。 人工および実世界のデータセット上でのProtoGateの性能と解釈可能性を評価するための総合的な実験を行う。 その結果,ProtoGateは,高忠実度特徴選択と説明可能な予測を提供しながら,平均余白による予測精度の最先端手法よりも優れていた。 コードはhttps://github.com/SilenceX12138/ProtoGateで入手できる。

Tabular biomedical data poses challenges in machine learning because it is often high-dimensional and typically low-sample-size (HDLSS). Previous research has attempted to address these challenges via local feature selection, but existing approaches often fail to achieve optimal performance due to their limitation in identifying globally important features and their susceptibility to the co-adaptation problem. In this paper, we propose ProtoGate, a prototype-based neural model for feature selection on HDLSS data. ProtoGate first selects instance-wise features via adaptively balancing global and local feature selection. Furthermore, ProtoGate employs a non-parametric prototype-based prediction mechanism to tackle the co-adaptation problem, ensuring the feature selection results and predictions are consistent with underlying data clusters. We conduct comprehensive experiments to evaluate the performance and interpretability of ProtoGate on synthetic and real-world datasets. The results show that ProtoGate generally outperforms state-of-the-art methods in prediction accuracy by a clear margin while providing high-fidelity feature selection and explainable predictions. Code is available at https://github.com/SilenceX12138/ProtoGate.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-03
# 相関を超える予測的符号化

Predictive Coding beyond Correlations ( http://arxiv.org/abs/2306.15479v2 )

ライセンス: Link先を確認
Tommaso Salvatori, Luca Pinchetti, Amine M'Charrak, Beren Millidge, Thomas Lukasiewicz, (参考訳) 近年,生物学的に検証可能なアルゴリズムの能力に関する研究が盛んに行われている。 本研究では、予測符号化と呼ばれるアルゴリズムの1つが因果推論タスクを実行可能であることを示す。 まず、予測符号化の推論過程における簡単な変化が、因果グラフを再利用したり再定義したりすることなく、介入を計算できることを示す。 次に、グラフが未知の場合に応用を探求し、観測データから推測する必要がある。 実験により,画像分類タスクにおける予測符号化の性能向上にこのような知見が有効であることを示すとともに,単純なエンドツーエンド因果推論タスクを実現できると結論づける。

Recently, there has been extensive research on the capabilities of biologically plausible algorithms. In this work, we show how one of such algorithms, called predictive coding, is able to perform causal inference tasks. First, we show how a simple change in the inference process of predictive coding enables to compute interventions without the need to mutilate or redefine a causal graph. Then, we explore applications in cases where the graph is unknown, and has to be inferred from observational data. Empirically, we show how such findings can be used to improve the performance of predictive coding in image classification tasks, and conclude that such models are able to perform simple end-to-end causal inference tasks.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-03
# 不確かさを意識した前立腺癌分類のための画像間翻訳によるドメイン転送

Domain Transfer Through Image-to-Image Translation for Uncertainty-Aware Prostate Cancer Classification ( http://arxiv.org/abs/2307.00479v2 )

ライセンス: Link先を確認
Meng Zhou, Amoon Jamzad, Jason Izard, Alexandre Menard, Robert Siemens, Parvin Mousavi, (参考訳) 前立腺癌(PCa)は男性の間で流行する疾患であり、マルチパラメトリックMRIはその検出に非侵襲的な方法を提供する。 MRIベースのディープラーニングソリューションはPCa診断をサポートする上で有望であるが、特に局所診療所において十分なトレーニングデータを取得することは依然として困難である。 潜在的な解決策の1つは、公開データセットを利用して、ディープモデルを事前トレーニングし、ローカルデータに微調整することだ。 これらの制限は、PCa診断のためのローカルクリニックにおける説明可能な、信頼性の高いディープラーニングソリューションの採用を妨げる。 本研究では,前立腺多パラメータMRIの非対位画像変換のための新しいアプローチと,臨床的に重要なPCaを分類するための不確実性を考慮したトレーニング手法を提案する。 提案手法では,無ペアの3.0T多パラメータ前立腺MRIを1.5Tに翻訳し,利用可能なトレーニングデータを増強する。 さらに,モデル不確実性を推定し,トレーニング中にデータセットフィルタリング技術を用いるための明らかな深層学習手法を提案する。 さらに,本手法を効果的に学習するために,焦点損失と明らかな不確実性を組み合わせた簡易かつ効率的なエビデンシャル・フォカル・ロスを提案する。 実験の結果,提案手法は,従来の研究に比べてAUC(Area Under ROC Curve)を20%以上改善することがわかった。 私たちのコードはhttps://github.com/med-i-lab/DT_UE_PCaで利用可能です。

Prostate Cancer (PCa) is a prevalent disease among men, and multi-parametric MRIs offer a non-invasive method for its detection. While MRI-based deep learning solutions have shown promise in supporting PCa diagnosis, acquiring sufficient training data, particularly in local clinics remains challenging. One potential solution is to take advantage of publicly available datasets to pre-train deep models and fine-tune them on the local data, but multi-source MRIs can pose challenges due to cross-domain distribution differences. These limitations hinder the adoption of explainable and reliable deep-learning solutions in local clinics for PCa diagnosis. In this work, we present a novel approach for unpaired image-to-image translation of prostate multi-parametric MRIs and an uncertainty-aware training approach for classifying clinically significant PCa, to be applied in data-constrained settings such as local and small clinics. Our approach involves a novel pipeline for translating unpaired 3.0T multi-parametric prostate MRIs to 1.5T, thereby augmenting the available training data. Additionally, we introduce an evidential deep learning approach to estimate model uncertainty and employ dataset filtering techniques during training. Furthermore, we propose a simple, yet efficient Evidential Focal Loss, combining focal loss with evidential uncertainty, to train our model effectively. Our experiments demonstrate that the proposed method significantly improves the Area Under ROC Curve (AUC) by over 20% compared to the previous work. Our code is available at https://github.com/med-i-lab/DT_UE_PCa
翻訳日:2024-06-04 21:20:11 公開日:2024-06-03
# ValiTex - 社会構成の計算テキストに基づく測定のための統合検証フレームワーク

ValiTex -- a unified validation framework for computational text-based measures of social constructs ( http://arxiv.org/abs/2307.02863v5 )

ライセンス: Link先を確認
Lukas Birkenmaier, Claudia Wagner, Clemens Lechner, (参考訳) 社会構造に関する計算テキストに基づく尺度の検証方法に関するガイダンスが断片化されている。 研究者は一般的に、テキストベースの尺度を検証することの重要性を認めているが、共有語彙とそれを行うための統一された枠組みが欠如していることが多い。 本稿では,テキストデータ中の社会構造を有効に測定する上で,研究者を支援するための新たな検証フレームワークであるValiTextを紹介する。 この枠組みは、社会科学における妥当性の概念的基盤の上に構築され、社会科学における検証実践の実証的なレビューと専門家との相談によって強化されている。 結局のところ、ValiTextは研究者に、実体的証拠(測定の理論的基盤を概説する)、構造的証拠(テキストモデルの性質と出力を調べる)、外部的証拠(測定が独立情報にどのように関係しているかをテストする)の3つの種類の検証証拠を提示するよう要求している。 このフレームワークは、検証手順のチェックリストによってさらに補完され、検証プロセスの研究者をガイドするドキュメントシートの形で実践的なガイダンスを提供する。

Guidance on how to validate computational text-based measures of social constructs is fragmented. While researchers generally acknowledge the importance of validating text-based measures, they often lack a shared vocabulary and a unified framework to do so. This paper introduces ValiText, a new validation framework designed to assist scholars in validly measuring social constructs in textual data. The framework is built on a conceptual foundation of validity in the social sciences, strengthened by an empirical review of validation practices in the social sciences and consultations with experts. Ultimately, ValiText prescribes researchers to demonstrate three types of validation evidence: substantive evidence (outlining the theoretical underpinning of the measure), structural evidence (examining the properties of the text model and its output) and external evidence (testing for how the measure relates to independent information). The framework is further supplemented by a checklist of validation steps, offering practical guidance in the form of documentation sheets that guide researchers in the validation process.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-03
# 高周波フェールスター共鳴による高忠実度FCSゲート

High-fidelity $CCΦ$ gates via radio-frequency-induced Förster resonances ( http://arxiv.org/abs/2307.12789v2 )

ライセンス: Link先を確認
I. N. Ashkarin, S. Lepoutre, P. Pillet, I. I. Beterov, I. I. Ryabtsev, P. Cheinet, (参考訳) 制限された中性原子の登録は、強い長距離相互作用を誘発するためにライドバーグ状態に励起され、量子コンピューティングの直接的な応用のために広範囲に研究されている。 本稿では、高励起の$^{87}$Rb原子配列における高周波誘起F\"{o}rster共鳴相互作用に基づく新しい$CC\Phi$量子位相ゲートプロトコルを提案する。 RFフィールドアプリケーションによって提供される相互作用の極端な制御性により、原子系の幅広いパラメータに対する高忠実かつ堅牢なゲート性能が実現され、ゲートプロトコルの実験的実装が著しく促進される。 有限のリドベルク状態と原子位置制御の不完全性を考慮すると、低温環境では理論ゲートの忠実度を最大99.7 %まで達成し、現代の量子エラー補正技術とのプロトコル互換性を示す。

Registers of trapped neutral atoms, excited to Rydberg states to induce strong long-distance interactions, are extensively studied for direct applications in quantum computing. Here, we present a novel $CC\Phi$ quantum phase gate protocol based on radio-frequency-induced F\"{o}rster resonant interactions in the array of highly excited $^{87}$Rb atoms. The extreme controllability of interactions provided by RF field application enables high-fidelity and robust gate performance for a wide range of parameters of the atomic system, as well as it significantly facilitates the experimental implementation of the gate protocol. Taking into account finite Rydberg states lifetimes and atomic position control imperfections, we achieve theoretical gate fidelities of up to $99.7 \%$ in a cryogenic environment, thus showing the protocol compatibility with modern quantum error correction techniques.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-03
# ベイジアン探査網

Bayesian Exploration Networks ( http://arxiv.org/abs/2308.13049v3 )

ライセンス: Link先を確認
Mattie Fellows, Brandon Kaplowitz, Christian Schroeder de Witt, Shimon Whiteson, (参考訳) ベイズ強化学習(RL)は、不確実性の下でのシーケンシャルな意思決定に原則的でエレガントなアプローチを提供する。 特に、ベイズエージェントは、頻繁な方法の主要な病理である探索/探索ジレンマに直面しない。 しかし、モデルフリーアプローチの理論的理解は欠如している。 本稿では,新しいベイズ的モデルフリーな定式化を導入するとともに,モデルフリーなアプローチがベイズ最適政策をもたらすことを示す最初の分析を行う。 既存のすべてのモデルフリーアプローチが、任意にベイズ・サブ最適化できるポリシーをもたらす近似を成すことを示す。 モデルフリーベイズ最適性に向けた第一歩として,正規化フローを用いたベイズ探索ネットワーク(BEN)を導入し,ベルマン作用素のアレタリック不確実性(密度推定)とエピステマティック不確実性(変動推論)の両方をモデル化する。 完全最適化の限界において、BENは真のベイズ最適化ポリシーを学習するが、変分期待最大化と同様に、部分最適化は我々のアプローチを引き付けることができる。 実証的な結果は、BENが既存のモデルフリーアプローチが失敗するタスクにおいて、真のベイズ最適化ポリシーを学習できることを証明している。

Bayesian reinforcement learning (RL) offers a principled and elegant approach for sequential decision making under uncertainty. Most notably, Bayesian agents do not face an exploration/exploitation dilemma, a major pathology of frequentist methods. However theoretical understanding of model-free approaches is lacking. In this paper, we introduce a novel Bayesian model-free formulation and the first analysis showing that model-free approaches can yield Bayes-optimal policies. We show all existing model-free approaches make approximations that yield policies that can be arbitrarily Bayes-suboptimal. As a first step towards model-free Bayes optimality, we introduce the Bayesian exploration network (BEN) which uses normalising flows to model both the aleatoric uncertainty (via density estimation) and epistemic uncertainty (via variational inference) in the Bellman operator. In the limit of complete optimisation, BEN learns true Bayes-optimal policies, but like in variational expectation-maximisation, partial optimisation renders our approach tractable. Empirical results demonstrate that BEN can learn true Bayes-optimal policies in tasks where existing model-free approaches fail.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-03
# TextBind: 野生のマルチターンインターリーブマルチモーダルインストラクションフォロー

TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild ( http://arxiv.org/abs/2309.08637v5 )

ライセンス: Link先を確認
Huayang Li, Siheng Li, Deng Cai, Longyue Wang, Lemao Liu, Taro Watanabe, Yujiu Yang, Shuming Shi, (参考訳) 命令追従能力を持つ大規模言語モデルは、人工知能の分野に革命をもたらした。 これらのモデルは、自然言語インタフェースを通じて様々な現実世界のタスクに取り組むという、非常に一般的な方法を示している。 しかし、その性能は高品質な模範データに大きく依存しており、入手が困難であることが多い。 この課題は、後続のマルチモーダル命令に関してさらに悪化している。 マルチターンインターリーブ型マルチモーダル命令追従機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。 提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。 そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。 我々は、マルチモーダル・インストラクションの分野における将来の研究を促進するために、データセット、モデル、デモをリリースする。

Large language models with instruction-following abilities have revolutionized the field of artificial intelligence. These models show exceptional generalizability to tackle various real-world tasks through their natural language interfaces. However, their performance heavily relies on high-quality exemplar data, which is often difficult to obtain. This challenge is further exacerbated when it comes to multimodal instruction following. We introduce TextBind, an almost annotation-free framework for empowering larger language models with the multi-turn interleaved multimodal instruction-following capabilities. Our approach requires only image-caption pairs and generates multi-turn multimodal instruction-response conversations from a language model. To accommodate interleaved image-text inputs and outputs, we devise MIM, a language model-centric architecture that seamlessly integrates image encoder and decoder models. We release our dataset, model, and demo to foster future research in the area of multimodal instruction following.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-03
# 相関放射による協調量子力学のための固体プラットフォーム

A solid-state platform for cooperative quantum dynamics driven by correlated emission ( http://arxiv.org/abs/2309.08991v3 )

ライセンス: Link先を確認
Xin Li, Jamir Marino, Darrick E. Chang, Benedetta Flebus, (参考訳) 伝統的に量子コヒーレンス(英語版)の障害と見なされてきたが、近年の量子光学のブレークスルーにより、量子ビットと環境との散逸的な相互作用が量子状態の保護と多体絡みの合成に利用できることが示されている。 この進歩に触発されて、我々は、ハイブリッド固体プラットフォームにおける類似の協調現象の探求のステージを設定した。 本研究では, 固体スピン欠陥のアンサンブルの量子多体ダイナミクスに対する包括的定式化法を開発し, 共有固体貯水池の磁場変動と散逸的に相互作用する。 我々の枠組みは、変動するスピン、擬似スピン、または電荷自由度が磁場を生成する固体貯水池に適用される。 現実的な実験環境では, 散逸過程によって引き起こされる相関が関係する役割を担っているかを理解するために, 強磁性浴のスピン揺らぎを介して相互作用する量子ビットアレイに本モデルを適用した。 以上の結果から, クビットアンサンブルの低温集合緩和速度は, 従来原子アンサンブルで達成されてきた協調力学の形式である超輝度およびサブ輝度の明確なシグネチャを提示できることが示唆された。 これらの現象のソリッドステートアナログは、クビットアンサンブルや磁気貯水池の熱ゆらぎの空間障害に対して頑健であり、短期実験におけるその実現可能性の道筋となる。 我々の研究は、固体系の量子センシングとスピン欠陥アンサンブルにおける多体絡みの直接発生に対するマルチキュービットアプローチの基礎を築いた。 さらに, 固体貯水池のチューニング性は, 従来の量子光学装置の到達範囲を超えて, 体制における協調現象を探索するための新しい経路をいかに開けるかを議論する。

While traditionally regarded as an obstacle to quantum coherence, recent breakthroughs in quantum optics have shown that the dissipative interaction of a qubit with its environment can be leveraged to protect quantum states and synthesize many-body entanglement. Inspired by this progress, here we set the stage for the -- yet uncharted -- exploration of analogous cooperative phenomena in hybrid solid-state platforms. We develop a comprehensive formalism for the quantum many-body dynamics of an ensemble of solid-state spin defects interacting dissipatively with the magnetic field fluctuations of a common solid-state reservoir. Our framework applies to any solid-state reservoir whose fluctuating spin, pseudospin, or charge degrees of freedom generate magnetic fields. To understand whether correlations induced by dissipative processes can play a relevant role in a realistic experimental setup, we apply our model to a qubit array interacting via the spin fluctuations of a ferromagnetic bath. Our results show that the low-temperature collective relaxation rates of the qubit ensemble can display clear signatures of super- and subradiance, i.e., forms of cooperative dynamics traditionally achieved in atomic ensembles. We find that the solid-state analog of these cooperative phenomena is robust against spatial disorder in the qubit ensemble and thermal fluctuations of the magnetic reservoir, providing a route for their feasibility in near-term experiments. Our work lays the foundation for a multi-qubit approach to quantum sensing of solid-state systems and the direct generation of many-body entanglement in spin-defect ensembles. Furthermore, we discuss how the tunability of solid-state reservoirs opens up novel pathways for exploring cooperative phenomena in regimes beyond the reach of conventional quantum optics setups.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-03
# ReShader: 単一画像ビュー合成のためのビュー依存ハイライト

ReShader: View-Dependent Highlights for Single Image View-Synthesis ( http://arxiv.org/abs/2309.10689v3 )

ライセンス: Link先を確認
Avinash Paliwal, Brandon Nguyen, Andrii Tsarov, Nima Khademi Kalantari, (参考訳) 近年では3次元シーン表現の急速な進歩と画像インパインティング技術により,単一画像からの新規なビュー合成が著しい進歩を遂げている。 現在のアプローチでは、幾何学的に一貫した新しいビューを合成できるが、ビュー依存効果を適切に扱えないことが多い。 特に、合成画像のハイライトは、通常表面に接着されているように見え、新しい視点は非現実的である。 この問題に対処するために、我々は、新しいビューを合成する過程において、新しいカメラに基づいてピクセルのシェーディングを変更し、それらを適切な場所に移動させることを重要視する。 そこで本研究では,ビュー合成過程を画素再構成と再配置の2つの独立したタスクに分割する。 再構成の過程では,1枚の画像を入力とし,新しいカメラに基づいてシェーディングを調整する。 そして、この再構成画像を既存のビュー合成法の入力として使用し、画素を移動させ、最終的な新規なビュー画像を生成する。 本稿では,ニューラルネットワークを用いてリシェーディングを行い,多数の合成入力-リシェードペアを生成し,ネットワークをトレーニングすることを提案する。 提案手法は,様々な現実世界のシーンにリアルな動きのハイライトを付加した,可塑性な新しいビュー画像を生成することを実証する。

In recent years, novel view synthesis from a single image has seen significant progress thanks to the rapid advancements in 3D scene representation and image inpainting techniques. While the current approaches are able to synthesize geometrically consistent novel views, they often do not handle the view-dependent effects properly. Specifically, the highlights in their synthesized images usually appear to be glued to the surfaces, making the novel views unrealistic. To address this major problem, we make a key observation that the process of synthesizing novel views requires changing the shading of the pixels based on the novel camera, and moving them to appropriate locations. Therefore, we propose to split the view synthesis process into two independent tasks of pixel reshading and relocation. During the reshading process, we take the single image as the input and adjust its shading based on the novel camera. This reshaded image is then used as the input to an existing view synthesis method to relocate the pixels and produce the final novel view image. We propose to use a neural network to perform reshading and generate a large set of synthetic input-reshaded pairs to train our network. We demonstrate that our approach produces plausible novel view images with realistic moving highlights on a variety of real world scenes.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-03
# 神経表現のトポロジーと幾何学

The Topology and Geometry of Neural Representations ( http://arxiv.org/abs/2309.11028v3 )

ライセンス: Link先を確認
Baihan Lin, Nikolaus Kriegeskorte, (参考訳) 神経科学における中心的な問題は、知覚的および認知的内容の脳表現をどう特徴付けるかである。 理想的な特徴は、計算的差異に対応しない個々の脳のノイズや慣性に頑健な異なる機能領域を区別することである。 これまでの研究では、個々のニューロン(または応答チャネル)の役割を抽象化し、刺激の識別性を特徴づける要約統計量である表現的相同性行列(RDM)によって定義される表現幾何学によって、脳の表現を特徴付けてきた。 ここでは、幾何学から脳表現のトポロジーまで、抽象のさらなるステップを探求する。 本稿では,RDMを一般化し,地形を非強調化しながら位相を特徴付ける地形的要約統計学のファミリを用いた表現的類似性分析(RSA)の拡張であるトポロジカル表現類似性解析(tRSA)を提案する。 シミュレーションとfMRIデータの両方を用いて、モデル選択の感度と特異性の観点から、この新しい統計群を評価する。 シミュレーションでは、基底真理はニューラルネットワークモデルにおけるデータ生成層表現であり、モデルは同一であり、異なるモデルインスタンス内の他のレイヤ(異なるランダムシードから学習される)である。 fMRIでは、基底真理は視覚領域であり、モデルは同一であり、他の領域は異なる被験者で測定される。 その結果,集団符号のトポロジに敏感な特徴はノイズや個人間変動に強く,異なるニューラルネットワーク層や脳領域のユニークな表現的シグネチャに対して優れた感度を維持していることがわかった。 これらの方法では、脳とモデルにおける表現の比較を、幾何学、トポロジー、あるいは両者の組み合わせに敏感に調整することができる。

A central question for neuroscience is how to characterize brain representations of perceptual and cognitive content. An ideal characterization should distinguish different functional regions with robustness to noise and idiosyncrasies of individual brains that do not correspond to computational differences. Previous studies have characterized brain representations by their representational geometry, which is defined by the representational dissimilarity matrix (RDM), a summary statistic that abstracts from the roles of individual neurons (or responses channels) and characterizes the discriminability of stimuli. Here we explore a further step of abstraction: from the geometry to the topology of brain representations. We propose topological representational similarity analysis (tRSA), an extension of representational similarity analysis (RSA) that uses a family of geo-topological summary statistics that generalizes the RDM to characterize the topology while de-emphasizing the geometry. We evaluate this new family of statistics in terms of the sensitivity and specificity for model selection using both simulations and fMRI data. In the simulations, the ground truth is a data-generating layer representation in a neural network model and the models are the same and other layers in different model instances (trained from different random seeds). In fMRI, the ground truth is a visual area and the models are the same and other areas measured in different subjects. Results show that topology-sensitive characterizations of population codes are robust to noise and interindividual variability and maintain excellent sensitivity to the unique representational signatures of different neural network layers and brain regions. These methods enable researchers to calibrate comparisons among representations in brains and models to be sensitive to the geometry, the topology, or a combination of both.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-03
# 干渉データとデバイス不均一性を用いたフェデレーション学習における非制限定常性に対処する

Tackling the Unlimited Staleness in Federated Learning with Intertwined Data and Device Heterogeneities ( http://arxiv.org/abs/2309.13536v2 )

ライセンス: Link先を確認
Haoming Wang, Wei Gao, (参考訳) フェデレートラーニング(FL)の効率は、データとデバイスの不均一性の両方に影響されることが多い。 データの不均一性は、異なるクライアント上のデータ分散の不均一性として定義される。 デバイスの不均一性は、ローカルハードウェアリソースの不均一な条件により、ローカルモデルの更新をアップロードする際のクライアントの変動レイテンシとして定義され、非同期FLによって処理される際の安定化の問題を引き起こす。 従来の不安定性の影響に対処するスキームでは、データとデバイスの不均一性をFLの2つの独立した独立した側面とみなすが、データとデバイスの不均一性が絡み合っている多くの実践的FLシナリオでは、この仮定は現実的ではない。 このような場合、FLにおける従来の重み付けアグリゲーションのスキームは効果がないことが証明され、より優れたアプローチは、古いモデルの更新を非安定のアグリゲーションに変換することである。 本稿では,このような変換に勾配インバージョン手法を利用する新しいFLフレームワークを提案する。 我々の基本的な考え方は、クライアントのローカルトレーニングデータをアップロードした静的モデル更新から推定し、これらの推定を使って非静的モデル更新を計算することである。 このようにして、クライアントのローカルデータのプライバシを保ちながら、勾配インバージョンを使用する際のデータ品質低下の問題に対処する。 我々は,本手法を主流のデータセットやモデル上での既存のFL戦略と比較し,無制限の安定化に取り組む場合,トレーニングモデルの精度を最大20%向上し,FLトレーニングの進捗を最大35%向上させることができることを示した。

The efficiency of Federated Learning (FL) is often affected by both data and device heterogeneities. Data heterogeneity is defined as the heterogeneity of data distributions on different clients. Device heterogeneity is defined as the clients' variant latencies in uploading their local model updates due to heterogeneous conditions of local hardware resources, and causes the problem of staleness when being addressed by asynchronous FL. Traditional schemes of tackling the impact of staleness consider data and device heterogeneities as two separate and independent aspects in FL, but this assumption is unrealistic in many practical FL scenarios where data and device heterogeneities are intertwined. In these cases, traditional schemes of weighted aggregation in FL have been proved to be ineffective, and a better approach is to convert a stale model update into a non-stale one. In this paper, we present a new FL framework that leverages the gradient inversion technique for such conversion, hence efficiently tackling unlimited staleness in clients' model updates. Our basic idea is to use gradient inversion to get estimations of clients' local training data from their uploaded stale model updates, and use these estimations to compute non-stale client model updates. In this way, we address the problem of possible data quality drop when using gradient inversion, while still preserving the clients' local data privacy. We compared our approach with the existing FL strategies on mainstream datasets and models, and experiment results demonstrate that when tackling unlimited staleness, our approach can significantly improve the trained model accuracy by up to 20% and speed up the FL training progress by up to 35%.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-03
# ビットフリップ符号を用いたバイアス保存計算

Bias-preserving computation with the bit-flip code ( http://arxiv.org/abs/2310.03264v3 )

ライセンス: Link先を確認
Shoichiro Tsutsui, Keita Kanno, (参考訳) 本稿では,ビットフリップの繰り返し符号を用いたフォールトトレラント量子計算の実現可能性について検討する。 このようなチャネルでも、いくつかの論理ゲートが位相フリップエラーを発生させる可能性があるが、我々は、$S$、$H$、$\mathrm{CZ}$、$R_z$ gatesのバイアス保存実装を提案する。 我々は,量子系の時間発展や変分量子固有解法など,いくつかのタスクにおける計算精度の向上を実証した。

We explore the feasibility of fault-tolerant quantum computation using the bit-flip repetition code in a biased noise channel where only the bit-flip error can occur. While several logic gates can potentially produce phase-flip errors even in such a channel, we propose bias-preserving implementation of $S$, $H$, $\mathrm{CZ}$, and $R_z$ gates. We demonstrate that our scheme improves the computational precision in several tasks such as the time evolution of quantum systems and variational quantum eigensolver.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-03
# 断熱超電導体論理を用いたマイクロ波多重量子ビットコントローラ

Microwave-multiplexed qubit controller using adiabatic superconductor logic ( http://arxiv.org/abs/2310.06544v3 )

ライセンス: Link先を確認
Naoki Takeuchi, Taiki Yamae, Taro Yamashita, Tsuyoshi Yamamoto, Nobuyuki Yoshikawa, (参考訳) 低温量子ビットコントローラ(QC)は、大規模超伝導量子プロセッサを構築する鍵である。 しかし、拡張性のあるQCの開発は、希釈冷凍機の冷却力が小さすぎる(約10$\mu$W at ~10 mK)ため、補体金属酸化物-半導体論理や超伝導単流体-量子論理などの従来の論理ファミリを操作するのが困難である。 本稿では,超低消費電力超伝導体論理系,すなわちAQFP論理を用いたスケーラブルQCについて報告する。 AQFPベースのQCは、AQFP-multiplexed QC (AQFP-mux QC) と呼ばれ、量子ビット制御のためのマルチトンマイクロ波信号を生成する。 さらに、AQFP-mux QCはマイクロ波多重化を採用し、システム全体を操作するための同軸ケーブルの数を減らす。 概念実証として、マイクロ波多重化と非多重化による2つの出力ポートでマイクロ波信号を生成するAQFP-mux QCチップを実証する。 実験の結果、出力電力は約$-80 dBm、オン/オフ比は各出力ポートで約40 dBであった。 また、サイドバンド信号の観測により、基本的な混合動作が示される。

Cryogenic qubit controllers (QCs) are the key to build large-scale superconducting quantum processors. However, developing scalable QCs is challenging because the cooling power of a dilution refrigerator is too small (~10 $\mu$W at ~10 mK) to operate conventional logic families, such as complementary metal-oxide-semiconductor logic and superconducting single-flux-quantum logic, near qubits. Here we report on a scalable QC using an ultra-low-power superconductor logic family, namely adiabatic quantum-flux-parametron (AQFP) logic. The AQFP-based QC, referred to as the AQFP-multiplexed QC (AQFP-mux QC), produces multi-tone microwave signals for qubit control with an extremely small power dissipation of 81.8 pW per qubit. Furthermore, the AQFP-mux QC adopts microwave multiplexing to reduce the number of coaxial cables for operating the entire system. As a proof of concept, we demonstrate an AQFP-mux QC chip that produces microwave signals at two output ports through microwave multiplexing and demultiplexing. Experimental results show an output power of approximately $-$80 dBm and on/off ratio of ~40 dB at each output port. Basic mixing operation is also demonstrated by observing sideband signals.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-03
# FloodとEcho Net: アルゴリズムで最適化されたGNN

Flood and Echo Net: Algorithmically Aligned GNNs that Generalize ( http://arxiv.org/abs/2310.06970v3 )

ライセンス: Link先を確認
Joël Mathys, Florian Grötschla, Kalyan Varma Nadimpalli, Roger Wattenhofer, (参考訳) ほとんどのグラフニューラルネットワークは標準的なメッセージパッシングフレームワークに従い、各ステップですべてのノードが同時に通信する。 我々は、分散アルゴリズムの実行をより緊密に調整することで、このパラダイムに挑戦し、FloodとEcho Netを提案する。 FloodとEcho Netの1ラウンドは、起点ノードと浸水フェーズと、エコーフェーズとからなる。 まず、洪水の間、発信元からメッセージが送られ、グラフ全体を通して外部に伝播する。 そして、エコーの間、メッセージフローが反転し、メッセージが発信元に向かって送り返される。 ノードはメッセージを受け取るとわずかにアクティベートされるので、これはグラフを横切るウェーブのようなアクティベーションパターンにつながる。 これらのスパースだが並列なアクティベーションにより、Netは1-WLテストによって制限される従来のMPNNよりも表現力が高くなり、メッセージの複雑さの観点からも確実に効率が良い。 さらに、様々な大きさのグラフをまたいで一般化するメカニズムの本質的な能力は、アルゴリズム学習のタスクのための実践的なアーキテクチャとして位置づけられている。 我々は,Flood と Echo Net を様々な合成タスクと SALSA-CLRS ベンチマークでテストし,アルゴリズムによる実行のアライメントにより,より大規模なグラフサイズへの一般化が向上することを確認した。

Most Graph Neural Networks follow the standard message-passing framework where, in each step, all nodes simultaneously communicate with each other. We want to challenge this paradigm by aligning the computation more closely to the execution of distributed algorithms and propose the Flood and Echo Net. A single round of a Flood and Echo Net consists of an origin node and a flooding phase followed by an echo phase. First, during the flooding, messages are sent from the origin and propagated outwards throughout the entire graph. Then, during the echo, the message flow reverses and messages are sent back towards the origin. As nodes are only sparsely activated upon receiving a message, this leads to a wave-like activation pattern that traverses the graph. Through these sparse but parallel activations, the Net becomes more expressive than traditional MPNNs which are limited by the 1-WL test and also is provably more efficient in terms of message complexity. Moreover, the mechanism's inherent ability to generalize across graphs of varying sizes positions it as a practical architecture for the task of algorithmic learning. We test the Flood and Echo Net on a variety of synthetic tasks and the SALSA-CLRS benchmark and find that the algorithmic alignment of the execution improves generalization to larger graph sizes.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-03
# LLark: 音楽のためのマルチモーダル命令追従言語モデル

LLark: A Multimodal Instruction-Following Language Model for Music ( http://arxiv.org/abs/2310.07160v3 )

ライセンス: Link先を確認
Josh Gardner, Simon Durand, Daniel Stoller, Rachel M. Bittner, (参考訳) 音楽にはユニークで複雑な構造があり、専門家と既存のAIシステムの両方が理解し難い。 命令調整型マルチモーダルモデルであるLLarkについて述べる。 さまざまなオープンソース音楽データセットのアノテーションを増補し、それらを統一的な命令調整形式に変換するデータセット作成プロセスについて詳述する。 LLarkのためのマルチモーダルアーキテクチャを提案し、事前学習された言語モデルと事前学習された音楽生成モデルを統合する。 3種類のタスク(音楽理解,キャプション,推論)の評価において,LLarkは既存の音楽理解のベースラインと一致し,より優れており,人間はキャプションや推論タスクにおける応答と高い一致を示した。 LLarkは、オープンソースの音楽データとモデルから完全にトレーニングされています。 追加の結果とオーディオサンプルはhttps://bit.ly/llarkで、ソースコードはhttps://github.com/spotify-research/llarkで公開されています。

Music has a unique and complex structure which is challenging for both expert humans and existing AI systems to understand, and presents unique challenges relative to other forms of audio. We present LLark, an instruction-tuned multimodal model for \emph{music} understanding. We detail our process for dataset creation, which involves augmenting the annotations of diverse open-source music datasets and converting them to a unified instruction-tuning format. We propose a multimodal architecture for LLark, integrating a pretrained generative model for music with a pretrained language model. In evaluations on three types of tasks (music understanding, captioning, reasoning), we show that LLark matches or outperforms existing baselines in music understanding, and that humans show a high degree of agreement with its responses in captioning and reasoning tasks. LLark is trained entirely from open-source music data and models, and we make our training code available along with the release of this paper. Additional results and audio examples are at https://bit.ly/llark, and our source code is available at https://github.com/spotify-research/llark .
翻訳日:2024-06-04 20:50:48 公開日:2024-06-03
# Cheap Talking Algorithms

Cheap Talking Algorithms ( http://arxiv.org/abs/2310.07867v5 )

ライセンス: Link先を確認
Daniele Condorelli, Massimiliano Furlan, (参考訳) 戦略情報伝達のCrawford and Sobel (1982) ゲームにおける2つの独立強化学習アルゴリズムの動作をシミュレートする。 我々は、大集団が匿名で対話する静的ゲームにおいて、学習をキャプチャするために、メモリレスアルゴリズムを採用する。 送信側と受信側がNash平衡に収束することを示す。 送信者の安価な話の報知のレベルは、バイアスが増加するにつれて減少し、バイアスの中間レベルでは、パレート最適均衡によって予測されるレベルと、または第2のベストトークによって予測されるレベルと一致する。 結論は学習ハイパーパラメータやゲームの代替仕様に対して堅牢である。

We simulate behaviour of two independent reinforcement learning algorithms playing the Crawford and Sobel (1982) game of strategic information transmission. We adopt memoryless algorithms to capture learning in a static game where a large population interacts anonymously. We show that sender and receiver converge to Nash equilibrium play. The level of informativeness of the sender's cheap talk decreases as the bias increases and, at intermediate level of the bias, it matches the level predicted by the Pareto optimal equilibrium or by the second best one. Conclusions are robust to alternative specifications of the learning hyperparameters and of the game.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-03
# 事前学習したトランスフォーマーは、グラディエント・ディフレッシュによって文脈を学習するか?

Do pretrained Transformers Learn In-Context by Gradient Descent? ( http://arxiv.org/abs/2310.08540v5 )

ライセンス: Link先を確認
Lingfeng Shen, Aayush Mishra, Daniel Khashabi, (参考訳) LLMにおけるインコンテキストラーニング(ICL)の出現は、部分的に理解されている驚くべき現象である。 ICLを説明するために、最近の研究はグラディエント・ディキスト(GD)と理論的なつながりを生み出している。 このような接続は、実際にトレーニング済みの言語モデルで保たれているのでしょうか? 我々は、事前の作業において、言語モデルが訓練される実践的なセットアップと、そのセットアップをかなり異なるものにする限定的な仮定を強調した。 例えば、実験的な検証では \emph{ICL objective} (ICLを明示的に訓練するモデル) を使用しており、これは野生の創発的ICLとは異なる。 さらに、これらの研究で用いられる理論的な手作り重量は、実際のLLMと一致しない性質を持つ。 実際のモデルの証拠も探しています。 ICLとGDは,実験の順序に異なる感度を持つ。 最後に、自然条件下でICL対GD仮説を探索し、比較する。 本研究では,自然データ(LLaMa-7B)に基づいて事前学習した言語モデルに関する包括的経験分析を行う。 3つのパフォーマンス指標の比較では,データセットやモデル,実演数など,さまざまな要因の関数として,ICLとGDの不整合挙動に着目した。 ICLとGDは言語モデルの出力分布を異なる方法で変更する。 これらの結果は、ICL と GD の間の 'emph{the equivalence") が依然として開仮説であり、さらなる研究を求めることを示唆している。

The emergence of In-Context Learning (ICL) in LLMs remains a remarkable phenomenon that is partially understood. To explain ICL, recent studies have created theoretical connections to Gradient Descent (GD). We ask, do such connections hold up in actual pre-trained language models? We highlight the limiting assumptions in prior works that make their setup considerably different from the practical setup in which language models are trained. For example, their experimental verification uses \emph{ICL objective} (training models explicitly for ICL), which differs from the emergent ICL in the wild. Furthermore, the theoretical hand-constructed weights used in these studies have properties that don't match those of real LLMs. We also look for evidence in real models. We observe that ICL and GD have different sensitivity to the order in which they observe demonstrations. Finally, we probe and compare the ICL vs. GD hypothesis in a natural setting. We conduct comprehensive empirical analyses on language models pre-trained on natural data (LLaMa-7B). Our comparisons of three performance metrics highlight the inconsistent behavior of ICL and GD as a function of various factors such as datasets, models, and the number of demonstrations. We observe that ICL and GD modify the output distribution of language models differently. These results indicate that \emph{the equivalence between ICL and GD remains an open hypothesis} and calls for further studies.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-03
# 量子信号処理と非線形フーリエ解析

Quantum signal processing and nonlinear Fourier analysis ( http://arxiv.org/abs/2310.12683v2 )

ライセンス: Link先を確認
Michel Alexis, Gevorg Mnatsakanyan, Christoph Thiele, (参考訳) 非線形フーリエ解析との接続を解明し、量子信号処理においてよく知られたアルゴリズムを拡張して、平方和数列で測定可能な信号を表現する。 シーケンスの各係数は、信号の関数としてリプシッツ連続である。

Elucidating a connection with nonlinear Fourier analysis, we extend a well known algorithm in quantum signal processing to represent measurable signals by square summable sequences. Each coefficient of the sequence is Lipschitz continuous as a function of the signal.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-03
# Floquet non-Abelian topological insulator and multifold bulk-edge correspondence」へのコメント

Comment on "Floquet non-Abelian topological insulator and multifold bulk-edge correspondence" ( http://arxiv.org/abs/2310.12782v2 )

ライセンス: Link先を確認
Robert-Jan Slager, Adrien Bouhon, F. Nur Ünal, (参考訳) 我々は最近の論文 "Floquet non-Abelian topological insulator and multifold bulk-edge correspondence" に Tianyu Li と Haiping Hu, Nat を引用する。 Comm a bf 14}, 6418 (2023)。 著者がフロケット系において初めてマルチギャップトポロジーを研究することを不当に示唆しているという事実とは別に、既知のホモトピー関係のみが提示される。 このような洞察は興味深いフロケ現象や相を示すのに使われており、これはそれ自体が魅力的な結果であるが、さらなる証明なしに動的文脈における全体のバルク特性を推定するためには使用できない。 実際、著者は本質的にザク相の記述を言い換えている。 これらの結果は、特に arXiv:2208.12824 のような初期の結果と対比されるべきであり、静的互換のザック位相 {\it と動的ディラック弦は、2+1$次元系の非アベリア浮動小数点位相よりも類似した非アベリア浮動小数点位相を区別できることを示した。 結果として、シャープなマルチフォールドのバルクエッジ対応の主張は、与えられた議論から結論付けることはできない。

We comment on the recent paper ``Floquet non-Abelian topological insulator and multifold bulk-edge correspondence" by Tianyu Li and Haiping Hu, Nat. Comm. {\bf 14}, 6418 (2023). Apart from the fact that the authors unjustly imply to study multi-gap topology in Floquet systems for the first time, only known homotopic relations are presented. While such insights are used to present interesting Floquet phenomena and phases, which is an attractive result in itself, they cannot be used to deduce the total bulk characterization in the dynamical context without further proof. In fact, the authors essentially rephrase a Zak phase description. These results should in particular be contrasted to earlier results, arXiv:2208.12824, in which static-compatible Zak phases {\it and} dynamical Dirac strings were shown to be able to {\it distinguish} rather similar non-Abelian Floquet phases in $2+1$ dimensional systems. As a result, the claim of a sharp multifold bulk-edge correspondence cannot be concluded from the given arguments.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-03
# スパイキングモードに基づくニューラルネットワーク

Spiking mode-based neural networks ( http://arxiv.org/abs/2310.14621v2 )

ライセンス: Link先を確認
Zhanghan Lin, Haiping Huang, (参考訳) スパイキングニューラルネットワークは、脳のようなニューロモルフィック計算や神経回路の動作機構の研究において重要な役割を果たす。 大規模なスパイクニューラルネットワークのトレーニングの欠点のひとつは、すべての重みを更新することは非常に高価であることだ。 さらに、トレーニング後、計算タスクに関連するすべての情報が重み行列に隠され、回路機構の透明な理解が禁止される。 そこで本研究では, 繰り返し重み行列を, 入力, 出力モード, スコア行列という3つの行列のホップフィールド的乗法として説明する, スパイキングモードに基づくトレーニングプロトコルを提案する。 第一の利点は、重みが入力モードと出力モードと関連するスコアによって解釈され、各分解項の重要性が特徴づけられることである。 したがって、モードの数は調整可能であり、実験データのモデリングにより多くの自由度を与えることができる。 これにより、学習のスペースの複雑さが大幅に削減されるため、トレーニングコストが大幅に削減される。 これにより、モードスコア空間でスパイクネットワークを訓練する。 第二の利点は、状態空間内の高次元の神経活動(フィルタースパイクトレイン)を、通常低次元のモード空間に投影できることである。 我々は,2つの計算タスク – 桁分類と選択的感覚統合タスク – に,我々のフレームワークをうまく適用した。 本手法は,ホップフィールド型分解によるスパイクニューラルネットワークのトレーニングを加速させるとともに,このトレーニングにより高次元神経力学の低次元アトラクタ構造がもたらされる。

Spiking neural networks play an important role in brain-like neuromorphic computations and in studying working mechanisms of neural circuits. One drawback of training a large scale spiking neural network is that updating all weights is quite expensive. Furthermore, after training, all information related to the computational task is hidden into the weight matrix, prohibiting us from a transparent understanding of circuit mechanisms. Therefore, in this work, we address these challenges by proposing a spiking mode-based training protocol, where the recurrent weight matrix is explained as a Hopfield-like multiplication of three matrices: input, output modes and a score matrix. The first advantage is that the weight is interpreted by input and output modes and their associated scores characterizing the importance of each decomposition term. The number of modes is thus adjustable, allowing more degrees of freedom for modeling the experimental data. This significantly reduces the training cost because of significantly reduced space complexity for learning. Training spiking networks is thus carried out in the mode-score space. The second advantage is that one can project the high dimensional neural activity (filtered spike train) in the state space onto the mode space which is typically of a low dimension, e.g., a few modes are sufficient to capture the shape of the underlying neural manifolds. We successfully apply our framework in two computational tasks -- digit classification and selective sensory integration tasks. Our method accelerate the training of spiking neural networks by a Hopfield-like decomposition, and moreover this training leads to low-dimensional attractor structures of high-dimensional neural dynamics.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-03
# 時系列因果グラフの抽象化による全効果の同定可能性

Identifiability of total effects from abstractions of time series causal graphs ( http://arxiv.org/abs/2310.14691v7 )

ライセンス: Link先を確認
Charles K. Assaad, Emilie Devijver, Eric Gaussier, Gregor Gössler, Anouar Meynaoui, (参考訳) 実例では,真の因果グラフの抽象化にのみアクセス可能な状況において,観測時系列からの介入による全効果の識別可能性の問題について検討する。 ここでは、全てのラタグ因果関係を混同するが、ラタグ関係と即時関係を区別する拡張要約因果グラフと、因果関係間の遅延を示さない要約因果グラフの2つの抽象化について考察する。 要約因果グラフでは,全効果が常に識別可能であることを示し,要約因果グラフにおける識別可能性について十分な条件を提供する。 さらに、特定可能な場合の総効果を推定するための調整セットも提供します。

We study the problem of identifiability of the total effect of an intervention from observational time series in the situation, common in practice, where one only has access to abstractions of the true causal graph. We consider here two abstractions: the extended summary causal graph, which conflates all lagged causal relations but distinguishes between lagged and instantaneous relations, and the summary causal graph which does not give any indication about the lag between causal relations. We show that the total effect is always identifiable in extended summary causal graphs and provide sufficient conditions for identifiability in summary causal graphs. We furthermore provide adjustment sets allowing to estimate the total effect whenever it is identifiable.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-03
# 離散化拡散モデルの固有プライバシー特性について

On the Inherent Privacy Properties of Discrete Denoising Diffusion Models ( http://arxiv.org/abs/2310.15524v3 )

ライセンス: Link先を確認
Rongzhe Wei, Eleonora Kreačić, Haoyu Wang, Haoteng Yin, Eli Chien, Vamsi K. Potluru, Pan Li, (参考訳) プライバシーに関する懸念から、合成データセットの作成が急増し、将来性のある道として拡散モデルが生まれている。 先行研究はこれらのモデルに対して経験的評価を行ったが、プライバシ保護能力の数学的特徴を提供するにはギャップがある。 そこで本研究では,個別データセット生成のための離散拡散モデル(DDM)に固有のプライバシ保護を理論的に検討する。 インスタンス毎の差分プライバシー(pDP)に着目して、当社のフレームワークは、トレーニングデータセットの各データポイントに対する潜在的なプライバシリークを解明し、各ポイントのプライバシ損失がデータセットの分布とどのように関連しているかに関する洞察を提供する。 私たちのバウンダリは、純粋なノイズから合成クリーンデータフェーズへの移行中に、DDMの$-pDPが$(\epsilon, O(\frac{1}{s^2\epsilon}))$-pDPから$(\epsilon, O(\frac{1}{s\epsilon}))$-pDPに上昇し、拡散係数の高速低下がプライバシー保証を増幅することを示している。 最後に,合成と実世界の両方のデータセットに関する理論的知見を実証的に検証した。

Privacy concerns have led to a surge in the creation of synthetic datasets, with diffusion models emerging as a promising avenue. Although prior studies have performed empirical evaluations on these models, there has been a gap in providing a mathematical characterization of their privacy-preserving capabilities. To address this, we present the pioneering theoretical exploration of the privacy preservation inherent in discrete diffusion models (DDMs) for discrete dataset generation. Focusing on per-instance differential privacy (pDP), our framework elucidates the potential privacy leakage for each data point in a given training dataset, offering insights into how the privacy loss of each point correlates with the dataset's distribution. Our bounds also show that training with $s$-sized data points leads to a surge in privacy leakage from $(\epsilon, O(\frac{1}{s^2\epsilon}))$-pDP to $(\epsilon, O(\frac{1}{s\epsilon}))$-pDP of the DDM during the transition from the pure noise to the synthetic clean data phase, and a faster decay in diffusion coefficients amplifies the privacy guarantee. Finally, we empirically verify our theoretical findings on both synthetic and real-world datasets.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-03
# Clover: クローズドループで検証可能なコード生成

Clover: Closed-Loop Verifiable Code Generation ( http://arxiv.org/abs/2310.17807v3 )

ライセンス: Link先を確認
Chuyue Sun, Ying Sheng, Oded Padon, Clark Barrett, (参考訳) コード生成に大規模言語モデルを使用することは、ソフトウェア開発の急速な増加傾向である。 しかし、生成されたコードの正確性を保証する効果的な方法がなければ、この傾向は望ましくない結果を何回も引き起こす可能性がある。 本稿では,Cloverパラダイム(Closed-Loop Verifiable Code Generation)の略で,一貫性チェックのよりアクセスしやすい問題に対する正当性チェックの削減を図っている。 Cloverの中核には、コード、ドキュストリング、フォーマルアノテーション間の一貫性チェックを実行するチェッカーがある。 このチェッカーは,形式検証ツールと大規模言語モデルの新たな統合によって実装されている。 我々はCloverが整合性チェックに有効であるべきだという私たちの主張を支持する理論的分析を提供する。 また,注記Dafnyプログラムを教科書の難易度で記述した手書きデータセット(CloverBench)の実現可能性についても実証的に検討した。 実験結果から, このデータセットについて検討した。 一 LLM は、形式仕様を自動生成するのに適当に成功し、 (i) 整合性チェッカーは, 正しいインスタンスに対して有望な受け入れ率(最大87%)を達成し, 不正なインスタンスに対する耐性をゼロに維持する(偽陽性は発生しない)。

The use of large language models for code generation is a rapidly growing trend in software development. However, without effective methods for ensuring the correctness of generated code, this trend could lead to any number of undesirable outcomes. In this paper, we lay out a vision for addressing this challenge: the Clover paradigm, short for Closed-Loop Verifiable Code Generation, which reduces correctness checking to the more accessible problem of consistency checking. At the core of Clover lies a checker that performs consistency checks among code, docstrings, and formal annotations. The checker is implemented using a novel integration of formal verification tools and large language models. We provide a theoretical analysis to support our thesis that Clover should be effective at consistency checking. We also empirically investigate its feasibility on a hand-designed dataset (CloverBench) featuring annotated Dafny programs at a textbook level of difficulty. Experimental results show that for this dataset, (i) LLMs are reasonably successful at automatically generating formal specifications; and (ii) our consistency checker achieves a promising acceptance rate (up to 87%) for correct instances while maintaining zero tolerance for incorrect ones (no false positives).
翻訳日:2024-06-04 20:31:18 公開日:2024-06-03
# Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach

Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach ( http://arxiv.org/abs/2310.18651v5 )

ライセンス: Link先を確認
Ali Javidani, Mohammad Amin Sadeghi, Babak Nadjar Araabi, (参考訳) 自己監督型視覚表現学習は、伝統的にイメージレベルのインスタンス識別に焦点を当てている。 本研究は,これらの手法にパッチレベルの識別を組み込むことにより,革新的できめ細かな次元を導入する。 この統合により、局所的およびグローバルな視覚的特徴の同時解析が可能となり、それによって学習された表現の質が向上する。 当初、元の画像は空間的拡張を受けていた。 その後、各パッチは個別に拡張され、同じビュー内の他のパッチとは独立している。 このアプローチは、各セグメントで異なる色の異なる多様なトレーニングデータセットを生成する。 拡張イメージは自己蒸留学習フレームワークを通じて処理され、そのバックボーンとしてViT(Vision Transformer)が使用される。 提案手法は,画像とパッチのレベルでの表現距離を最小化し,マクロからマイクロまでの詳細を捉える。 この目的のために、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。 パッチマッチングアルゴリズムの効率的な構造により,本手法は類似の手法と比較して計算複雑性を低減させる。 その結果,重要な計算要求を伴わずに,モデルに対する高度な理解を実現することができた。 我々は、Cifar10、ImageNet-100、ImageNet-1Kなどの様々なスケールのデータセットに対して、我々の手法を広範囲に事前訓練してきた。 画像分類や下流タスク,例えばコピー検出や画像検索において,最先端の自己教師付き表現学習法よりも優れた性能を示す。 私たちのメソッドの実装はGitHubからアクセスできます。

Self-supervised visual representation learning traditionally focuses on image-level instance discrimination. Our study introduces an innovative, fine-grained dimension by integrating patch-level discrimination into these methodologies. This integration allows for the simultaneous analysis of local and global visual features, thereby enriching the quality of the learned representations. Initially, the original images undergo spatial augmentation. Subsequently, we employ a distinctive photometric patch-level augmentation, where each patch is individually augmented, independent from other patches within the same view. This approach generates a diverse training dataset with distinct color variations in each segment. The augmented images are then processed through a self-distillation learning framework, utilizing the Vision Transformer (ViT) as its backbone. The proposed method minimizes the representation distances across both image and patch levels to capture details from macro to micro perspectives. To this end, we present a simple yet effective patch-matching algorithm to find the corresponding patches across the augmented views. Thanks to the efficient structure of the patch-matching algorithm, our method reduces computational complexity compared to similar approaches. Consequently, we achieve an advanced understanding of the model without adding significant computational requirements. We have extensively pretrained our method on datasets of varied scales, such as Cifar10, ImageNet-100, and ImageNet-1K. It demonstrates superior performance over state-of-the-art self-supervised representation learning methods in image classification and downstream tasks, such as copy detection and image retrieval. The implementation of our method is accessible on GitHub.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-03
# ガウス過程回帰のロバスト化と共役化

Robust and Conjugate Gaussian Process Regression ( http://arxiv.org/abs/2311.00463v2 )

ライセンス: Link先を確認
Matias Altamirano, François-Xavier Briol, Jeremias Knoblauch, (参考訳) 閉形式条件付けを可能にするため、ガウス過程(GP)回帰の共通仮定は独立であり、同一分布のガウス観測ノイズである。 この強固で単純化された仮定は、実際にはしばしば破られ、信頼できない推論と不確実な定量化につながる。 残念ながら、既存のGPの堅牢化手法はクローズドフォーム条件付けを破り、実践者にとってより魅力的になり、計算コストも大幅に高くなる。 本稿では,一般化ベイズ推論を用いて,ガウス過程 (RCGP) の回帰を,ほぼ何のコストもかからずに,確実に堅牢かつ共役的に行う方法を示す。 RCGPは、標準GPがそれを認めるすべての設定において、正確な共役クローズドフォーム更新を可能にするため、特に汎用性がある。 強烈な経験的性能を示すため,ベイズ最適化からスパース変分ガウス過程までの問題に対してRCGPをデプロイする。

To enable closed form conditioning, a common assumption in Gaussian process (GP) regression is independent and identically distributed Gaussian observation noise. This strong and simplistic assumption is often violated in practice, which leads to unreliable inferences and uncertainty quantification. Unfortunately, existing methods for robustifying GPs break closed-form conditioning, which makes them less attractive to practitioners and significantly more computationally expensive. In this paper, we demonstrate how to perform provably robust and conjugate Gaussian process (RCGP) regression at virtually no additional cost using generalised Bayesian inference. RCGP is particularly versatile as it enables exact conjugate closed form updates in all settings where standard GPs admit them. To demonstrate its strong empirical performance, we deploy RCGP for problems ranging from Bayesian optimisation to sparse variational Gaussian processes.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-03
# Generate and Pray: LLM生成コードのセキュリティ評価にSALLMSを使用する

Generate and Pray: Using SALLMS to Evaluate the Security of LLM Generated Code ( http://arxiv.org/abs/2311.00889v2 )

ライセンス: Link先を確認
Mohammed Latif Siddiq, Joanna C. S. Santos, Sajith Devareddy, Anna Muller, (参考訳) ソフトウェアエンジニアの日々のプラクティスにおいて、LLM(Large Language Models)の人気が高まっているため、これらのツールによって生成されたコードが機能的に正しいだけでなく、脆弱性もないことを保証することが重要です。 LLMは開発者の生産性向上に役立つが、以前の実証実験では、LLMが安全性の低いコードを生成することが示されている。 安全でないコード生成には2つの要因がある。 まず、LLMを評価するために使われる既存のデータセットは、セキュリティに敏感な真のソフトウェアエンジニアリングタスクを適切に表現していない。 代わりに、しばしば競合するプログラミングの課題や教室タイプのコーディングタスクに基づいている。 現実世界のアプリケーションでは、生成されたコードはより大きなコードベースに統合され、潜在的なセキュリティリスクをもたらす。 第二に、既存の評価指標は、主に、セキュリティ上の考慮を無視しながら生成されたコードの機能的正当性に焦点を当てています。 そこで本稿では,LLMのセキュアなコード生成能力のベンチマークを行うフレームワークであるSALLMについて述べる。 このフレームワークには、セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための設定可能なアセスメントテクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスの3つの主要なコンポーネントがある。

With the growing popularity of Large Language Models (LLMs) in software engineers' daily practices, it is important to ensure that the code generated by these tools is not only functionally correct but also free of vulnerabilities. Although LLMs can help developers to be more productive, prior empirical studies have shown that LLMs can generate insecure code. There are two contributing factors to the insecure code generation. First, existing datasets used to evaluate LLMs do not adequately represent genuine software engineering tasks sensitive to security. Instead, they are often based on competitive programming challenges or classroom-type coding tasks. In real-world applications, the code produced is integrated into larger codebases, introducing potential security risks. Second, existing evaluation metrics primarily focus on the functional correctness of the generated code while ignoring security considerations. Therefore, in this paper, we described SALLM, a framework to benchmark LLMs' abilities to generate secure code systematically. This framework has three major components: a novel dataset of security-centric Python prompts, configurable assessment techniques to evaluate the generated code, and novel metrics to evaluate the models' performance from the perspective of secure code generation.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-03
# UP4LS:言語ステガナリシスの強化を目的とした複数属性によるユーザプロファイルの構築

UP4LS: User Profile Constructed by Multiple Attributes for Enhancing Linguistic Steganalysis ( http://arxiv.org/abs/2311.01775v2 )

ライセンス: Link先を確認
Yihao Wang, Ruiqi Song, Lingxiao Li, Yifan Tang, Ru Zhang, Jianyi Liu, (参考訳) 言語的ステガナリシス(LS)タスクは、テキストに秘密情報が含まれているかどうかを検出することを目的としている。 既存のLS手法はディープラーニングモデル設計に重点を置いており、理想的なデータで優れた結果が得られる。 しかし、彼らはユニークなユーザー特性を見落とし、ソーシャルネットワークのパフォーマンスの低下につながった。 そして、検出をさらに複雑にするいくつかのステゴがここにある。 本稿では,現実的なシナリオでLSを拡張するためのユーザプロファイルを備えたフレームワークであるUP4LSを提案する。 プロファイルを構築するために、書く習慣のような3種類のユーザー属性を探索する。 各属性に対して、特定の特徴抽出モジュールが設計される。 抽出した特徴は、改善する手法のディープラーニングモデルを介して、高次元のユーザ特徴にマッピングされる。 内容特徴は言語モデルによって抽出される。 その後、ユーザーとコンテンツ機能が統合される。 既存の方法では、ディープラーニングモデルを変更することなく、UP4LSフレームワークを追加することで、LS結果を改善することができる。 実験の結果,UP4LSは現実シナリオにおけるLS-taskベースラインの性能を大幅に向上し,Acc全体の25%,F1の51%,SOTAの結果が得られた。 改良は特に少ないステゴスで顕著である。 さらに、UP4LSは、LSを効率的にするための関連するタスクSOTAメソッドのステージも設定する。

Linguistic steganalysis (LS) tasks aim to detect whether a text contains secret information. Existing LS methods focus on the deep-learning model design and they achieve excellent results in ideal data. However, they overlook the unique user characteristics, leading to weak performance in social networks. And a few stegos here that further complicate detection. We propose the UP4LS, a framework with the User Profile for enhancing LS in realistic scenarios. Three kinds of user attributes like writing habits are explored to build the profile. For each attribute, the specific feature extraction module is designed. The extracted features are mapped to high-dimensional user features via the deep-learning model of the method to be improved. The content feature is extracted by the language model. Then user and content features are integrated. Existing methods can improve LS results by adding the UP4LS framework without changing their deep-learning models. Experiments show that UP4LS can significantly enhance the performance of LS-task baselines in realistic scenarios, with the overall Acc increased by 25%, F1 increased by 51%, and SOTA results. The improvement is especially pronounced in fewer stegos. Additionally, UP4LS also sets the stage for the related-task SOTA methods to efficient LS.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-03
# 語彙データにおける新しいクラス発見への実践的アプローチ

A Practical Approach to Novel Class Discovery in Tabular Data ( http://arxiv.org/abs/2311.05440v3 )

ライセンス: Link先を確認
Colin Troisemaine, Alexandre Reiffers-Masson, Stéphane Gosselin, Vincent Lemaire, Sandrine Vaton, (参考訳) 新規クラス発見(NCD)の問題は、ラベル付けされた既知のクラスの集合から知識を抽出して、ラベル付けされていない新しいクラスの集合を正確に分割することにある。 NCDは最近、コミュニティから多くの注目を集めているが、コンピュータビジョンの問題や非現実的な条件下ではしばしば解決されている。 特に、新しいクラスの数は通常事前に知られており、そのラベルは時折ハイパーパラメータをチューニングするために使われる。 これらの仮定に依存する手法は現実のシナリオでは適用できない。 本研究では,新しい授業の事前知識が得られない場合に,表形式でNCDを解くことに焦点を当てる。 この目的のために、$k$-foldのクロスバリデーションプロセスを適用し、既知のクラスの一部を各フォルダに隠すことにより、NCD法のハイパーパラメータを調整することを提案する。 過パラメータが多すぎるメソッドがこれらの隠れクラスに過度に適合することを発見したので、単純な深いNCDモデルを定義する。 本手法は, NCD問題に必要な必須要素のみで構成され, 現実的な条件下では優れた性能を発揮する。 さらに,本手法の潜伏空間を用いて,新規クラスの数を確実に推定できることがわかった。 さらに、既知のクラスの知識を活用するために、2つの教師なしクラスタリングアルゴリズム(k$-meansとSpectral Clustering)を適用する。 提案手法とハイパーパラメータチューニングプロセスの有効性を実証し,新しいクラスからの知識を頼らずにNCD問題を解くことができることを示す。

The problem of Novel Class Discovery (NCD) consists in extracting knowledge from a labeled set of known classes to accurately partition an unlabeled set of novel classes. While NCD has recently received a lot of attention from the community, it is often solved on computer vision problems and under unrealistic conditions. In particular, the number of novel classes is usually assumed to be known in advance, and their labels are sometimes used to tune hyperparameters. Methods that rely on these assumptions are not applicable in real-world scenarios. In this work, we focus on solving NCD in tabular data when no prior knowledge of the novel classes is available. To this end, we propose to tune the hyperparameters of NCD methods by adapting the $k$-fold cross-validation process and hiding some of the known classes in each fold. Since we have found that methods with too many hyperparameters are likely to overfit these hidden classes, we define a simple deep NCD model. This method is composed of only the essential elements necessary for the NCD problem and performs impressively well under realistic conditions. Furthermore, we find that the latent space of this method can be used to reliably estimate the number of novel classes. Additionally, we adapt two unsupervised clustering algorithms ($k$-means and Spectral Clustering) to leverage the knowledge of the known classes. Extensive experiments are conducted on 7 tabular datasets and demonstrate the effectiveness of the proposed method and hyperparameter tuning process, and show that the NCD problem can be solved without relying on knowledge from the novel classes.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-03
# 1-Lipschitz ニューラルネットワークは N-Activation でより表現力が高い

1-Lipschitz Neural Networks are more expressive with N-Activations ( http://arxiv.org/abs/2311.06103v2 )

ライセンス: Link先を確認
Bernd Prach, Christoph H. Lampert, (参考訳) セキュアで信頼性が高く、解釈可能なディープラーニングシステムを実現するための重要な特性は、その堅牢性である。 数学的には、これは小さなリプシッツ定数を持つネットワークに対して努力することを意味する。 いくつかの最近の研究は、一般に重み行列に制約を課すことによって、そのようなリプシッツネットワークを構築する方法に焦点を当てている。 本研究は、直交的側面、すなわちアクティベーション関数の役割について研究する。 我々は、MaxMinのようなよく使われるアクティベーション関数と、2つのセグメントを持つすべてのピースワイド線形関数が、最も単純な1次元の設定であっても、不必要に表現可能な関数のクラスを制限していることを示す。 さらに,現在普及しているアクティベーション関数よりも明らかに表現力が高い新しいN-アクティベーション関数を導入する。 私たちはhttps://github.com/berndprach/NActivation.comでコードを提供しています。

A crucial property for achieving secure, trustworthy and interpretable deep learning systems is their robustness: small changes to a system's inputs should not result in large changes to its outputs. Mathematically, this means one strives for networks with a small Lipschitz constant. Several recent works have focused on how to construct such Lipschitz networks, typically by imposing constraints on the weight matrices. In this work, we study an orthogonal aspect, namely the role of the activation function. We show that commonly used activation functions, such as MaxMin, as well as all piece-wise linear ones with two segments unnecessarily restrict the class of representable functions, even in the simplest one-dimensional setting. We furthermore introduce the new N-activation function that is provably more expressive than currently popular activation functions. We provide code at https://github.com/berndprach/NActivation.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-03
# 政策勾配アルゴリズムの大規模偏差

A Large Deviations Perspective on Policy Gradient Algorithms ( http://arxiv.org/abs/2311.07411v3 )

ライセンス: Link先を確認
Wouter Jongeneel, Daniel Kuhn, Mengmeng Li, (参考訳) 強化学習の文脈における政策勾配法により動機付けされ,ポリアック-{\L}ojasiewicz条件を満たす非凸対象に対する確率勾配勾配降下によって生じる反復体の大きな偏差率関数を同定する。 大偏差理論から縮退原理を応用し、この結果のポテンシャルを、ソフトマックスパラメトリゼーションとエントロピー正則化目的による政策勾配の収束特性が、他の政策パラメトリゼーションの幅広いスペクトルに自然に拡張可能であることを示す。

Motivated by policy gradient methods in the context of reinforcement learning, we identify a large deviation rate function for the iterates generated by stochastic gradient descent for possibly non-convex objectives satisfying a Polyak-{\L}ojasiewicz condition. Leveraging the contraction principle from large deviations theory, we illustrate the potential of this result by showing how convergence properties of policy gradient with a softmax parametrization and an entropy regularized objective can be naturally extended to a wide spectrum of other policy parametrizations.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-03
# Adversarial Preference Optimization: RM-LLMゲームによるアライメントの強化

Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game ( http://arxiv.org/abs/2311.08045v4 )

ライセンス: Link先を確認
Pengyu Cheng, Yifan Yang, Jian Li, Yong Dai, Tianhao Hu, Peixin Cao, Nan Du, Xiaolong Li, (参考訳) 大きな言語モデル(LLM)の相互作用品質を改善するためには、人間の嗜好の調整が不可欠である。 既存のアライメント手法は、LLM最適化方向を導くために手動でアノテートされた好みデータに依存する。 しかし、アライメントのためのLCMを継続的に更新すると、モデル生成サンプルと人手による応答の分布ギャップが増加し、トレーニングの有効性が阻害される。 この問題を軽減するため、従来の手法では、大量のアノテーションリソースを消費するシフトした分布に適応するために、新しく生成されたサンプルに追加の嗜好アノテーションが必要である。 より効率的な人間の選好最適化を目標とし、LLMと報酬モデルが代わりにmin-maxゲームを介して更新されるAPO(Adversarial Preference Optimization)フレームワークを提案する。 逆行訓練により、報酬モデルは追加のアノテーションを使わずにLLMのシフトした生成分布に適応することができる。 包括的実験により,提案手法は,LLMの有用性と無害性の観点から,既存のアライメントベースラインをさらに強化する。 コードはhttps://github.com/Linear95/APOにある。

Human preference alignment is essential to improve the interaction quality of large language models (LLMs). Existing alignment methods depend on manually annotated preference data to guide the LLM optimization directions. However, continuously updating LLMs for alignment raises a distribution gap between model-generated samples and human-annotated responses, hindering training effectiveness. To mitigate this issue, previous methods require additional preference annotation on newly generated samples to adapt to the shifted distribution, which consumes a large amount of annotation resources. Targeting more efficient human preference optimization, we propose an Adversarial Preference Optimization (APO) framework, in which the LLM and the reward model update alternatively via a min-max game. Through adversarial training, the reward model can adapt to the shifted generation distribution of the LLM without any additional annotation. With comprehensive experiments, we find the proposed adversarial training framework further enhances existing alignment baselines in terms of LLM helpfulness and harmlessness. The code is at https://github.com/Linear95/APO.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-03
# LLaMAにおける語彙共有は多言語主義をいかに促進させるか

How Vocabulary Sharing Facilitates Multilingualism in LLaMA? ( http://arxiv.org/abs/2311.09071v2 )

ライセンス: Link先を確認
Fei Yuan, Shuai Yuan, Zhiyong Wu, Lei Li, (参考訳) 大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。 LLMが特定の言語でのみトレーニングされる場合、LLMの多言語機能はどのようなものでしょうか? 根底にあるメカニズムはいまだ不明である。 本研究では,101言語にまたがる徹底的な分析を行うことにより,語彙共有の観点からLLMの多言語的能力を検討する。 微調整前後のパフォーマンスギャップを調べた結果, 4つの異なる四成分が検出された。 各クアドラントを掘り下げることで、これらの言語をチューニングするための実行可能で効率的なガイドラインを提供します。 大規模な実験により、既存のLLMは我々の期待を超える多言語機能を持つことが明らかとなり、これらの属性に基づいてLLMの多言語性能を著しく向上させることができる。 と。

Large Language Models (LLMs), often show strong performance on English tasks, while exhibiting limitations on other languages. What is an LLM's multilingual capability when it is trained only on certain languages? The underlying mechanism remains unclear. This study endeavors to examine the multilingual capability of LLMs from the vocabulary sharing perspective by conducting an exhaustive analysis across 101 languages. Through the investigation of the performance gap before and after embedding fine-tuning, we discovered four distinct quadrants. By delving into each quadrant we provide actionable and efficient guidelines for tuning these languages. Extensive experiments reveal that existing LLMs possess multilingual capabilities that surpass our expectations, and we can significantly improve the multilingual performance of LLMs based on these attributes of each quadrant~\footnote{\url{https://github.com/CONE-MT/Vocabulary-Sharing-Facilitates-Multilingualism}.}.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-03
# CLEAN-EVAL:汚染された大規模言語モデルのクリーンな評価

CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models ( http://arxiv.org/abs/2311.09154v3 )

ライセンス: Link先を確認
Wenhong Zhu, Hongkun Hao, Zhiwei He, Yunze Song, Yumeng Zhang, Hanxu Hu, Yiran Wei, Rui Wang, Hongyuan Lu, (参考訳) 現在、さまざまな大規模言語モデル(LLM)の間で激しい競争が続いており、ベンチマークパフォーマンスの境界線を継続的に押し付けています。 しかし、これらのLSMの能力を真に評価することは、潜在的なデータ汚染のために困難で重要な問題となり、研究者やエンジニアがそれらの汚染されたモデルをダウンロードして試すのに何十年もの時間と労力を浪費している。 貴重な時間を節約するために,データ汚染の問題を軽減し,LLMをよりクリーンに評価する,新規で有用な方法であるClean-Evalを提案する。 clean-Eval は LLM を用いて、汚染されたデータを候補セットに逆変換し、同じ意味を持つ式を生成する。 次に、セマンティック検出器を使用して生成された低品質サンプルをフィルタリングし、候補セットを絞り込む。 ベスト候補は最終的にBLEURTスコアに基づいてこのセットから選択される。 人間の評価によれば、この最良の候補は、本来の汚染データと意味的に似ているが、異なる表現をしている。 すべての候補がモデルを評価するために新しいベンチマークを作成できる。 本実験は, 汚染されたLLMの実際の評価結果を, 数発の学習シナリオと微調整シナリオの両方で大幅に復元することを示した。

We are currently in an era of fierce competition among various large language models (LLMs) continuously pushing the boundaries of benchmark performance. However, genuinely assessing the capabilities of these LLMs has become a challenging and critical issue due to potential data contamination, and it wastes dozens of time and effort for researchers and engineers to download and try those contaminated models. To save our precious time, we propose a novel and useful method, Clean-Eval, which mitigates the issue of data contamination and evaluates the LLMs in a cleaner manner. Clean-Eval employs an LLM to paraphrase and back-translate the contaminated data into a candidate set, generating expressions with the same meaning but in different surface forms. A semantic detector is then used to filter the generated low-quality samples to narrow down this candidate set. The best candidate is finally selected from this set based on the BLEURT score. According to human assessment, this best candidate is semantically similar to the original contamination data but expressed differently. All candidates can form a new benchmark to evaluate the model. Our experiments illustrate that Clean-Eval substantially restores the actual evaluation results on contaminated LLMs under both few-shot learning and fine-tuning scenarios.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-03
# PsyEval: 大規模言語モデル評価のためのメンタルヘルス関連タスクスイート

PsyEval: A Suite of Mental Health Related Tasks for Evaluating Large Language Models ( http://arxiv.org/abs/2311.09189v2 )

ライセンス: Link先を確認
Haoan Jin, Siyuan Chen, Dilawaier Dilixiati, Yewei Jiang, Mengyue Wu, Kenny Q. Zhu, (参考訳) 精神保健領域における大規模言語モデル(LLM)の評価は、個人間で有意な変動を示す症状の微妙で非常に主観的な性質を考えると、他の領域と異なる課題を生じさせる。 本稿では、LSMを評価するためのメンタルヘルス関連タスクの総合的なスイートであるPsyEvalについて述べる。 PsyEvalは、メンタルヘルスの3つの重要な次元を評価する5つのサブタスクを含んでいる。 この包括的なフレームワークは、メンタルヘルス関連のタスクの固有の課題と複雑さを徹底的に評価するために設計されており、PsyEvalはこの領域でLLMのパフォーマンスを評価するための非常に専門的で価値のあるツールである。 PsyEvalを用いて12種類の高度なLCMを評価した。 実験の結果は、精神保健に関する現在のLCMの改善のための重要な余地を示すだけでなく、将来のモデル最適化のための潜在的方向性も示している。

Evaluating Large Language Models (LLMs) in the mental health domain poses distinct challenged from other domains, given the subtle and highly subjective nature of symptoms that exhibit significant variability among individuals. This paper presents PsyEval, the first comprehensive suite of mental health-related tasks for evaluating LLMs. PsyEval encompasses five sub-tasks that evaluate three critical dimensions of mental health. This comprehensive framework is designed to thoroughly assess the unique challenges and intricacies of mental health-related tasks, making PsyEval a highly specialized and valuable tool for evaluating LLM performance in this domain. We evaluate twelve advanced LLMs using PsyEval. Experiment results not only demonstrate significant room for improvement in current LLMs concerning mental health but also unveil potential directions for future model optimization.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-03
# PixT3:Pixelベースのテーブル・ツー・テキスト・ジェネレーション

PixT3: Pixel-based Table-To-Text Generation ( http://arxiv.org/abs/2311.09808v3 )

ライセンス: Link先を確認
Iñigo Alonso, Eneko Agirre, Mirella Lapata, (参考訳) テーブル・トゥ・テキスト生成は、構造化された表データに対して適切なテキスト記述を生成する。 近年、ニューラルネットワークモデルの人気と大規模データセットの利用により、注目を集めている。 既存の手法に共通する特徴は、入力を文字列として扱うこと、すなわち、表内の情報を常に保存せず、冗長であり、空間効率の欠如である線形化技術を使うことである。 本稿では,テキストからテキストへのデータ生成を視覚的認識タスクとして再考し,文字列形式で入力をレンダリングする必要性を排除することを提案する。 本稿では,既存モデルが直面する線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキストモデルPixT3を提案する。 PixT3は、テーブル構造認識を強化するために、新しい自己教師型学習目標を用いて訓練されており、オープンエンドおよびコントロールされた生成設定に適用できる。 ToTToとLogic2Textベンチマークの実験によると、PixT3は競争力があり、いくつかの設定では、テキストのみで動作するジェネレータよりも優れている。

Table-to-text generation involves generating appropriate textual descriptions given structured tabular data. It has attracted increasing attention in recent years thanks to the popularity of neural network models and the availability of large-scale datasets. A common feature across existing methods is their treatment of the input as a string, i.e., by employing linearization techniques that do not always preserve information in the table, are verbose, and lack space efficiency. We propose to rethink data-to-text generation as a visual recognition task, removing the need for rendering the input in a string format. We present PixT3, a multimodal table-to-text model that overcomes the challenges of linearization and input size limitations encountered by existing models. PixT3 is trained with a new self-supervised learning objective to reinforce table structure awareness and is applicable to open-ended and controlled generation settings. Experiments on the ToTTo and Logic2Text benchmarks show that PixT3 is competitive and, in some settings, superior to generators that operate solely on text.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-03
# SpeechAct: 音声から全身運動を生成するために

SpeechAct: Towards Generating Whole-body Motion from Speech ( http://arxiv.org/abs/2311.17425v3 )

ライセンス: Link先を確認
Jinsong Zhang, Minjie Zhu, Yuxiang Zhang, Yebin Liu, Kun Li, (参考訳) 本稿では,音声から全身の動きを生成する問題に対処する。 大きな成功にもかかわらず、先行の手法は、音声から合理的で多様な全身の動きを生み出すのに依然として苦労している。 これは、最適化下表現への依存と、多様な結果を生成するための戦略の欠如によるものである。 これらの課題に対処するため,フットスケートの回避など,高精度かつ連続的な動作生成を実現するために,新しいハイブリッド・ポイント表現を提案する。 音声信号と密接に結びついている顔の動きに対して、音声から全身の動きを生成するために、決定論的結果を得るためにエンコーダ・デコーダアーキテクチャを導入する。 しかし、音声信号との接続が弱い身体と手にとって、我々は多様だが合理的な動きを生み出すことを目指している。 動き生成の多様性を高めるために,モデルがより独特な表現を生成することを奨励するコントラッシブな動き学習法を提案する。 具体的には、我々のハイブリッド表現を用いて量子化されたモーションコードブックを学習するために、ロバストなVQ-VAEを設計する。 そして、コントラッシブ・モーション・ラーニング手法を用いた翻訳モデルにより、音声信号からの動作表現を回帰する。 実験により,本モデルの優れた性能と精度が検証された。 プロジェクトページは http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct で研究目的で公開されている。

This paper addresses the problem of generating whole-body motion from speech. Despite great successes, prior methods still struggle to produce reasonable and diverse whole-body motions from speech. This is due to their reliance on suboptimal representations and a lack of strategies for generating diverse results. To address these challenges, we present a novel hybrid point representation to achieve accurate and continuous motion generation, e.g., avoiding foot skating, and this representation can be transformed into an easy-to-use representation, i.e., SMPL-X body mesh, for many applications. To generate whole-body motion from speech, for facial motion, closely tied to the audio signal, we introduce an encoder-decoder architecture to achieve deterministic outcomes. However, for the body and hands, which have weaker connections to the audio signal, we aim to generate diverse yet reasonable motions. To boost diversity in motion generation, we propose a contrastive motion learning method to encourage the model to produce more distinctive representations. Specifically, we design a robust VQ-VAE to learn a quantized motion codebook using our hybrid representation. Then, we regress the motion representation from the audio signal by a translation model employing our contrastive motion learning method. Experimental results validate the superior performance and the correctness of our model. The project page is available for research purposes at http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-03
# 対応問題を回避する混合モデルに基づく物体姿勢推定のための確率幾何学的枠組み

A Stochastic-Geometrical Framework for Object Pose Estimation based on Mixture Models Avoiding the Correspondence Problem ( http://arxiv.org/abs/2311.18107v5 )

ライセンス: Link先を確認
Wolfgang Hoegele, (参考訳) 背景: 剛体物体の姿勢推定は、光学メロロジーとコンピュータビジョンの実践的な課題である。 本稿では,複数の特徴点の観測に基づくオブジェクトポーズ推定のための新しい確率幾何学的モデリングフレームワークを提案する。 方法:本フレームワークはオブジェクト空間における特徴点密度と実測値の解釈に混合モデルを利用する。 利点は、個々の特徴対応を解決し、マルチビューアプリケーションに正しい確率的依存関係を組み込むのを避けることである。 まず、一般的なモデリングフレームワークを提示し、次に、ポーズ推定のための一般的なアルゴリズムを導出し、第3に、2つのサンプルモデル(カメラとラセレーション設定)を提示する。 結果: 数値実験により, 測定分解能, 物体変形, 測定ノイズへの依存性を含む3つの観測システムに対して, 4つのシミュレーションシナリオを提示することにより, このモデリングと一般アルゴリズムの有効性を示した。 混合モデルを用いた確率論的モデリングは、対応問題を避けつつ、正確でロバストなポーズ推定の可能性を示している。

Background: Pose estimation of rigid objects is a practical challenge in optical metrology and computer vision. This paper presents a novel stochastic-geometrical modeling framework for object pose estimation based on observing multiple feature points. Methods: This framework utilizes mixture models for feature point densities in object space and for interpreting real measurements. Advantages are the avoidance to resolve individual feature correspondences and to incorporate correct stochastic dependencies in multi-view applications. First, the general modeling framework is presented, second, a general algorithm for pose estimation is derived, and third, two example models (camera and lateration setup) are presented. Results: Numerical experiments show the effectiveness of this modeling and general algorithm by presenting four simulation scenarios for three observation systems, including the dependence on measurement resolution, object deformations and measurement noise. Probabilistic modeling utilizing mixture models shows the potential for accurate and robust pose estimations while avoiding the correspondence problem.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-03
# 因果モデルのターゲット化

Targeted Reduction of Causal Models ( http://arxiv.org/abs/2311.18639v2 )

ライセンス: Link先を確認
Armin Kekić, Bernhard Schölkopf, Michel Besserve, (参考訳) なぜその現象が起こるのか。 この疑問に対処することは、ほとんどの科学的調査の中心であり、しばしば科学モデルのシミュレーションに依存している。 モデルがより複雑化するにつれて、相互接続された変数の高次元空間における現象の背後にある原因を解読することがますます困難になる。 Causal Representation Learning (CRL)は、これらのシミュレーション内の解釈可能な因果パターンを、干渉レンズを通して発見するための、有望な道を提供する。 しかし、実用的なアプリケーションに適した一般的なCRLフレームワークの開発は、依然としてオープンな課題である。 本稿では,複雑な相互作用可能なモデルを,特定の対象現象を説明するための簡潔な因果因子群に凝縮する手法であるTCR(Targeted Causal Reduction)を紹介する。 本稿では、シミュレーションの介入データからTCRを学習し、シフト介入の下で連続変数の識別可能性を確立し、TCRを学習するための実用的なアルゴリズムを提案する。 複雑なモデルから解釈可能な高レベルな説明を生成する能力は、おもちゃや機械システムで実証され、幅広い分野の複雑な現象の研究に科学者を支援する可能性を示している。

Why does a phenomenon occur? Addressing this question is central to most scientific inquiries and often relies on simulations of scientific models. As models become more intricate, deciphering the causes behind phenomena in high-dimensional spaces of interconnected variables becomes increasingly challenging. Causal Representation Learning (CRL) offers a promising avenue to uncover interpretable causal patterns within these simulations through an interventional lens. However, developing general CRL frameworks suitable for practical applications remains an open challenge. We introduce Targeted Causal Reduction (TCR), a method for condensing complex intervenable models into a concise set of causal factors that explain a specific target phenomenon. We propose an information theoretic objective to learn TCR from interventional data of simulations, establish identifiability for continuous variables under shift interventions and present a practical algorithm for learning TCRs. Its ability to generate interpretable high-level explanations from complex models is demonstrated on toy and mechanical systems, illustrating its potential to assist scientists in the study of complex phenomena in a broad range of disciplines.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-03
# ポートレート4D:合成データを用いたワンショット4D頭部アバター合成学習

Portrait4D: Learning One-Shot 4D Head Avatar Synthesis using Synthetic Data ( http://arxiv.org/abs/2311.18729v2 )

ライセンス: Link先を確認
Yu Deng, Duomin Wang, Xiaohang Ren, Xingyu Chen, Baoyuan Wang, (参考訳) 既存のワンショット4Dヘッド合成法は通常、3DMM再構成の助けを借りて単眼ビデオから学習するが、後者は理にかなった4Dヘッド合成を制限している。 大規模合成データを用いてワンショット4Dヘッド合成を学習する手法を提案する。 鍵となるのは、まず敵対学習を通じてモノクロ画像からパートワイズ4D生成モデルを学習し、多様なアイデンティティとフルモーションのマルチビュー画像をトレーニングデータとして合成し、次にトランスフォーマベースでアニマタブルな3次元平面再構成機を用いて合成データを用いて4D頭部再構成を学習することである。 3次元再構成と再現の学習プロセスを切り離して、実画像への一般化性を高めるために、新しい学習戦略が実施される。 実験は、先行技術よりも優れていることを示す。

Existing one-shot 4D head synthesis methods usually learn from monocular videos with the aid of 3DMM reconstruction, yet the latter is evenly challenging which restricts them from reasonable 4D head synthesis. We present a method to learn one-shot 4D head synthesis via large-scale synthetic data. The key is to first learn a part-wise 4D generative model from monocular images via adversarial learning, to synthesize multi-view images of diverse identities and full motions as training data; then leverage a transformer-based animatable triplane reconstructor to learn 4D head reconstruction using the synthetic data. A novel learning strategy is enforced to enhance the generalizability to real images by disentangling the learning process of 3D reconstruction and reenactment. Experiments demonstrate our superiority over the prior art.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-03
# VREM-FL:Vehicular Federated Learningのためのモビリティを考慮した計算スケジューリング協調設計

VREM-FL: Mobility-Aware Computation-Scheduling Co-Design for Vehicular Federated Learning ( http://arxiv.org/abs/2311.18741v2 )

ライセンス: Link先を確認
Luca Ballotta, Nicolò Dal Fabbro, Giovanni Perin, Luca Schenato, Michele Rossi, Giuseppe Piro, (参考訳) アシストと自律運転は急速に勢いを増し、間もなく現実になる。 人工知能と機械学習は、スマート車両が搭載センサーから収集する膨大な量のデータのおかげで、重要な実現要因と見なされている。 フェデレーション学習は、車両のデータプライバシを保持し、通信リソースの使用を最適化しながら、グローバルな機械学習モデルをトレーニングするための最も有望なテクニックの1つである。 本稿では,車両の移動性と5G無線環境マップを組み合わせた車両統合学習のための計算スケジューリング協調設計である車載無線環境マップフェデレートラーニング(VREM-FL)を提案する。 VREM-FLはグローバルモデルの学習性能を最適化し、コミュニケーションと計算資源を賢明に割り当てる。 これは、無線チャネルマップを利用することで、車両の局所的な計算を、適応的で予測的な方法で、それらの局所モデルの伝達と合わせてオーケストレーションすることで達成される。 提案アルゴリズムは、無線リソース使用のための訓練時間を交換するために調整することができる。 実験の結果,VREM-FLは線形回帰モデル(学習時間を28%削減)とセマンティックイメージセグメンテーションのためのディープニューラルネットワーク(同じ時間ウィンドウ内でのモデル更新回数を2倍に)の両方の文献ベンチマークより優れていた。

Assisted and autonomous driving are rapidly gaining momentum and will soon become a reality. Artificial intelligence and machine learning are regarded as key enablers thanks to the massive amount of data that smart vehicles will collect from onboard sensors. Federated learning is one of the most promising techniques for training global machine learning models while preserving data privacy of vehicles and optimizing communications resource usage. In this article, we propose vehicular radio environment map federated learning (VREM-FL), a computation-scheduling co-design for vehicular federated learning that combines mobility of vehicles with 5G radio environment maps. VREM-FL jointly optimizes learning performance of the global model and wisely allocates communication and computation resources. This is achieved by orchestrating local computations at the vehicles in conjunction with transmission of their local models in an adaptive and predictive fashion, by exploiting radio channel maps. The proposed algorithm can be tuned to trade training time for radio resource usage. Experimental results demonstrate that VREM-FL outperforms literature benchmarks for both a linear regression model (learning time reduced by 28%) and a deep neural network for semantic image segmentation (doubling the number of model updates within the same time window).
翻訳日:2024-06-04 20:11:43 公開日:2024-06-03
# GIFT:ジェネレーティブ・インタプリタブル・ファインチューニング

GIFT: Generative Interpretable Fine-Tuning ( http://arxiv.org/abs/2312.00700v2 )

ライセンス: Link先を確認
Chinmay Savadikar, Xi Song, Tianfu Wu, (参考訳) 本稿では,パラメータ空間における単純な分解行列乗算あるいはアクティベーション空間における等価な分解行列乗算として定式化できる,事前訓練されたトランスフォーマーバックボーンのパラメータ効率の高い微調整のための生成的解釈可能ファインタニング(GIFT)を提案する。 重みが$\omega\in \mathbb{R}^{d_{out}\times d_{in}}$に対して、提案したGIFTは、$\omega$ as $\hat{\omega}$から直接$\omega$ as $\hat{\omega}=\omega \cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot \psi_{r\times d_{in}})$から$\mathbb{I}$を恒等行列とする。 $\Theta=(\phi, \psi)$は、GIFTの2つの線形レイヤの学習可能なパラメータで、r$はハイパーパラメータである。 $\Theta$は、微調整のために選択されたすべてのレイヤによって共有されるため、ローランド適応(LoRA)と比較して、トレーニング可能なパラメータが大幅に少ない。 自然言語タスク(常識推論とシーケンス分類)とコンピュータビジョンタスク(視覚的きめ細かい分類)の総合的な評価を行う。 我々は,LLaMA-1 (7B) とLlama-2 (7B)/-3 (8B) を用いたCommonsense170k推論ベンチマークと,ImageNet-21k事前訓練された視覚変換器 (ViT-B/16) を用いたFGVCおよびVTAB視覚認識ベンチマークにおいて,ベースライン間の最良の精度とパラメータ効率を得る。 特に,Llama-3 (8B) を用いたCommonsense170kのパラメータの53.8倍の精度で平均精度が5.9%向上した。 GLUEベンチマークではLoRAに匹敵する性能を示したが,RoBERTa-Base/Largeではパラメータが大幅に少なかった。 最初の線形層(つまり$\omega\cdot \phi$)の出力は驚くほど解釈可能であり、これはコンピュータビジョンタスクのイメージに意味のあるオブジェクトやパーツをローカライズするための副産物としてトークンクラスタリングヘッドの役割を果たすことができる。 私たちのコードは公開されています。

We present Generative Interpretable Fine-Tuning (GIFT) for parameter-efficient fine-tuning of pretrained Transformer backbones, which can be formulated as a simple factorized matrix multiplication in the parameter space or equivalently in the activation space, and thus embraces built-in interpretability. For a pretrained layer with weights $\omega\in \mathbb{R}^{d_{out}\times d_{in}}$, our proposed GIFT learns the fine-tuned weights $\hat{\omega}$ directly from $\omega$ as $\hat{\omega}=\omega \cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot \psi_{r\times d_{in}})$ where $\mathbb{I}$ is an identity matrix. $\Theta=(\phi, \psi)$ are the learnable parameters of the two linear layers of GIFT with $r$ being a hyper-parameter. $\Theta$ is shared by all the layers selected for fine-tuning, resulting in significantly fewer trainable parameters compared to Low-Rank Adaptation (LoRA). We perform comprehensive evaluations on natural language tasks (commonsense reasoning and sequence classification) and computer vision tasks (visual fine-grained classification). We obtain the best accuracy and parameter efficiency among baselines both on the Commonsense170k reasoning benchmark using LLaMA-1 (7B) and Llama-2 (7B)/-3 (8B) and on the FGVC and VTAB visual recognition benchmarks using ImageNet-21k pretrained Vision Transformer (ViT-B/16). Notably, we obtain 5.9% absolute increase in average accuracy with 53.8 times reduction of parameters on Commonsense170k using Llama-3 (8B) compared to LoRA. We obtain performance comparable to LoRA on the GLUE benchmark but with significantly fewer parameters using RoBERTa-Base/Large. We show the output of the first linear layer (i.e., $\omega\cdot \phi$) is surprisingly interpretable, which can play the role of a token-clustering head as a by-product to localize meaningful objects/parts in images for computer vision tasks. Our code is publicly available.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-03
# 雑音量子回路に対する局所精製密度演算子

Locally purified density operators for noisy quantum circuits ( http://arxiv.org/abs/2312.02854v2 )

ライセンス: Link先を確認
Yuchen Guo, Shuo Yang, (参考訳) オープン量子システムのシミュレーションは、新しい量子現象の探索とノイズ量子回路の評価に不可欠である。 本稿では,雑音量子回路から発生する混合状態が局所的純化密度演算子(LPDO)によって効率的に表現できるかどうかについて述べる。 N$ qubits の LPDOs から 2\times N$ の射影エンタングルペア状態への写像を提示し、仮想およびクラウス結合を管理する統一的な方法を導入する。 LPDO表現は、量子領域と古典領域の両方で混合状態を記述するのに有効であることが証明されているが、量子古典臨界点において重要な課題に直面し、量子領域のみに適用可能である。 対照的に、行列積演算子(MPO)は、シミュレーション全体を通して絡み合う傾向をうまく特徴づける一方、MPOにおける絡み合いは、物理密度行列に必要な正の条件を破る。 この研究は、オープン量子系における効率的な混合状態表現の理解を深め、ノイズ量子回路の絡み合い構造に関する洞察を提供する。

Simulating open quantum systems is essential for exploring novel quantum phenomena and evaluating noisy quantum circuits. In this Letter, we address the problem of whether mixed states generated from noisy quantum circuits can be efficiently represented by locally purified density operators (LPDOs). We present a mapping from LPDOs of $N$ qubits to projected entangled-pair states of size $2\times N$ and introduce a unified method for managing virtual and Kraus bonds, which is numerically validated by noisy random quantum circuits with depths up to $d=40$, using fidelity and entanglement entropy as accuracy measures. LPDO representation proves to be effective in describing mixed states in both quantum and classical regions but encounters significant challenges at the quantum-classical critical point, limiting its applicability to the quantum region exclusively. In contrast, the matrix product operator (MPO) successfully characterizes the entanglement trend throughout the simulation, while truncation in MPOs breaks the positivity condition required for a physical density matrix. This work advances our understanding of efficient mixed-state representation in open quantum systems and provides insights into the entanglement structure of noisy quantum circuits.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-03
# 多要素シミュレーション、機械学習、検索空間削減手法による効率的な逆設計最適化

Efficient Inverse Design Optimization through Multi-fidelity Simulations, Machine Learning, and Search Space Reduction Strategies ( http://arxiv.org/abs/2312.03654v2 )

ライセンス: Link先を確認
Luka Grbcic, Juliane Müller, Wibe Albert de Jong, (参考訳) 本稿では,マルチ忠実度評価,機械学習モデル,最適化アルゴリズムの戦略的相乗効果を通じて,限られた計算で制約されたシナリオにおける逆設計最適化プロセスを強化する手法を提案する。 提案手法はエアフォイル逆設計とスカラーフィールド再構成の2つの異なる工学的逆設計問題について解析する。 最適化サイクル毎に、低忠実度シミュレーションデータでトレーニングされた機械学習モデルを活用することにより、ターゲット変数を十分に予測し、高忠実度シミュレーションが必要かどうかを判断し、特に計算資源を保存する。 さらに、設計空間境界を圧縮する最適化に先立って、機械学習モデルを戦略的に配置することにより、最適解への収束をさらに加速する。 この手法は、微分進化と粒子群最適化という2つの最適化アルゴリズムを強化するために用いられている。 比較分析は両アルゴリズムのパフォーマンス改善を示す。 特に、この手法は、任意の逆設計アプリケーションに適用可能であり、代表的低忠実度MLモデルと高忠実度シミュレーションの相乗効果を容易にし、様々な集団ベース最適化アルゴリズムにシームレスに適用することができる。 ※

This paper introduces a methodology designed to augment the inverse design optimization process in scenarios constrained by limited compute, through the strategic synergy of multi-fidelity evaluations, machine learning models, and optimization algorithms. The proposed methodology is analyzed on two distinct engineering inverse design problems: airfoil inverse design and the scalar field reconstruction problem. It leverages a machine learning model trained with low-fidelity simulation data, in each optimization cycle, thereby proficiently predicting a target variable and discerning whether a high-fidelity simulation is necessitated, which notably conserves computational resources. Additionally, the machine learning model is strategically deployed prior to optimization to compress the design space boundaries, thereby further accelerating convergence toward the optimal solution. The methodology has been employed to enhance two optimization algorithms, namely Differential Evolution and Particle Swarm Optimization. Comparative analyses illustrate performance improvements across both algorithms. Notably, this method is adaptable across any inverse design application, facilitating a synergy between a representative low-fidelity ML model, and high-fidelity simulation, and can be seamlessly applied across any variety of population-based optimization algorithms.}
翻訳日:2024-06-04 20:01:52 公開日:2024-06-03
# ポアソン幾何学による量子力学の定式化

Poisson Geometric Formulation of Quantum Mechanics ( http://arxiv.org/abs/2312.05615v2 )

ライセンス: Link先を確認
Pritish Sinha, Ankit Yadav, (参考訳) 有限次元混合状態と純粋状態に対する量子力学のポアソン幾何学的定式化について検討する。 同様に、量子力学は古典力学の言語で理解可能であることを示す。 ヒルベルト空間のシンプレクティック構造を概観し、その標準座標を同定する。 幾何図形を密度行列の空間に拡張し、$D_N^+$とする。 シンプレクティックではないが、線型$\mathfrak{su}(N)$ Poisson構造を持つ。 D_N^+$ のカシミール曲面を同定し、純粋な状態の空間 $P_N \equiv \mathbb{C}P^{N-1}$ が原始カシミールの交叉であるシンプレクティック部分多様体の1つであることを示す。 我々は、D_N^+$の一般シンプレクティック部分多様体を同定し、それらの次元を計算する。 D_N^+$ は、共役軌道としても知られる様々な次元のシンプレクティックな葉によって特異に葉分かれしている。 また、ポアソン部分多様体の昇鎖は$D_N^M \subset D_N^{M+1}$ for $ 1 \leq M \leq N-1$である。 そのようなポアソン部分多様体 $D_N^M$ は、双分数系 $\mathbb{C}^N \times \mathbb{C}^M$ から $\mathbb{C}^M$ 状態を探し出し、$D_N^+$ のプリミティブ Casimirs の交叉である。 彼らのポアソン構造はバイパルタイトのシンプレクティック構造から誘導される。 私たちは彼らの葉も見せます。 最後に、シンプレクティック部分多様体 $E_N^M$ の正半定幾何を、最大エントロピーを持つ混合状態の$D_N^M$ で調べる。

We study the Poisson geometrical formulation of quantum mechanics for finite dimensional mixed and pure states. Equivalently, we show that quantum mechanics can be understood in the language of classical mechanics. We review the symplectic structure of the Hilbert space and identify its canonical coordinates. We extend the geometric picture to the space of density matrices $D_N^+$. We find it is not symplectic but admits a linear $\mathfrak{su}(N)$ Poisson structure. We identify Casimir surfaces of $D_N^+$ and show that the space of pure states $P_N \equiv \mathbb{C}P^{N-1}$ is one of its symplectic submanifolds which is an intersection of primitive Casimirs. We identify generic symplectic submanifolds of $D_N^+$ and calculate their dimensions. We find that $D_N^+$ is singularly foliated by the symplectic leaves of varying dimensions, also known as coadjoint orbits. We also find an ascending chain of Poisson submanifolds $D_N^M \subset D_N^{M+1}$ for $ 1 \leq M \leq N-1$. Each such Poisson submanifold $D_N^M$ is obtained by tracing out the $\mathbb{C}^M$ states from the bipartite system $\mathbb{C}^N \times \mathbb{C}^M$ and is an intersection of $N-M$ primitive Casimirs of $D_N^+$. Their Poisson structure is induced from the symplectic structure of the bipartite system. We also show their foliations. Finally, we study the positive semi-definite geometry of the symplectic submanifold $E_N^M$ consisting of the mixed states with maximum entropy in $D_N^M$.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-03
# DMS*:multi-Agent Combinatorial Path FindingのためのMakespanの最小化

DMS*: Minimizing Makespan for Multi-Agent Combinatorial Path Finding ( http://arxiv.org/abs/2312.06314v2 )

ライセンス: Link先を確認
Zhongqiang Ren, Anushtup Nandy, Sivakumar Rathinam, Howie Choset, (参考訳) Multi-Agent Combinatorial Path Finding (MCPF) は、初期から目標地点まで複数のエージェントの衝突のない経路を探索し、経路の中央にある一連の中間目標地点を訪れている。 MCPFは、複数のエージェントに対して衝突のない経路を計画することと、ターゲットシークエンシング(つまり、旅行中のセールスマンの問題を解決し、ターゲットを割り当て、エージェントの訪問順序を見つけること)の両方が課題である。 最近の研究は、目標における個々の到着時間の総和を最小化しながら、MPPFに対処する方法を開発している。 このような問題の定式化は、異なる到着時間を持つ経路をもたらし、エージェント間の到達時間(最大到着時間)を長くする可能性がある。 本稿では,MCPF の min-max 変種である MCPF-max を提案する。 MCPF の既存の手法 (MS* など) は MCPF-max の解法に適応できるが,MS* をベースとした2つの新しい手法が開発され,計算の高速化を図っている。 得られたアルゴリズムDerred MS*(DMS*)の特性を分析し、最大20個のエージェントと80個のターゲットでDMS*をテストする。 ディファレンシャルドライブロボットにおけるDMS*の使用を実演する。

Multi-Agent Combinatorial Path Finding (MCPF) seeks collision-free paths for multiple agents from their initial to goal locations, while visiting a set of intermediate target locations in the middle of the paths. MCPF is challenging as it involves both planning collision-free paths for multiple agents and target sequencing, i.e., solving traveling salesman problems to assign targets to and find the visiting order for the agents. Recent work develops methods to address MCPF while minimizing the sum of individual arrival times at goals. Such a problem formulation may result in paths with different arrival times and lead to a long makespan, the maximum arrival time, among the agents. This paper proposes a min-max variant of MCPF, denoted as MCPF-max, that minimizes the makespan of the agents. While the existing methods (such as MS*) for MCPF can be adapted to solve MCPF-max, we further develop two new techniques based on MS* to defer the expensive target sequencing during planning to expedite the overall computation. We analyze the properties of the resulting algorithm Deferred MS* (DMS*), and test DMS* with up to 20 agents and 80 targets. We demonstrate the use of DMS* on differential-drive robots.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-03
# 特徴ガイダンス:大規模誘導スケールでの拡散モデルに対する非線形補正

Characteristic Guidance: Non-linear Correction for Diffusion Model at Large Guidance Scale ( http://arxiv.org/abs/2312.07586v5 )

ライセンス: Link先を確認
Candi Zheng, Yuan Lan, (参考訳) 拡散確率モデル(DDPM)を線形に表現するための一般的なガイダンスは、異なる条件付きモデルを組み合わせて、サンプルの制御を強化する。 しかし,本手法は誘導スケールが大きいと重要になる非線形効果を無視する。 この問題に対処するために,第一原理の非線形補正を行う誘導法である特徴ガイダンスを提案する。 このような補正により、DDPMはFokker-Planck(FP)の拡散過程の方程式を、訓練なしで既存のサンプリング法と互換性のある方法で尊重せざるを得なくなる。 実験により,特徴誘導は画像生成におけるプロンプトの意味的特性を高め,不規則を緩和し,マグネット相転移のシミュレーションから潜時空間サンプリングまで多種多様な応用に有効であることが示された。

Popular guidance for denoising diffusion probabilistic model (DDPM) linearly combines distinct conditional models together to provide enhanced control over samples. However, this approach overlooks nonlinear effects that become significant when guidance scale is large. To address this issue, we propose characteristic guidance, a guidance method that provides first-principle non-linear correction for classifier-free guidance. Such correction forces the guided DDPMs to respect the Fokker-Planck (FP) equation of diffusion process, in a way that is training-free and compatible with existing sampling methods. Experiments show that characteristic guidance enhances semantic characteristics of prompts and mitigate irregularities in image generation, proving effective in diverse applications ranging from simulating magnet phase transitions to latent space sampling.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-03
# アースファシー:一モデルにおける垂直時空間力学系モデリング

Earthfarseer: Versatile Spatio-Temporal Dynamical Systems Modeling in One Model ( http://arxiv.org/abs/2312.08403v3 )

ライセンス: Link先を確認
Hao Wu, Yuxuan Liang, Wei Xiong, Zhengyang Zhou, Wei Huang, Shilong Wang, Kun Wang, (参考訳) 時空間(ST)物理過程と観察を効果的にモデル化することは、ディープラーニングコミュニティにとって難しい問題である。 近年の多くの研究は、様々な利点を巧みに整合させることに集中しており、単純で実用的でもない設計モデルに繋がっている。 そこで本研究では, 市販モデルが抱える既存の欠点について, 局所的忠実性の欠如, 長期にわたる予測性能の低下, スケーラビリティの低下, 効率の低下などについて, 系統的に検討する。 本研究では, 並列な局所的畳み込みとグローバルなフーリエ型トランスフォーマーアーキテクチャを組み合わせた簡潔なフレームワークであるEarthFarseerを提案する。 EarthFarseerはまた、時間的進化を効率的に効果的に捉えるために、マルチスケールの完全な畳み込みとフーリエアーキテクチャも組み込んでいる。 提案手法は, 様々なタスクやデータセットに対して高い適応性を示し, 短時間で収束し, 時間経過予測における局所忠実度が向上する。 8つの人間社会と自然の物理的データセットに対する大規模な実験と可視化は、アースファーサーの最先端のパフォーマンスを実証している。 コードについてはhttps://github.com/easylearningscores/EarthFarseer.comで公開しています。

Efficiently modeling spatio-temporal (ST) physical processes and observations presents a challenging problem for the deep learning community. Many recent studies have concentrated on meticulously reconciling various advantages, leading to designed models that are neither simple nor practical. To address this issue, this paper presents a systematic study on existing shortcomings faced by off-the-shelf models, including lack of local fidelity, poor prediction performance over long time-steps,low scalability, and inefficiency. To systematically address the aforementioned problems, we propose an EarthFarseer, a concise framework that combines parallel local convolutions and global Fourier-based transformer architectures, enabling dynamically capture the local-global spatial interactions and dependencies. EarthFarseer also incorporates a multi-scale fully convolutional and Fourier architectures to efficiently and effectively capture the temporal evolution. Our proposal demonstrates strong adaptability across various tasks and datasets, with fast convergence and better local fidelity in long time-steps predictions. Extensive experiments and visualizations over eight human society physical and natural physical datasets demonstrates the state-of-the-art performance of EarthFarseer. We release our code at https://github.com/easylearningscores/EarthFarseer.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-03
# マルチタイム量子プロセスにおけるマルコフ的相関と非マルコフ的相関の関係

Relations between Markovian and non-Markovian correlations in multitime quantum processes ( http://arxiv.org/abs/2312.10147v3 )

ライセンス: Link先を確認
Guilherme Zambon, Diogo O. Soares-Pinto, (参考訳) 開量子系の力学において、情報はシステムまたは環境を通して時間的に伝播し、マルコフ的および非マルコフ的時間的相関が生じる。 しかし、ほとんどの物理的状況において顕著な共存にもかかわらず、これらの2つの量がどのように互いの存在を制限するのかは明らかになっていない。 ここでは、一般的なマルチ時間量子プロセスの時間的相関に関するいくつかの不等式を導出することにより、この問題に対処する。 ダイナミクスはプロセステンソルによって記述され、相関はそれらのChoi状態のサブシステム間の相互情報によって定量化される。 まず、各ステップにおいてマルコビアン性の次数が与えられた過程の非マルコビアン性に対する上界の集合を証明する。 これは直ちに、そのマルコビアン性とは独立に、任意のプロセスの非マルコビアン性に対する非自明な最大値を意味する。 最後に、非マルコビアン性が与えられた過程に存在する可能性のある全時間相関の量を制限する方法を得る。 これらの結果は、任意のマルチタイムプロセスが、与えられた量の非マルコビアン性を持つために全相関の価格を支払わなければならないが、この価格がプロセスのステップ数とともに指数関数的に消え、最大非マルコビアン性は直線的にしか成長しないことを示している。 これは、高度に非マルコフ過程でさえ、十分に多くのステップがある場合、最大で完全な相関を持つような任意に近いかもしれないことを意味する。

In the dynamics of open quantum systems, information may propagate in time through either the system or the environment, giving rise to Markovian and non-Markovian temporal correlations, respectively. However, despite their notable coexistence in most physical situations, it is not yet clear how these two quantities may limit the existence of one another. Here, we address this issue by deriving several inequalities relating the temporal correlations of general multi-time quantum processes. The dynamics are described by process tensors and the correlations are quantified by the mutual information between subsystems of their Choi states. First, we prove a set of upper bounds to the non-Markovianity of a process given the degree of Markovianity in each of its steps. This immediately implies a non-trivial maximum value for the non-Markovianity of any process, independently of its Markovianity. Finally, we obtain how the non-Markovianity limits the amount of total temporal correlations that could be present in a given process. These results show that, although any multi-time process must pay a price in total correlations to have a given amount of non-Markovianity, this price vanishes exponentially with the number of steps of the process, while the maximum non-Markovianity grows only linearly. This implies that even a highly non-Markovian process might be arbitrarily close to having maximum total correlations if it has a sufficiently large number of steps.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-03
# 大規模言語モデルのためのインストラクションデータプロスペクタとしてのワンショット学習

One-Shot Learning as Instruction Data Prospector for Large Language Models ( http://arxiv.org/abs/2312.10302v4 )

ライセンス: Link先を確認
Yunshui Li, Binyuan Hui, Xiaobo Xia, Jiaxi Yang, Min Yang, Lei Zhang, Shuzheng Si, Ling-Hao Chen, Junhao Liu, Tongliang Liu, Fei Huang, Yongbin Li, (参考訳) インストラクションチューニングにおける現代のプラクティスは、データ品質を保証する明確な戦略なしで、データスケーリングを拡大することに集中しています。 この課題に対処するために、単発学習を利用して広範囲なデータセットから高品質な命令データを識別・選択する、新規で効率的な方法論である「textsc{Nuggets}」を紹介した。 \textsc{Nuggets}は、個別のインストラクション例が効果的なワンショット学習インスタンスとして機能する可能性を評価し、多様なタスク間でパフォーマンスを大幅に改善できるものを特定する。 \textsc{Nuggets} は、様々なアンカーセットの難易度に対する候補例の影響に基づいてスコアリングシステムを使用し、命令チューニングにおいて最も有利なデータの選択を容易にする。 MT-Bench と Alpaca-Eval を含む2つのベンチマークの総合的な評価を通じて,\textsc{Nuggets} がキュレートした例の上位 1 倍のインストラクションチューニングが,データセット全体を用いた従来の手法を大幅に上回っていることを示す。

Contemporary practices in instruction tuning often hinge on enlarging data scaling without a clear strategy for ensuring data quality, inadvertently introducing noise that may compromise model performance. To address this challenge, we introduce \textsc{Nuggets}, a novel and efficient methodology that leverages one-shot learning to discern and select high-quality instruction data from extensive datasets. \textsc{Nuggets} assesses the potential of individual instruction examples to act as effective one-shot learning instances, thereby identifying those that can significantly improve performance across diverse tasks. \textsc{Nuggets} utilizes a scoring system based on the impact of candidate examples on the perplexity of a diverse anchor set, facilitating the selection of the most advantageous data for instruction tuning. Through comprehensive evaluations on two benchmarks, including MT-Bench and Alpaca-Eval, we show that instruction tuning with the top 1\% of examples curated by \textsc{Nuggets} substantially outperforms conventional methods employing the entire dataset.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-03
# 大規模言語モデルによる分割と言い換え

Split and Rephrase with Large Language Models ( http://arxiv.org/abs/2312.11075v4 )

ライセンス: Link先を確認
David Ponce, Thierry Etchegoyhen, Jesús Calleja Pérez, Harritxu Gete, (参考訳) Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割し、本来の意味を保ちながら、人間や機械などの複雑なテキストの処理を容易にする。 また、複雑な文法的な側面をモデル化する必要があるため、自然言語処理モデルを評価する上でも貴重なテストベッドである。 本研究では,タスク上の大きな言語モデルの評価を行い,コンプライアンスの分割に関してはまだ遅れているものの,主要なメトリクスに対する最先端技術よりも大きな改善を提供できることを示す。 2つの人的評価の結果は、自動測定結果から得られた結論をさらに裏付ける。 本研究では, パラメータサイズや学習データ量が異なる, 変種, ドメインシフト, 微調整済みの事前学習言語モデルについて, ゼロショット, 少数ショットの両言語モデルとの比較を行った。 後者は微調整されたモデルによって著しく性能が優れていたが、それらは既製の代替品として合理的である可能性がある。 この結果から,SPRPにおける大規模言語モデルの可能性と限界を詳細に分析し,比較的少数のトレーニングデータとモデルパラメータを用いて達成可能な大幅な改善と,タスク上のすべてのモデルに対する制限の維持を実現した。

The Split and Rephrase (SPRP) task, which consists in splitting complex sentences into a sequence of shorter grammatical sentences, while preserving the original meaning, can facilitate the processing of complex texts for humans and machines alike. It is also a valuable testbed to evaluate natural language processing models, as it requires modelling complex grammatical aspects. In this work, we evaluate large language models on the task, showing that they can provide large improvements over the state of the art on the main metrics, although still lagging in terms of splitting compliance. Results from two human evaluations further support the conclusions drawn from automated metric results. We provide a comprehensive study that includes prompting variants, domain shift, fine-tuned pretrained language models of varying parameter size and training data volumes, contrasted with both zero-shot and few-shot approaches on instruction-tuned language models. Although the latter were markedly outperformed by fine-tuned models, they may constitute a reasonable off-the-shelf alternative. Our results provide a fine-grained analysis of the potential and limitations of large language models for SPRP, with significant improvements achievable using relatively small amounts of training data and model parameters overall, and remaining limitations for all models on the task.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-03
# 量子抵抗ガリレオOSNMAのための暗号手法の評価

Assessment of cryptographic approaches for a quantum-resistant Galileo OSNMA ( http://arxiv.org/abs/2312.11080v2 )

ライセンス: Link先を確認
Javier Junquera-Sánchez, Carlos Hernando-Ramiro, Óscar Gamallo-Palomares, José-Antonio Gómez-Sánchez, (参考訳) 量子コンピューティングは、時間が経つにつれて現実のものになる。 現代の暗号は特定の数学的問題の計算複雑性に基づいているが、新しい量子ベースのコンピュータが出現するにつれて、古典的な手法は通信をセキュアにするのに十分ではないかもしれない。 本稿では,Galileo Open Service Navigation Message Authentication(OSNMA)の現状を分析し,これらの新たな脅威を克服する。 この分析と評価はOSNMA文書を用いて行われ、国立標準技術研究所(NIST)の標準化プロセスと競合するPQC(Post Quantum Cryptography)アルゴリズムをレビューし、ガリレオ・サービスにおける実装の可能性について研究している。 PQCアプローチを採用する上で大きな障壁は、署名とキーの両方のサイズである。 この分析によると、OSNMAはまだ量子脅威に直面する準備が整っていない。 この研究は、システムの整合性を短期的に維持するために実施可能な、異なる時間的対策を評価することで締めくくられる。

Quantum computing becomes more of a reality as time passes, bringing several cybersecurity challenges. Modern cryptography is based on the computational complexity of specific mathematical problems, but as new quantum-based computers appear, classical methods might not be enough to secure communications. In this paper, we analyse the state of the Galileo Open Service Navigation Message Authentication (OSNMA) to overcome these new threats. This analysis and its assessment have been performed using OSNMA documentation, reviewing the available Post Quantum Cryptography (PQC) algorithms competing in the National Institute of Standards and Technology (NIST) standardization process, and studying the possibility of its implementation in the Galileo service. The main barrier to adopting the PQC approach is the size of both the signature and the key. The analysis shows that OSNMA is not yet prepared to face the quantum threat, and a significant change would be required. This work concludes by assessing different temporal countermeasures that can be implemented to sustain the system's integrity in the short term.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-03
# 自然言語による反復的な運動編集

Iterative Motion Editing with Natural Language ( http://arxiv.org/abs/2312.11538v2 )

ライセンス: Link先を確認
Purvi Goel, Kuan-Chieh Wang, C. Karen Liu, Kayvon Fatahalian, (参考訳) テキスト間拡散モデルはテキストプロンプトからリアルなアニメーションを生成することができるが、微粒なモーション編集制御はサポートしていない。 本稿では,ほとんどのコンピュータアニメーションワークフローに共通するタスクである,既存のキャラクターアニメーションに対する局所的な編集を反復的に特定するために自然言語を使用する手法を提案する。 我々のキーとなるアイデアは、動きの空間を運動運動編集オペレーター(MEOs)のセットで表現することであり、その動きがユーザの期待に合致する。 我々は、既存の言語モデルを利用して、動き編集のテキスト記述をソースコードに翻訳し、ソースアニメーション上でMEOのシーケンスを定義し実行するアルゴリズムを提案する。 まずそれらをキーフレームの制約に翻訳し、拡散に基づく運動モデルを用いてこれらの制約を尊重する出力運動を生成する。 ユーザスタディと定量的評価により,本システムはアニメーションの編集意図を尊重し,オリジナルアニメーションに忠実な動作(オリジナルアニメーションは編集するが,劇的には変更しない)を行うことができ,リアルなキャラクターアニメーション結果が得られることを示した。

Text-to-motion diffusion models can generate realistic animations from text prompts, but do not support fine-grained motion editing controls. In this paper, we present a method for using natural language to iteratively specify local edits to existing character animations, a task that is common in most computer animation workflows. Our key idea is to represent a space of motion edits using a set of kinematic motion editing operators (MEOs) whose effects on the source motion is well-aligned with user expectations. We provide an algorithm that leverages pre-existing language models to translate textual descriptions of motion edits into source code for programs that define and execute sequences of MEOs on a source animation. We execute MEOs by first translating them into keyframe constraints, and then use diffusion-based motion models to generate output motions that respect these constraints. Through a user study and quantitative evaluation, we demonstrate that our system can perform motion edits that respect the animator's editing intent, remain faithful to the original animation (it edits the original animation, but does not dramatically change it), and yield realistic character animation results.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-03
# 連続学習:映像表現のためのターゲットフリーウィンニングサブネット

Continual Learning: Forget-free Winning Subnetworks for Video Representations ( http://arxiv.org/abs/2312.11973v4 )

ライセンス: Link先を確認
Haeyong Kang, Jaehong Yoon, Sung Ju Hwang, Chang D. Yoo, (参考訳) LTH(Lottery Ticket hypothesis)に触発されて、大規模で高密度なネットワークにおける効率的なサブネットワークの存在を強調し、様々な連続的な学習タスクにおいて、適切な空間条件下でのタスク性能において高いパフォーマンスのWinning Subnetwork(WSN)が検討される。 タスクインクリメンタルラーニング(TIL)とタスク非依存インクリメンタルラーニング(TaIL)のシナリオにおいて,既存のネットワークからの重み付けを活用して,効率的な学習を実現する。 FSCIL(Few-Shot Class Incremental Learning)では、データサンプル不足時の過度な適合を防止するために、SoftNet(SoftNet)と呼ばれるWSNのバリエーションが設計されている。 さらに,ビデオインクリメンタルラーニング(VIL)では,WSN重みの疎再利用が検討されている。 WSNにおけるフーリエサブニューラル演算子(FSO)の使用について考察する。 ビデオのコンパクトエンコーディングを可能にし、様々な帯域で再利用可能なサブネットを識別する。 我々は、VIL、TIL、FSCILを含む継続学習のための異なるアーキテクチャフレームワークにFSOを統合した。 我々はFSOの有効性を総合的に検証し,様々な畳み込み表現レベルでのタスク性能を著しく向上させた。 特に、FSOは、TILおよびFSCILの高層性能とVILの低層性能を向上させる。

Inspired by the Lottery Ticket Hypothesis (LTH), which highlights the existence of efficient subnetworks within larger, dense networks, a high-performing Winning Subnetwork (WSN) in terms of task performance under appropriate sparsity conditions is considered for various continual learning tasks. It leverages pre-existing weights from dense networks to achieve efficient learning in Task Incremental Learning (TIL) and Task-agnostic Incremental Learning (TaIL) scenarios. In Few-Shot Class Incremental Learning (FSCIL), a variation of WSN referred to as the Soft subnetwork (SoftNet) is designed to prevent overfitting when the data samples are scarce. Furthermore, the sparse reuse of WSN weights is considered for Video Incremental Learning (VIL). The use of Fourier Subneural Operator (FSO) within WSN is considered. It enables compact encoding of videos and identifies reusable subnetworks across varying bandwidths. We have integrated FSO into different architectural frameworks for continual learning, including VIL, TIL, and FSCIL. Our comprehensive experiments demonstrate FSO's effectiveness, significantly improving task performance at various convolutional representational levels. Specifically, FSO enhances higher-layer performance in TIL and FSCIL and lower-layer performance in VIL.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-03
# 部分動力学知識を用いたサンプル高能率強化学習

Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge ( http://arxiv.org/abs/2312.12558v3 )

ライセンス: Link先を確認
Meshal Alharbi, Mardavij Roozbehani, Munther Dahleh, (参考訳) オンライン強化学習のサンプル複雑性の問題は、学習過程を加速させる可能性のあるシステム力学に関する部分的な知識を考慮せずに、文献でしばしば研究される。 本稿では,オンラインQ-ラーニング手法のサンプル複雑性について,ダイナミックスに関する事前知識が利用可能であったり,効率的に学習できたりした場合に検討する。 S_{h+1} = f(S_h, A_h) + W_h$, ここで$f$は基礎となるシステムダイナミクスを表し、$W_h$は状態や動作に依存しない未知の乱れである。 S$状態、$A$アクション、およびエピソード長$H$の有限エピソードマルコフ決定プロセスの設定において、$\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{T})$を達成できる楽観的なQ学習アルゴリズムを示す。 これは、既存のQ-ラーニングメソッドに対する典型的な $\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{SAT})$ regret とは対照的である。 さらに、ノイズの多い$\hat{f}$ of $f$しか得られない場合、状態空間と作用空間の濃度に依存しない多くのサンプルにおいて、我々の手法は、ほぼ最適なポリシーを学習することができる。 準最適性ギャップは近似誤差 $\hat{f}-f$ と対応する最適値関数のリプシッツ定数に依存する。 我々の手法は遷移確率のモデリングを必要とせず、モデルフリーの手法と同じメモリの複雑さを享受する。

The problem of sample complexity of online reinforcement learning is often studied in the literature without taking into account any partial knowledge about the system dynamics that could potentially accelerate the learning process. In this paper, we study the sample complexity of online Q-learning methods when some prior knowledge about the dynamics is available or can be learned efficiently. We focus on systems that evolve according to an additive disturbance model of the form $S_{h+1} = f(S_h, A_h) + W_h$, where $f$ represents the underlying system dynamics, and $W_h$ are unknown disturbances independent of states and actions. In the setting of finite episodic Markov decision processes with $S$ states, $A$ actions, and episode length $H$, we present an optimistic Q-learning algorithm that achieves $\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{T})$ regret under perfect knowledge of $f$, where $T$ is the total number of interactions with the system. This is in contrast to the typical $\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{SAT})$ regret for existing Q-learning methods. Further, if only a noisy estimate $\hat{f}$ of $f$ is available, our method can learn an approximately optimal policy in a number of samples that is independent of the cardinalities of state and action spaces. The sub-optimality gap depends on the approximation error $\hat{f}-f$, as well as the Lipschitz constant of the corresponding optimal value function. Our approach does not require modeling of the transition probabilities and enjoys the same memory complexity as model-free methods.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-03
# スペクトルプロンプトチューニング:ゼロショットセマンティックセマンティックセマンティックセグメンテーションのための未確認授業の展開

Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2312.12754v2 )

ライセンス: Link先を確認
Wenhao Xu, Rongtao Xu, Changwei Wang, Shibiao Xu, Li Guo, Man Zhang, Xiaopeng Zhang, (参考訳) 最近、CLIPはピクセルレベルのゼロショットセグメンテーションタスクの領域で実用性を見出した。 現在のランドスケープは、複雑なパイプラインや計算コストの上昇といった問題によって、2段階の方法論が設定されている。 現在のワンステージアプローチでは、これらの懸念を緩和し、CLIPの一般化能力を維持するためにVisual Prompt Training (VPT)を組み込んでいるが、CLIPのピクセルレベルの見えないクラス区切りと正確なピクセル予測に対するポテンシャルを完全に活用するには不足している。 画像からピクセルへのCLIPの適応性を向上する一段階アプローチであるSPT-SEGを提案する。 具体的には、まずSPT(Spectral Prompt Tuning)を導入し、CLIP視覚エンコーダの浅い層にスペクトルプロンプトを組み込んで、画像の構造的複雑さを捉えることにより、目に見えないクラスの理解を深める。 次に、スペクトルガイドデコーダ(SGD)を導入し、高周波情報と低周波情報の両方を利用して、より顕著な分類特徴にネットワークの空間的焦点を向け、正確なピクセルレベルの予測結果を実現する。 2つの公開データセットに関する広範な実験を通じて、我々の手法が最先端のアプローチよりも優れていることを実証し、すべてのクラスでうまく機能し、特に目に見えないクラスを扱うのに優れていることを示す。 コードは、https://github.com/clearxu/SPT.comで入手できる。

Recently, CLIP has found practical utility in the domain of pixel-level zero-shot segmentation tasks. The present landscape features two-stage methodologies beset by issues such as intricate pipelines and elevated computational costs. While current one-stage approaches alleviate these concerns and incorporate Visual Prompt Training (VPT) to uphold CLIP's generalization capacity, they still fall short in fully harnessing CLIP's potential for pixel-level unseen class demarcation and precise pixel predictions. To further stimulate CLIP's zero-shot dense prediction capability, we propose SPT-SEG, a one-stage approach that improves CLIP's adaptability from image to pixel. Specifically, we initially introduce Spectral Prompt Tuning (SPT), incorporating spectral prompts into the CLIP visual encoder's shallow layers to capture structural intricacies of images, thereby enhancing comprehension of unseen classes. Subsequently, we introduce the Spectral Guided Decoder (SGD), utilizing both high and low-frequency information to steer the network's spatial focus towards more prominent classification features, enabling precise pixel-level prediction outcomes. Through extensive experiments on two public datasets, we demonstrate the superiority of our method over state-of-the-art approaches, performing well across all classes and particularly excelling in handling unseen classes. Code is available at:https://github.com/clearxu/SPT.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-03
# 拒否する理由? 判断を伴う言語モデルのアライメント

Reasons to Reject? Aligning Language Models with Judgments ( http://arxiv.org/abs/2312.14591v3 )

ライセンス: Link先を確認
Weiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi, (参考訳) 人間として、私たちは常に仲間と対話し、自然言語の形でフィードバックを受けます。 この言語フィードバックにより、適切な動作を維持し、潜在的なエラーを修正できます。 言語フィードバックを使って大きな言語モデル(LLM)を調整できるだろうか? LLMをスカラー報酬と整合させる以前の研究とは対照的に、私たちは言語フィードバックのレンズ(すなわち判断)を通してアライメントを初めて体系的に検討した。 まず,LLMと判断の整合性に適応可能な潜在的手法の詳細な検討から,これらの手法が判断に完全に乗じることができないことを明らかにする。 判断をより効果的に活用するために,判断に基づく不適切なコンテンツ検出と修正を行うための新しい枠組みであるContrastive Unlikelihood Training (CUT)を提案する。 以上の結果から,CUT(LLaMA2-13b)が175B DaVinci003を上回り,AlpacaEvalの50.84ポイントを超えることが判明した。 CUT (LLaMA2-chat-13b) は、最新のモデル固有の判断を用いてLCMを反復的に調整し、AlpacaEvalの81.09から91.68ポイントのパフォーマンスを向上させる。 さらなる分析により、LLMアライメントにおける評価は報酬よりも大きな可能性を秘めていることが示唆された。

As humans, we consistently interact with our peers and receive feedback in the form of natural language. This language feedback allows us to maintain appropriate behavior, and rectify potential errors. The question arises naturally: can we use language feedback to align large language models (LLMs)? In contrast to previous research that aligns LLMs with scalar rewards, we present the first systematic exploration of alignment through the lens of language feedback (i.e., judgment). We start with an in-depth investigation of potential methods that can be adapted for aligning LLMs with judgments, revealing that these methods cannot fully capitalize on judgments. To facilitate more effective utilization of judgments, we propose a novel framework, Contrastive Unlikelihood Training (CUT), that allows for fine-grained inappropriate content detection and correction based on judgments. Our results show that, with merely 1317 off-the-shelf judgment data, CUT (LLaMA2-13b) can beat the 175B DaVinci003 and surpass the best baseline by 50.84 points on AlpacaEval. CUT (LLaMA2-chat-13b) can also align LLMs in an iterative fashion using up-to-date model-specific judgments, improving performance from 81.09 to 91.68 points on AlpacaEval. Further analysis suggests that judgments hold greater potential than rewards in LLM alignment.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-03
# VIEScore: 条件付き画像合成評価のための説明可能なメトリクスを目指して

VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation ( http://arxiv.org/abs/2312.14867v2 )

ライセンス: Link先を確認
Max Ku, Dongfu Jiang, Cong Wei, Xiang Yue, Wenhu Chen, (参考訳) 条件付き画像生成研究の急速に進歩する分野では、様々なモデルの性能と性能を効果的に評価する上で、限定的な説明可能性などの課題がある。 本稿では、条件付き画像生成タスクを評価するための視覚インストラクションガイド付き説明可能なメトリクスであるVIEScoreを紹介する。 VIEScoreは、Multimodal Large Language Models(MLLM)の一般的な知識をバックボーンとして活用し、トレーニングや微調整を必要としない。 我々は,条件付き画像タスクにおいて,VIEScoreを7つの重要なタスクで評価し,(1)VIEScore(GPT4-o)は人間の評価と0.4の高いスピアマン相関を達成し,一方で人間と人間の相関は0.45であることがわかった。 2) VIEScore (オープンソースMLLM) は合成画像の評価において GPT-4o や GPT-4v よりも著しく弱い。 (3)VIEScoreは、生成タスクにおける人間の評価と同等に相関するが、編集タスクでは困難である。 これらの結果から,VIEScoreは画像合成タスクの評価において,人間の判断に取って代わる大きな可能性を秘めていると考えられる。

In the rapidly advancing field of conditional image generation research, challenges such as limited explainability lie in effectively evaluating the performance and capabilities of various models. This paper introduces VIEScore, a Visual Instruction-guided Explainable metric for evaluating any conditional image generation tasks. VIEScore leverages general knowledge from Multimodal Large Language Models (MLLMs) as the backbone and does not require training or fine-tuning. We evaluate VIEScore on seven prominent tasks in conditional image tasks and found: (1) VIEScore (GPT4-o) achieves a high Spearman correlation of 0.4 with human evaluations, while the human-to-human correlation is 0.45. (2) VIEScore (with open-source MLLM) is significantly weaker than GPT-4o and GPT-4v in evaluating synthetic images. (3) VIEScore achieves a correlation on par with human ratings in the generation tasks but struggles in editing tasks. With these results, we believe VIEScore shows its great potential to replace human judges in evaluating image synthesis tasks.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-03
# NU-Class Net:ビデオ品質向上のための新しいアプローチ

NU-Class Net: A Novel Approach for Video Quality Enhancement ( http://arxiv.org/abs/2401.01163v3 )

ライセンス: Link先を確認
Parham Zilouchian Moghaddam, Mehdi Modarressi, Mohammad Amin Sadeghi, (参考訳) ビデオコンテンツの人気は急増しており、インターネットトラフィックとIoT(Internet of Things)ネットワークに対する優位性を主張している。 ビデオ圧縮は、ビデオキャプチャー装置が生成する実質的なマルチメディアトラフィックを効率的に管理する主要な手段であると考えられてきた。 それでも、ビデオ圧縮アルゴリズムは、かなりの圧縮比を達成するために、かなりの計算要求を必要とする。 この複雑さは、IoTエッジノードカメラなどのリソース制限された組み込みシステムにおいて、効率的なビデオコーディング標準を実装する上で、非常に難しい課題となる。 そこで本研究では,圧縮コーデックの損失による圧縮アーチファクトの軽減を目的とした,革新的な深層学習モデルであるNU-Class Netを提案する。 この拡張により、低ビットレートビデオの品質が著しく向上する。 NU-Class Netを利用することで、ビデオキャプチャノード内のビデオエンコーダは出力品質を低減し、低ビットレートのビデオを生成し、エッジでの計算と帯域幅の要求を効果的に調整することができる。 デコーダ側では、典型的にはリソース制限の影響を受けないが、NU-Class Netはビデオデコーダの後に適用され、アーティファクトを補償し、元のビデオの品質を近似する。 実験により,低ビットレートでストリーミングされたビデオの知覚品質を高めるためのモデルの有効性が確認された。

Video content has experienced a surge in popularity, asserting its dominance over internet traffic and Internet of Things (IoT) networks. Video compression has long been regarded as the primary means of efficiently managing the substantial multimedia traffic generated by video-capturing devices. Nevertheless, video compression algorithms entail significant computational demands in order to achieve substantial compression ratios. This complexity presents a formidable challenge when implementing efficient video coding standards in resource-constrained embedded systems, such as IoT edge node cameras. To tackle this challenge, this paper introduces NU-Class Net, an innovative deep-learning model designed to mitigate compression artifacts stemming from lossy compression codecs. This enhancement significantly elevates the perceptible quality of low-bit-rate videos. By employing the NU-Class Net, the video encoder within the video-capturing node can reduce output quality, thereby generating low-bit-rate videos and effectively curtailing both computation and bandwidth requirements at the edge. On the decoder side, which is typically less encumbered by resource limitations, NU-Class Net is applied after the video decoder to compensate for artifacts and approximate the quality of the original video. Experimental results affirm the efficacy of the proposed model in enhancing the perceptible quality of videos, especially those streamed at low bit rates.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-03
# Tiny Time Mixers (TTMs):多変量時系列のZero/Few-Shot予測のための高速事前学習モデル

Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series ( http://arxiv.org/abs/2401.03955v6 )

ライセンス: Link先を確認
Vijay Ekambaram, Arindam Jati, Pankaj Dayama, Sumanta Mukherjee, Nam H. Nguyen, Wesley M. Gifford, Chandra Reddy, Jayant Kalagnanam, (参考訳) 大規模事前学習モデルは、言語や視覚タスクのゼロ/ファウショット学習に優れるが、多変量時系列(TS)予測では多様なデータ特性のために課題に直面している。 その結果、最近の研究は、事前訓練されたTS予測モデルの開発に重点を置いている。 これらのモデルは、スクラッチから構築されたり、大きな言語モデル(LLM)から適応されたりして、ゼロ/フェーショット予測タスクで優れています。 しかし、性能の遅さ、高い計算要求、チャネル間および外因性相関の無視によって制限されている。 そこで本研究では,Tyny Time Mixers(TTM)について紹介する。Tyny Time Mixers(TTM)は1Mパラメータから始まるコンパクトモデルで,効率的な転送学習機能を備えている。 TTMは軽量なTSMixerアーキテクチャをベースとして、適応パッチ、多様な解像度サンプリング、解像度プレフィックスチューニングといったイノベーションを取り入れて、モデルキャパシティを最小限にしたさまざまなデータセット解像度の事前トレーニングを処理する。 さらに、マルチレベルモデリングを用いて、チャネル相関を捕捉し、微調整中に外因性信号を注入する。 TTMは、ゼロ/フェーショットの予測において(4-40\%)、計算要求を大幅に削減しながら、既存の一般的なベンチマークを上回ります。 さらに、TTMは軽量で、CPUのみのマシンでも実行できる。 初期変種(TTM-Q)のモデルウェイトはhttps://huggingface.co/ibm-granite/granite-timeseries-ttm-v1.comで公開されている。 より洗練された変種(TTM-B、TTM-E、TTM-A)のモデルウェイトは近く共有される。 TTMのソースコードはhttps://github.com/ibm-granite/granite-tsfm/tree/main/tsfm_public/models/tinytimemixerでアクセスできる。

Large pre-trained models excel in zero/few-shot learning for language and vision tasks but face challenges in multivariate time series (TS) forecasting due to diverse data characteristics. Consequently, recent research efforts have focused on developing pre-trained TS forecasting models. These models, whether built from scratch or adapted from large language models (LLMs), excel in zero/few-shot forecasting tasks. However, they are limited by slow performance, high computational demands, and neglect of cross-channel and exogenous correlations. To address this, we introduce Tiny Time Mixers (TTM), a compact model (starting from 1M parameters) with effective transfer learning capabilities, trained exclusively on public TS datasets. TTM, based on the light-weight TSMixer architecture, incorporates innovations like adaptive patching, diverse resolution sampling, and resolution prefix tuning to handle pre-training on varied dataset resolutions with minimal model capacity. Additionally, it employs multi-level modeling to capture channel correlations and infuse exogenous signals during fine-tuning. TTM outperforms existing popular benchmarks in zero/few-shot forecasting by (4-40\%), while reducing computational requirements significantly. Moreover, TTMs are lightweight and can be executed even on CPU-only machines, enhancing usability and fostering wider adoption in resource-constrained environments. Model weights for our initial variant (TTM-Q) are available at https://huggingface.co/ibm-granite/granite-timeseries-ttm-v1. Model weights for more sophisticated variants (TTM-B, TTM-E, and TTM-A) will be shared soon. The source code for TTM can be accessed at https://github.com/ibm-granite/granite-tsfm/tree/main/tsfm_public/models/tinytimemixer.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-03
# コードを書き直す: 大規模言語モデル拡張コード検索のための簡単な方法

Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search ( http://arxiv.org/abs/2401.04514v2 )

ライセンス: Link先を確認
Haochen Li, Xin Zhou, Zhiqi Shen, (参考訳) コード検索において、クエリを増強するための典型的なコードスニペットを生成するGeneration-Augmented Retrieval(GAR)フレームワークは、特にLarge Language Models(LLMs)のコード生成機能において、コードスニペットと自然言語クエリ間のモダリティの不整合という主要な課題に対処する、有望な戦略として登場した。 しかし, 予備調査の結果, LLM 拡張フレームワークによる改善はある程度制約されていることが示唆された。 この制限は、生成したコードが機能的に正確であり、コードベースの真理的なコードから顕著な様式的な逸脱をしばしば示しているという事実に起因している可能性がある。 本稿では,基礎的なGARフレームワークを拡張し,コードベース内でコード(ReCo)を書き換えてスタイルの正規化を行う,シンプルで効果的な手法を提案する。 実験の結果、ReCoはスパース(最大35.7%)、ゼロショット密度(最大27.6%)、微調整密度(最大23.6%)の検索設定を多様な検索シナリオで大幅に向上させることが示された。 ReCoの利点をさらに解明し、コードスタイルの正規化の研究を促進するために、コード内のスタイリスティックな類似性を定量化するのに適した最初の指標であるコードスタイルの類似性を紹介します。 特に,我々の経験的発見は,スタイル的ニュアンスを捉える上で,既存の指標が不十分であることを明らかにした。 ソースコードとデータは \url{https://github.com/Alex-HaochenLi/ReCo} で公開されている。

In code search, the Generation-Augmented Retrieval (GAR) framework, which generates exemplar code snippets to augment queries, has emerged as a promising strategy to address the principal challenge of modality misalignment between code snippets and natural language queries, particularly with the demonstrated code generation capabilities of Large Language Models (LLMs). Nevertheless, our preliminary investigations indicate that the improvements conferred by such an LLM-augmented framework are somewhat constrained. This limitation could potentially be ascribed to the fact that the generated codes, albeit functionally accurate, frequently display a pronounced stylistic deviation from the ground truth code in the codebase. In this paper, we extend the foundational GAR framework and propose a simple yet effective method that additionally Rewrites the Code (ReCo) within the codebase for style normalization. Experimental results demonstrate that ReCo significantly boosts retrieval accuracy across sparse (up to 35.7%), zero-shot dense (up to 27.6%), and fine-tuned dense (up to 23.6%) retrieval settings in diverse search scenarios. To further elucidate the advantages of ReCo and stimulate research in code style normalization, we introduce Code Style Similarity, the first metric tailored to quantify stylistic similarities in code. Notably, our empirical findings reveal the inadequacy of existing metrics in capturing stylistic nuances. The source code and data are available at \url{https://github.com/Alex-HaochenLi/ReCo}.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-03
# RoSA:ロバスト適応による高精度パラメータ効率ファインチューニング

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation ( http://arxiv.org/abs/2401.04679v7 )

ライセンス: Link先を確認
Mahdi Nikdan, Soroush Tabesh, Elvir Crnčević, Dan Alistarh, (参考訳) 本研究では,大規模言語モデル (LLM) の文脈において,限られた計算・メモリ予算の下で高い精度を達成できるパラメータ効率細調整法(PEFT)について検討する。 本稿では,ロバスト適応法 (RoSA) と呼ばれる新しいPEFT法を提案する。ロバスト適応法は,厳密な主成分分析にインスパイアされ,固定された事前学習重みのセット上に$\textit{low-rank}$と$\textit{highly-sparse}$コンポーネントを併用して,フルファインチューニング (FFT) ソリューションの性能を効率的に近似する。 小学校数学やSQLクエリ生成など,優れたパフォーマンスのために微調整を必要とする一連の課題生成タスクにおいて,RoSAがLoRA,純スパース微調整,代替ハイブリッドメソッドを同じパラメータ予算で上回り,一部のタスクにおいてFFTの性能を回復できることを示す。 本稿では,トレーニングアルゴリズム,特にメモリ効率と計算効率のよいトレーニングを可能にするスパースGPUカーネルを補完するシステムサポートを提供し,低精度ベースウェイトと互換性があることを示し,量子化,低ランク,スパース近似を組み合わせた第1の関節表現を実現する。 私たちのコードはhttps://github.com/IST-DASLab/RoSA.comで公開されています。

We investigate parameter-efficient fine-tuning (PEFT) methods that can provide good accuracy under limited computational and memory budgets in the context of large language models (LLMs). We present a new PEFT method called Robust Adaptation (RoSA) inspired by robust principal component analysis that jointly trains $\textit{low-rank}$ and $\textit{highly-sparse}$ components on top of a set of fixed pretrained weights to efficiently approximate the performance of a full-fine-tuning (FFT) solution. Across a series of challenging generative tasks such as grade-school math and SQL query generation, which require fine-tuning for good performance, we show that RoSA outperforms LoRA, pure sparse fine-tuning, and alternative hybrid methods at the same parameter budget, and can even recover the performance of FFT on some tasks. We provide system support for RoSA to complement the training algorithm, specifically in the form of sparse GPU kernels which enable memory- and computationally-efficient training, and show that it is also compatible with low-precision base weights, resulting in the first joint representation combining quantization, low-rank and sparse approximations. Our code is available at https://github.com/IST-DASLab/RoSA.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-03
# 言語モデルは図書館か図書館か? : ビブリオテクニズム、新しい参照問題、LLMの態度

Are Language Models More Like Libraries or Like Librarians? Bibliotechnism, the Novel Reference Problem, and the Attitudes of LLMs ( http://arxiv.org/abs/2401.04854v3 )

ライセンス: Link先を確認
Harvey Lederman, Kyle Mahowald, (参考訳) LLMは、光コピー機や印刷機のような文化技術で、情報を伝達するが、新しいコンテンツを作ることはできないのか? ビブリオテクニズム(bibliotechnism)と呼ばれるこのアイデアの課題は、LLMが新しいテキストを生成することだ。 ビブリオテクニズムの擁護から始まり、新しいテキストでさえ、その意味を人間の生成したテキストから受け継がせるかを示す。 ビブリオテクニズムは LLM が新規な参照を生成する例から独立した課題に直面しており、新しい名前を使って新しいエンティティを参照している。 このような例は、LLMが文化的技術ではなく、信念、願望、意図を持っているかどうかを説明することができる。 心の哲学における解釈主義によれば、システムがそのような態度を持つのは、その振る舞いがそれが可能であるという仮説によって十分に説明されている場合に限る。 解釈主義者は、LLMには態度があり、新しい参照問題に対する簡単な解決策があると考えるかもしれない。 しかし、我々は、解釈主義は態度を持つ非常に単純な生き物と互換性があり、これらの態度を前提とする見解が意識、知覚、知性を必要とするという見解とは著しく異なることを強調した。

Are LLMs cultural technologies like photocopiers or printing presses, which transmit information but cannot create new content? A challenge for this idea, which we call bibliotechnism, is that LLMs generate novel text. We begin with a defense of bibliotechnism, showing how even novel text may inherit its meaning from original human-generated text. We then argue that bibliotechnism faces an independent challenge from examples in which LLMs generate novel reference, using new names to refer to new entities. Such examples could be explained if LLMs were not cultural technologies but had beliefs, desires, and intentions. According to interpretationism in the philosophy of mind, a system has such attitudes if and only if its behavior is well explained by the hypothesis that it does. Interpretationists may hold that LLMs have attitudes, and thus have a simple solution to the novel reference problem. We emphasize, however, that interpretationism is compatible with very simple creatures having attitudes and differs sharply from views that presuppose these attitudes require consciousness, sentience, or intelligence (topics about which we make no claims).
翻訳日:2024-06-04 19:42:23 公開日:2024-06-03
# E$^{2}$GAN:画像間翻訳のための効率的なGANの効率的な訓練

E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation ( http://arxiv.org/abs/2401.06127v2 )

ライセンス: Link先を確認
Yifan Gong, Zheng Zhan, Qing Jin, Yanyu Li, Yerlan Idelbayev, Xian Liu, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren, (参考訳) フレキシブルリアルタイムオンデバイス画像編集を実現する上で,大規模テキスト画像拡散モデルを利用してGAN(Generative Adversarial Network)のトレーニングに使用するペアデータセットを生成することにより,データ蒸留を活用することが期待できる。 このアプローチは、拡散モデルで画像編集を行うためのハイエンドの商用GPUによって課される厳しい要件を特に緩和する。 しかし, テキストから画像への拡散モデルとは異なり, 蒸留したGANは特定の画像編集作業に特化しており, 様々な概念のモデルを得るためには, コストのかかる訓練が必要である。 本研究は, 拡散モデルからGANを蒸留するプロセスをより効率的にすることができるか? この目的を達成するために,我々は一連の革新的な技術を提案する。 まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。 第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。 第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。 大規模な実験により,モバイル端末上でのリアルタイムな高品質画像編集を,各コンセプトのトレーニングやストレージコストを著しく削減し,効率よくGANを活用できることが示されている。

One highly promising direction for enabling flexible real-time on-device image editing is utilizing data distillation by leveraging large-scale text-to-image diffusion models to generate paired datasets used for training generative adversarial networks (GANs). This approach notably alleviates the stringent requirements typically imposed by high-end commercial GPUs for performing image editing with diffusion models. However, unlike text-to-image diffusion models, each distilled GAN is specialized for a specific image editing task, necessitating costly training efforts to obtain models for various concepts. In this work, we introduce and address a novel research direction: can the process of distilling GANs from diffusion models be made significantly more efficient? To achieve this goal, we propose a series of innovative techniques. First, we construct a base GAN model with generalized features, adaptable to different concepts through fine-tuning, eliminating the need for training from scratch. Second, we identify crucial layers within the base GAN model and employ Low-Rank Adaptation (LoRA) with a simple yet effective rank search process, rather than fine-tuning the entire base model. Third, we investigate the minimal amount of data necessary for fine-tuning, further reducing the overall training time. Extensive experiments show that we can efficiently empower GANs with the ability to perform real-time high-quality image editing on mobile devices with remarkably reduced training and storage costs for each concept.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-03
# 量子生成拡散モデル:量子状態アンサンブル生成のための完全量子力学モデル

Quantum Generative Diffusion Model: A Fully Quantum-Mechanical Model for Generating Quantum State Ensemble ( http://arxiv.org/abs/2401.07039v2 )

ライセンス: Link先を確認
Chuangtao Chen, Qinglin Zhao, MengChu Zhou, Zhimin He, Zhili Sun, Haozhen Situ, (参考訳) 古典的拡散モデルは優れた生成結果を示し、多くの問題に適用されている。 量子領域でこれらのモデルを探索することで、量子生成学習の分野を前進させることができる。 本稿では,古典拡散モデルの単純かつエレガントな量子対向体である量子生成拡散モデル(QGDM)を紹介する。 QGDMの中核的な考え方は、任意の標的量子状態が完全に混合状態に変換され、非単体フォワードプロセスによって、システムに対する最も高いエントロピーと最大の不確実性を持つ。 その後、トレーニング可能な後方プロセスを使用して、完全に混合された状態から目標状態を回復することができる。 QGDMの下位プロセスの設計要件は、低数のパラメータを維持しながら、非ユニタリティを保証することである。 これを実現するために,非単体化を強制する後方処理に部分的トレース演算を導入する。 さらに、パラメータ共有戦略を用いてトレーニング可能なパラメータの数を制御し、時間情報を入力として後進プロセスに組み込む。 さらに,QGDMの資源効率向上版を導入し,優れた生成能力を保ちながら,補助量子ビットの数を削減した。 提案モデルでは,勾配勾配を用いた凸距離関数を最適化するため,量子生成逆数ネットワーク(QGAN)よりも収束性能がよい。 QGANとの比較により、純量子状態と混合量子状態の両方を生成する際のモデルの有効性が示された。 特に, 混合状態生成タスクにおいてQGANよりも53.03%高い忠実度が得られる。 これらの結果は、量子生成課題に取り組むための提案されたモデルの可能性を強調している。

Classical diffusion models have shown superior generative results and have been applied to many problems. Exploring these models in the quantum domain can advance the field of quantum generative learning. In this paper, we introduce the Quantum Generative Diffusion Model (QGDM), a simple and elegant quantum counterpart of classical diffusion models. The core idea of QGDM is that any target quantum state can be transformed into a completely mixed state, which has the highest entropy and maximum uncertainty about the system, through a non-unitary forward process. Subsequently, a trainable backward process can be used to recover the target state from the completely mixed state. The design requirements for QGDM's backward process include ensuring non-unitarity while maintaining a low number of parameters. To achieve this, we introduce partial trace operations in the backward process to enforce non-unitary. Additionally, we control the number of trainable parameters by using a parameter-sharing strategy and incorporating temporal information as an input in the backward process. Furthermore, we introduce a resource-efficient version of QGDM, which reduces the number of auxiliary qubits while preserving impressive generative capabilities. Our proposed models exhibit better convergence performance than Quantum Generative Adversarial Networks (QGANs) because our models optimize a convex distance function using gradient descent. Comparative results with QGANs demonstrate the effectiveness of our models in generating both pure and mixed quantum states. Notably, our models achieve 53.03% higher fidelity in mixed-state generation tasks compared to QGANs. These results highlight the potential of the proposed models to tackle challenging quantum generation tasks.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-03
# グラフ言語モデル

Graph Language Models ( http://arxiv.org/abs/2401.07105v3 )

ライセンス: Link先を確認
Moritz Plenz, Anette Frank, (参考訳) 言語モデル(LM)はNLPのワークホースであるが、構造化知識グラフ(KG)との相互作用は現在も活発に研究されている。 そのようなグラフを典型的に符号化する現在の方法 (i)構造情報を不活用するLMを埋め込むためのリニア化、又は (ii)グラフ構造を保存するためにグラフニューラルネットワーク(GNN)を使用するが、GNNは事前訓練されたLMだけでなく、テキストの特徴を表現できない。 本研究では,両アプローチの長所を統合し,その短所を緩和する新しいLM型であるグラフ言語モデル(GLM)を紹介する。 GLMパラメータは、事前訓練されたLMから初期化され、個々のグラフ概念やトリプレットの理解を深める。 同時に、グラフバイアスを取り入れたGLMアーキテクチャを設計し、グラフ内の効果的な知識分布を促進する。 これにより、GLMはグラフ、テキスト、および両方のインターリーブされた入力を処理することができる。 関係分類タスクの実証評価により, GLM埋め込みは, 教師付きおよびゼロショット設定において, LMベースラインとGNNベースベースラインの両方を超越し, その汎用性を示した。

While Language Models (LMs) are the workhorses of NLP, their interplay with structured knowledge graphs (KGs) is still actively researched. Current methods for encoding such graphs typically either (i) linearize them for embedding with LMs -- which underutilize structural information, or (ii) use Graph Neural Networks (GNNs) to preserve the graph structure -- but GNNs cannot represent text features as well as pretrained LMs. In our work we introduce a novel LM type, the Graph Language Model (GLM), that integrates the strengths of both approaches and mitigates their weaknesses. The GLM parameters are initialized from a pretrained LM to enhance understanding of individual graph concepts and triplets. Simultaneously, we design the GLM's architecture to incorporate graph biases, thereby promoting effective knowledge distribution within the graph. This enables GLMs to process graphs, texts, and interleaved inputs of both. Empirical evaluations on relation classification tasks show that GLM embeddings surpass both LM- and GNN-based baselines in supervised and zero-shot setting, demonstrating their versatility.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-03
# 半教師付き学習,確率的綱引きゲーム,およびp-ラプラシアンの整合性

Consistency of semi-supervised learning, stochastic tug-of-war games, and the p-Laplacian ( http://arxiv.org/abs/2401.07463v2 )

ライセンス: Link先を確認
Jeff Calder, Nadejda Drenska, (参考訳) 本稿では,偏微分方程式(PDE)とグラフに基づく半教師付き学習の交叉について概説する。 この概要は、グラフベースの学習のPDE継続限界に関する最近の研究の大規模な部分に焦点を当てており、これは、大きなデータ限界における半教師付き学習アルゴリズムの有効性を証明するために使われてきた。 本稿では,グラフに基づく半教師付き学習の整合性に関する興味深い研究の方向性を強調し,その新しい結果として,約$p$-Laplacianの確率ゲーム解釈を用いて,$p$-Laplacianの半教師付き学習の整合性について述べる。 また,本研究の結果を示す数値実験の結果を提示し,今後の研究の方向性を示唆する。

In this paper we give a broad overview of the intersection of partial differential equations (PDEs) and graph-based semi-supervised learning. The overview is focused on a large body of recent work on PDE continuum limits of graph-based learning, which have been used to prove well-posedness of semi-supervised learning algorithms in the large data limit. We highlight some interesting research directions revolving around consistency of graph-based semi-supervised learning, and present some new results on the consistency of $p$-Laplacian semi-supervised learning using the stochastic tug-of-war game interpretation of the $p$-Laplacian. We also present the results of some numerical experiments that illustrate our results and suggest directions for future work.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-03
# 人間行動のロボット的模倣

Robotic Imitation of Human Actions ( http://arxiv.org/abs/2401.08381v2 )

ライセンス: Link先を確認
Josua Spisak, Matthias Kerzel, Stefan Wermter, (参考訳) 模倣は、新しいタスクの理解を素早く得ることができます。 デモを通じて、どのアクションを実行する必要があるのか、どの目標があるのか、直接的に知ることができます。 本稿では,人間を模倣するロボット(視点の変化や体図など)の課題に対処する,模倣学習の新しいアプローチを提案する。 提案手法では, 実証されたタスクに関する情報を抽象化し, その情報を一般化し, 再現するために利用する。 実験から時間情報を抽象化する拡散行動分割モデルと空間情報のためのオープン語彙オブジェクト検出器という,最先端の2つの手法を新たに統合することで,この能力を向上する。 さらに, 抽象情報を洗練し, シンボル推論を用いて, 逆運動学を利用した行動計画を作成し, ロボットが実演動作を模倣できるようにする。

Imitation can allow us to quickly gain an understanding of a new task. Through a demonstration, we can gain direct knowledge about which actions need to be performed and which goals they have. In this paper, we introduce a new approach to imitation learning that tackles the challenges of a robot imitating a human, such as the change in perspective and body schema. Our approach can use a single human demonstration to abstract information about the demonstrated task, and use that information to generalise and replicate it. We facilitate this ability by a new integration of two state-of-the-art methods: a diffusion action segmentation model to abstract temporal information from the demonstration and an open vocabulary object detector for spatial information. Furthermore, we refine the abstracted information and use symbolic reasoning to create an action plan utilising inverse kinematics, to allow the robot to imitate the demonstrated action.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-03
# コントラスト優先最適化:機械翻訳におけるLLM性能の境界を押し上げる

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation ( http://arxiv.org/abs/2401.08417v4 )

ライセンス: Link先を確認
Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim, (参考訳) 7Bまたは13Bパラメータを持つモデレートサイズの大規模言語モデル(LLM)は、有望な機械翻訳(MT)性能を示す。 しかし、ALMAのようなトップパフォーマンスの13B LLMベースの翻訳モデルでさえ、最先端のエンコーダ・デコーダ翻訳モデルや、GPT-4のような大規模LLMの性能とは一致しない。 本研究では,この性能ギャップを橋渡しする。 MTタスクにおけるLLMの教師付き微調整の欠点をまず評価し,人為的に生成されているにもかかわらず,参照データに存在する品質問題を強調した。 そして、参照翻訳を模倣するSFTとは対照的に、コントラスト優先最適化(Contrastive Preference Optimization, CPO)を導入する。 22Kパラレル文と12Mパラメータしか持たないALMAモデルへのCPOの適用は、大幅な改善をもたらす。 ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者と、WMT'21、WMT'22、WMT'23テストデータセットのGPT-4のパフォーマンスを一致または超過することができる。

Moderate-sized large language models (LLMs) -- those with 7B or 13B parameters -- exhibit promising machine translation (MT) performance. However, even the top-performing 13B LLM-based translation models, like ALMA, does not match the performance of state-of-the-art conventional encoder-decoder translation models or larger-scale LLMs such as GPT-4. In this study, we bridge this performance gap. We first assess the shortcomings of supervised fine-tuning for LLMs in the MT task, emphasizing the quality issues present in the reference data, despite being human-generated. Then, in contrast to SFT which mimics reference translations, we introduce Contrastive Preference Optimization (CPO), a novel approach that trains models to avoid generating adequate but not perfect translations. Applying CPO to ALMA models with only 22K parallel sentences and 12M parameters yields significant improvements. The resulting model, called ALMA-R, can match or exceed the performance of the WMT competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-03
# LangBridge: マルチリンガルなスーパービジョンのないマルチリンガルな推論

LangBridge: Multilingual Reasoning Without Multilingual Supervision ( http://arxiv.org/abs/2401.10695v2 )

ライセンス: Link先を確認
Dongkeun Yoon, Joel Jang, Sungdong Kim, Seungone Kim, Sheikh Shafayat, Minjoon Seo, (参考訳) 我々は多言語推論タスクに言語モデルを適応させるゼロショットアプローチであるLangBridgeを紹介した。 LangBridgeは2つのモデルをブリッジして動作し、それぞれ異なる側面に特化している。(1) 複数の言語(eg, mT5エンコーダ)を理解することに特化したもの、(2)推論に特化したもの(eg, MetaMath)。 LangBridgeは、トレーニング可能な最小限のパラメータを導入して、2つのモデルを接続する。 英語のデータのみをトレーニングに使うにもかかわらず、LangBridgeは数学的推論、コード補完、論理的推論、常識的推論にまたがる低リソース言語における言語モデルの性能を大幅に向上させる。 解析の結果,LangBridgeの有効性は多言語表現の言語に依存しない特徴に起因していることが示唆された。 コードとモデルを公開しています。

We introduce LangBridge, a zero-shot approach to adapt language models for multilingual reasoning tasks without multilingual supervision. LangBridge operates by bridging two models, each specialized in different aspects: (1) one specialized in understanding multiple languages (e.g., mT5 encoder) and (2) one specialized in reasoning (e.g., MetaMath). LangBridge connects the two models by introducing minimal trainable parameters between them. Despite utilizing only English data for training, LangBridge considerably enhances the performance of language models on low-resource languages across mathematical reasoning, code completion, logical reasoning, and commonsense reasoning. Our analysis suggests that the efficacy of LangBridge stems from the language-agnostic characteristics of multilingual representations. We publicly release our code and models.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-03
# DITTO:音楽生成のための拡散推論時間T-最適化

DITTO: Diffusion Inference-Time T-Optimization for Music Generation ( http://arxiv.org/abs/2401.12179v2 )

ライセンス: Link先を確認
Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan, (参考訳) DITTO(Diffusion Inference-Time T-Optimization)は,初期雑音遅延を最適化することで,事前学習したテキストから音楽への拡散モデルを推論時間で制御するための汎用的なフレームワークである。 本手法は,任意の特徴マッチング損失を最適化して,目標(スティル化)出力を実現し,メモリ効率に勾配チェックポインティングを利用する。 我々は、インペイント、アウトペイント、ループ、インテンシティ、メロディ、音楽構造制御など、音楽生成のための驚くほど幅広い応用を、基礎となるモデルを微調整することなく実証する。 私たちが関連するトレーニング、ガイダンス、最適化に基づく手法と比較すると、DITTOは、制御性、オーディオ品質、計算効率に匹敵するアプローチで、ほぼ全てのタスクにおいて最先端のパフォーマンスを実現し、高品質で柔軟な、訓練不要な拡散モデル制御の扉を開くことができる。 音の例はhttps://DITTO-Music.github.io/web/で見ることができる。

We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via optimizing initial noise latents. Our method can be used to optimize through any differentiable feature matching loss to achieve a target (stylized) output and leverages gradient checkpointing for memory efficiency. We demonstrate a surprisingly wide-range of applications for music generation including inpainting, outpainting, and looping as well as intensity, melody, and musical structure control - all without ever fine-tuning the underlying model. When we compare our approach against related training, guidance, and optimization-based methods, we find DITTO achieves state-of-the-art performance on nearly all tasks, including outperforming comparable approaches on controllability, audio quality, and computational efficiency, thus opening the door for high-quality, flexible, training-free control of diffusion models. Sound examples can be found at https://DITTO-Music.github.io/web/.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-03
# Pre: ピアレビューに基づく大規模言語モデル評価器

PRE: A Peer Review Based Large Language Model Evaluator ( http://arxiv.org/abs/2401.15641v2 )

ライセンス: Link先を確認
Zhumin Chu, Qingyao Ai, Yiteng Tu, Haitao Li, Yiqun Liu, (参考訳) 大規模言語モデル(LLM)の印象的なパフォーマンスは、学術的、産業的コミュニティからかなりの注目を集めている。 LLMの構築とトレーニングの方法に加えて、LLMのキャパシティを効果的に評価し比較する方法も重要で難しい問題として認識されている。 既存のパラダイムは、異なるタスクにおけるLLMの性能を評価するために、人間のアノテータまたはモデルに基づく評価器のいずれかに依存している。 しかし、これらのパラダイムは、しばしば高コスト、低一般化可能性、継承バイアスに悩まされ、長期にわたってLLMの持続可能な開発を支援することができない。 学術出版プロセスで広く使われているピアレビューシステムに触発されたこれらの問題に対処するために,ピアレビュープロセスを通じてLPMを自動的に評価できる新しいフレームワークを提案する。 具体的には、特定のタスクを評価するために、まず、いくつかの強力なLCMから「レビュアー」を選択するための小さな資格試験を構築します。 次に、異なる候補のLSMによって書かれた「提出」を実際に評価するために、評価は、レビュアーのLSMを用いて、提出を評価または比較する。 評価LDMの最終的なランキングは、すべてのレビュアーが提示した結果に基づいて生成される。 我々は GPT-4 を含む 11 個の LLM を用いてテキスト要約タスクの広範な実験を行った。 その結果, 1 個の LLM を用いた評価において, 偏りの存在が示された。 また、P Preモデルでは、全てのベースラインを上回り、ピアレビューメカニズムの有効性を示す。

The impressive performance of large language models (LLMs) has attracted considerable attention from the academic and industrial communities. Besides how to construct and train LLMs, how to effectively evaluate and compare the capacity of LLMs has also been well recognized as an important yet difficult problem. Existing paradigms rely on either human annotators or model-based evaluators to evaluate the performance of LLMs on different tasks. However, these paradigms often suffer from high cost, low generalizability, and inherited biases in practice, which make them incapable of supporting the sustainable development of LLMs in long term. In order to address these issues, inspired by the peer review systems widely used in academic publication process, we propose a novel framework that can automatically evaluate LLMs through a peer-review process. Specifically, for the evaluation of a specific task, we first construct a small qualification exam to select "reviewers" from a couple of powerful LLMs. Then, to actually evaluate the "submissions" written by different candidate LLMs, i.e., the evaluatees, we use the reviewer LLMs to rate or compare the submissions. The final ranking of evaluatee LLMs is generated based on the results provided by all reviewers. We conducted extensive experiments on text summarization tasks with eleven LLMs including GPT-4. The results demonstrate the existence of biasness when evaluating using a single LLM. Also, our PRE model outperforms all the baselines, illustrating the effectiveness of the peer review mechanism.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-03
# SHAPとLIMEによる安定した特徴ランク付け

Provably Stable Feature Rankings with SHAP and LIME ( http://arxiv.org/abs/2401.15800v2 )

ライセンス: Link先を確認
Jeremy Goldwasser, Giles Hooker, (参考訳) 特徴属性は、機械学習モデルの予測を理解するためのユビキタスツールである。 しかし、SHAP や LIME などの入力変数の値を求める一般的な手法の計算は、ランダムサンプリングによる高い不安定性に悩まされている。 複数の仮説テストからアイデアを活用することで、最も重要な特徴を高い確率で正しくランク付けする属性法を考案する。 KernelSHAP や Shapley Smpling のSHAP推定値から、安定したランキングの数を遡って検証する方法を実証する。 さらに、SHAPとLIMEの効率的なサンプリングアルゴリズムを導入し、$K$の高階特徴が適切に順序付けされていることを保証した。 最後に、これらの局所的特徴帰属手法をグローバルな重要性設定に適用する方法を示す。

Feature attributions are ubiquitous tools for understanding the predictions of machine learning models. However, the calculation of popular methods for scoring input variables such as SHAP and LIME suffers from high instability due to random sampling. Leveraging ideas from multiple hypothesis testing, we devise attribution methods that ensure the most important features are ranked correctly with high probability. Given SHAP estimates from KernelSHAP or Shapley Sampling, we demonstrate how to retrospectively verify the number of stable rankings. Further, we introduce efficient sampling algorithms for SHAP and LIME that guarantee the $K$ highest-ranked features have the proper ordering. Finally, we show how to adapt these local feature attribution methods for the global importance setting.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-03
# 集団干渉による量子相関の追跡

Tracing quantum correlations back to collective interferences ( http://arxiv.org/abs/2401.16769v2 )

ライセンス: Link先を確認
Ming Ji, Jonte R. Hance, Holger F. Hofmann, (参考訳) 本稿では、2つの量子系間の非古典的相関を、2つの系の集合状態間の量子干渉の観点から説明する可能性について検討する。 このことは、一対の2段階系の積ヒルベルト空間における異なる測定コンテキスト間の関係を、単一粒子干渉計における経路間の干渉の類似配列にマッピングすることによって達成される。 異なる測定結果間の関係は、干渉計内の確率電流の分布に遡り、結果間のパラドックス的関係は直交する2つの状態を接続する電流と同一視される。 本研究では, 確率電流と相関の関係を, 干渉計による連続条件(準)確率電流で表すことができ, 非文脈仮定の違反を負条件電流で表すことができることを示す。 負の条件電流は、異なる測定文脈における測定結果に対する負の条件確率の割り当てに対応するため、そのような負の確率電流の必要性は、非文脈的局所リアリズムの失敗を表している。 この結果は、量子力学における非局所相関の意味を説明し、干渉が全ての量子現象の起源であるというファインマンの主張を支持するのに役立つ。

In this paper, we investigate the possibility of explaining nonclassical correlations between two quantum systems in terms of quantum interferences between collective states of the two systems. We achieve this by mapping the relations between different measurement contexts in the product Hilbert space of a pair of two-level systems onto an analogous sequence of interferences between paths in a single-particle interferometer. The relations between different measurement outcomes are then traced to the distribution of probability currents in the interferometer, where paradoxical relations between the outcomes are identified with currents connecting two states that are orthogonal and should therefore exclude each other. We show that the relation between probability currents and correlations can be represented by continuous conditional (quasi)probability currents through the interferometer, given by weak values; the violation of the noncontextual assumption is expressed by negative conditional currents in some of the paths. Since negative conditional currents correspond to the assignment of negative conditional probabilities to measurements results in different measurement contexts, the necessity of such negative probability currents represents a failure of noncontextual local realism. Our results help to explain the meaning of nonlocal correlations in quantum mechanics, and support Feynman's claim that interference is the origin of all quantum phenomena.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-03
# 計画, 創造, 使用: 実世界の複合シナリオにおける総合ツール活用のためのLLMのベンチマーク

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios ( http://arxiv.org/abs/2401.17167v3 )

ライセンス: Link先を確認
Shijue Huang, Wanjun Zhong, Jianqiao Lu, Qi Zhu, Jiahui Gao, Weiwen Liu, Yutai Hou, Xingshan Zeng, Yasheng Wang, Lifeng Shang, Xin Jiang, Ruifeng Xu, Qun Liu, (参考訳) 現実世界のアプリケーションでツールエージェントとしてLarge Language Models(LLM)を使用する最近のトレンドは、特に計画、作成、ツールの使用を含む複雑なシナリオにおいて、その能力の包括的な評価の必要性を浮き彫りにしている。 しかし、既存のベンチマークは通常、現実世界の複雑さを反映しない単純な合成クエリに焦点を合わせ、ツール利用の評価において限られた視点を提供する。 この問題に対処するために,現実シナリオにおけるツール利用におけるLLMの能力の向上と評価を目的とした,新しいベンチマークであるUltraToolを提案する。 UltraToolは、計画や作成から複雑なタスクに適用に至るまで、ツールを使用するプロセス全体に焦点を当てています。 現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立的な評価であり、中間ステップをマッピングしてタスク解決を単純化する。 このように、以前の作業とは異なり、事前に定義されたツールセットの制限を取り除く。 様々なLSMに関する広範な実験を通じて、ツール利用におけるLSMの能力評価に関する新たな知見を提供し、この急速に発展する分野に新たな視点をもたらす。 ベンチマークはhttps://github.com/JoeYing1019/UltraTool.comで公開されている。

The recent trend of using Large Language Models (LLMs) as tool agents in real-world applications underscores the necessity for comprehensive evaluations of their capabilities, particularly in complex scenarios involving planning, creating, and using tools. However, existing benchmarks typically focus on simple synthesized queries that do not reflect real-world complexity, thereby offering limited perspectives in evaluating tool utilization. To address this issue, we present UltraTool, a novel benchmark designed to improve and evaluate LLMs' ability in tool utilization within real-world scenarios. UltraTool focuses on the entire process of using tools - from planning and creating to applying them in complex tasks. It emphasizes real-world complexities, demanding accurate, multi-step planning for effective problem-solving. A key feature of UltraTool is its independent evaluation of planning with natural language, which happens before tool usage and simplifies the task solving by mapping out the intermediate steps. Thus, unlike previous work, it eliminates the restriction of pre-defined toolset. Through extensive experiments on various LLMs, we offer novel insights into the evaluation of capabilities of LLMs in tool utilization, thereby contributing a fresh perspective to this rapidly evolving field. The benchmark is publicly available at https://github.com/JoeYing1019/UltraTool.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-03
# 大規模言語モデルの時間割

Arrows of Time for Large Language Models ( http://arxiv.org/abs/2401.17505v3 )

ライセンス: Link先を確認
Vassilis Papadopoulos, Jérémie Wenger, Clément Hongler, (参考訳) 自己回帰型大言語モデル(LLM)による確率的モデリングを時間方向の角度から検討し,最初に提起された問題に対処する(Shannon, 1951)。 十分に大きなモデルでは、自然言語を学習する能力において、次のトークンを予測しようとする場合と、前のトークンを予測しようとする場合との平均ログパープレキシティの違いという、タイム非対称性が経験的に見つかる。 この違いは同時に微妙で、様々なモダリティ(言語、モデルサイズ、トレーニング時間、...)で非常に一貫性がある。 情報理論の観点から見れば、そのような違いはあり得ない。 このような非対称性が空間性や計算複雑性の考慮からどのように現れるかを説明するための理論的枠組みを提供し、その結果によって開放された多くの視点を概説する。

We study the probabilistic modeling performed by Autoregressive Large Language Models (LLMs) through the angle of time directionality, addressing a question first raised in (Shannon, 1951). For large enough models, we empirically find a time asymmetry in their ability to learn natural language: a difference in the average log-perplexity when trying to predict the next token versus when trying to predict the previous one. This difference is at the same time subtle and very consistent across various modalities (language, model size, training time, ...). Theoretically, this is surprising: from an information-theoretic point of view, there should be no such difference. We provide a theoretical framework to explain how such an asymmetry can appear from sparsity and computational complexity considerations, and outline a number of perspectives opened by our results.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-03
# 大規模言語モデルのプロンプト駆動型保護について

On Prompt-Driven Safeguarding for Large Language Models ( http://arxiv.org/abs/2401.18018v4 )

ライセンス: Link先を確認
Chujie Zheng, Fan Yin, Hao Zhou, Fandong Meng, Jie Zhou, Kai-Wei Chang, Minlie Huang, Nanyun Peng, (参考訳) モデル入力を安全プロンプトで予測することは、有害な意図を持つクエリに対して大きな言語モデル(LLM)を保護するための一般的なプラクティスである。 しかしながら、安全プロンプトの基盤となる動作機構はまだ解明されておらず、自動最適化によるLCMの安全性向上の可能性を制限している。 本研究では, LLMの動作(すなわち, ユーザクエリの遵守や拒否)が, モデル表現の観点からの安全性向上の影響について検討する。 表現空間では、入力クエリは通常、安全プロンプトによって「高い拒絶」方向に移動され、クエリが無害である場合でも、モデルが補助の提供を拒否する傾向が高くなる。 一方, LLM は安全性を損なうことなく, 有害かつ無害なクエリを識別できる。 これらの知見に触発されて,DRO(Directed Representation Optimization)と呼ばれる安全性向上のための手法を提案する。 安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。 ドメイン外およびジェイルブレイクベンチマークの8つのLLMによる実験により、DROはモデルの性能を損なうことなく、人造安全プロンプトの安全性能を著しく向上することが示された。

Prepending model inputs with safety prompts is a common practice for safeguarding large language models (LLMs) against queries with harmful intents. However, the underlying working mechanisms of safety prompts have not been unraveled yet, restricting the possibility of automatically optimizing them to improve LLM safety. In this work, we investigate how LLMs' behavior (i.e., complying with or refusing user queries) is affected by safety prompts from the perspective of model representation. We find that in the representation space, the input queries are typically moved by safety prompts in a "higher-refusal" direction, in which models become more prone to refusing to provide assistance, even when the queries are harmless. On the other hand, LLMs are naturally capable of distinguishing harmful and harmless queries without safety prompts. Inspired by these findings, we propose a method for safety prompt optimization, namely DRO (Directed Representation Optimization). Treating a safety prompt as continuous, trainable embeddings, DRO learns to move the queries' representations along or opposite the refusal direction, depending on their harmfulness. Experiments with eight LLMs on out-of-domain and jailbreak benchmarks demonstrate that DRO remarkably improves the safeguarding performance of human-crafted safety prompts, without compromising the models' general performance.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-03
# フェデレーション設定における分解可能部分モジュラ最大化

Decomposable Submodular Maximization in Federated Setting ( http://arxiv.org/abs/2402.00138v2 )

ライセンス: Link先を確認
Akbar Rafiey, (参考訳) 部分モジュラ関数は分解可能な部分モジュラ関数のサブクラスと同様に、その最適化は機械学習、レコメンデーションシステム、福祉の最大化において幅広い応用に現れる。 しかし、数百万の成分関数を持つ分解可能部分モジュラ函数の最適化は計算的に禁止されている。 さらに、コンポーネント関数はプライベート(例えば、ユーザの好み関数を表す)で、広く共有することはできない。 これらの問題に対処するため、分解可能な部分モジュラ最適化のためのフェデレーション最適化設定を提案する。 この設定では、クライアントは独自の好み関数を持ち、これらの好みの重み付けを最大化する必要がある。 この設定では、クライアントがローカルソリューションに向かって小さなローカルステップを並列に実行し、そのローカル変更を中央サーバに集約する。 多数のクライアントに対処するため、アグリゲーションはサブサンプルセットでのみ実行される。 さらに、並列ローカルステップのストレッチ間の間欠的にのみアグリゲーションを行い、通信コストを著しく低減する。 我々は,上記のコスト削減対策が存在する場合でも,我々のフェデレーションアルゴリズムが近似解を提供することが保証されていることを示す。 最後に、このフェデレーション設定を、最大被覆や施設配置といった基本的な離散部分モジュラー最適化問題に組み込む方法を示す。

Submodular functions, as well as the sub-class of decomposable submodular functions, and their optimization appear in a wide range of applications in machine learning, recommendation systems, and welfare maximization. However, optimization of decomposable submodular functions with millions of component functions is computationally prohibitive. Furthermore, the component functions may be private (they might represent user preference function, for example) and cannot be widely shared. To address these issues, we propose a {\em federated optimization} setting for decomposable submodular optimization. In this setting, clients have their own preference functions, and a weighted sum of these preferences needs to be maximized. We implement the popular {\em continuous greedy} algorithm in this setting where clients take parallel small local steps towards the local solution and then the local changes are aggregated at a central server. To address the large number of clients, the aggregation is performed only on a subsampled set. Further, the aggregation is performed only intermittently between stretches of parallel local steps, which reduces communication cost significantly. We show that our federated algorithm is guaranteed to provide a good approximate solution, even in the presence of above cost-cutting measures. Finally, we show how the federated setting can be incorporated in solving fundamental discrete submodular optimization problems such as Maximum Coverage and Facility Location.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-03
# KTO:将来の理論最適化としてのモデルアライメント

KTO: Model Alignment as Prospect Theoretic Optimization ( http://arxiv.org/abs/2402.01306v2 )

ライセンス: Link先を確認
Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe Kiela, (参考訳) Kahneman & Tversky の $\textit{prospect theory}$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚していることを教えてくれる(1992年)。 クロスエントロピー最小化に対するこれらの目的(例えば、DPO)の成功は、私たちが$\textit{human-aware loss}$ (HALOs)と呼ぶ損失関数のファミリーに属するものの一部である。 しかし、これらの方法が人間に帰属する実用的機能は、先見理論の文献とまだ異なっている。 人間のユーティリティのKahneman-Tverskyモデルを用いて、現在の方法のように、好みのログを最大化するのではなく、世代ごとのユーティリティを直接最大化するHALOを提案する。 我々はこの手法をKTOと呼び、出力が望ましいかどうかのバイナリ信号からのみ学習するにもかかわらず、1Bから30Bのスケールでの好みに基づく手法の性能を一致または超過する。 より広範に、我々の研究は、普遍的に優れているHALOは存在しないことを示唆している。

Kahneman & Tversky's $\textit{prospect theory}$ tells us that humans perceive random variables in a biased but well-defined manner (1992); for example, humans are famously loss-averse. We show that objectives for aligning LLMs with human feedback implicitly incorporate many of these biases -- the success of these objectives (e.g., DPO) over cross-entropy minimization can partly be ascribed to them belonging to a family of loss functions that we call $\textit{human-aware losses}$ (HALOs). However, the utility functions these methods attribute to humans still differ from those in the prospect theory literature. Using a Kahneman-Tversky model of human utility, we propose a HALO that directly maximizes the utility of generations instead of maximizing the log-likelihood of preferences, as current methods do. We call this approach KTO, and it matches or exceeds the performance of preference-based methods at scales from 1B to 30B, despite only learning from a binary signal of whether an output is desirable. More broadly, our work suggests that there is no one HALO that is universally superior; the best loss depends on the inductive biases most appropriate for a given setting, an oft-overlooked consideration.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-03
# 人物画像合成のためのクロスビューマスク付き拡散変換器

Cross-view Masked Diffusion Transformers for Person Image Synthesis ( http://arxiv.org/abs/2402.01516v2 )

ライセンス: Link先を確認
Trung X. Pham, Zhang Kang, Chang D. Yoo, (参考訳) X-MDPT $\underline{Cross}$-view $\underline{M}$asked $\underline{D}$iffusion $\underline{P}$rediction $\underline{T}$ransformers は、ポーズ誘導型画像生成用に設計された新しい拡散モデルである。 X-MDPTは、既存の作品で一般的に使われているUnet構造から逸脱した潜伏パッチで動作するマスク付き拡散変換器を用いて、自分自身を区別する。 モデルは3つの主要なモジュールから構成される。 1) 拡散変圧器 2 拡散処理のための単一のベクトルに条件を集約する集約ネットワーク及び 3)参照画像からのセマンティック情報による表現学習を強化するマスククロス予測モジュール。 X-MDPTは拡張性を示し、より大きなモデルでFID、SSIM、LPIPSを改善している。 そのシンプルな設計にもかかわらず、我々のモデルはDeepFashionデータセットの最先端のアプローチよりも優れており、トレーニングパラメータ、トレーニング時間、推論速度の点で効率が良い。 我々のコンパクト33MBモデルは7.42のFIDを達成し、Unet遅延拡散法(FID 8.07)をはるかに上回っている。 我々の最良のモデルは、パラメータの$\frac{2}{3}$でピクセルベースの拡散を超え、5.43 \times$高速推論を達成する。 コードはhttps://github.com/trungpx/xmdptで公開されている。

We present X-MDPT ($\underline{Cross}$-view $\underline{M}$asked $\underline{D}$iffusion $\underline{P}$rediction $\underline{T}$ransformers), a novel diffusion model designed for pose-guided human image generation. X-MDPT distinguishes itself by employing masked diffusion transformers that operate on latent patches, a departure from the commonly-used Unet structures in existing works. The model comprises three key modules: 1) a denoising diffusion Transformer, 2) an aggregation network that consolidates conditions into a single vector for the diffusion process, and 3) a mask cross-prediction module that enhances representation learning with semantic information from the reference image. X-MDPT demonstrates scalability, improving FID, SSIM, and LPIPS with larger models. Despite its simple design, our model outperforms state-of-the-art approaches on the DeepFashion dataset while exhibiting efficiency in terms of training parameters, training time, and inference speed. Our compact 33MB model achieves an FID of 7.42, surpassing a prior Unet latent diffusion approach (FID 8.07) using only $11\times$ fewer parameters. Our best model surpasses the pixel-based diffusion with $\frac{2}{3}$ of the parameters and achieves $5.43 \times$ faster inference. The code is available at https://github.com/trungpx/xmdpt.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-03
# DeCoF:フレーム一貫性による生成ビデオ検出:最初のベンチマークデータセット

DeCoF: Generated Video Detection via Frame Consistency: The First Benchmark Dataset ( http://arxiv.org/abs/2402.02085v3 )

ライセンス: Link先を確認
Long Ma, Jiajia Zhang, Hongping Deng, Ningyu Zhang, Qinglang Guo, Haiyang Yu, Yong Liao, Pengyuan Zhou, (参考訳) 高度なビデオ生成手法によって生成されたビデオの品質が向上すると、新たなセキュリティ上の課題がもたらされるが、関連する研究成果はほとんどない。 1)生成したビデオ検出のためのオープンソースデータセットは存在しない。 2) これまでに生成した映像検出手法は提案されていない。 そこで本研究では,生成したビデオのオープンソースデータセットと検出方法を初めて提案する。 まず、964プロンプトからなるスケーラブルなデータセットを提案し、さまざまなフォージェリターゲット、シーン、振る舞い、アクションに加えて、OpenAIのSoraやGoogleのVeoといった最もポピュラーな商用モデルを含む、さまざまなアーキテクチャと生成メソッドを備えたさまざまな世代モデルをカバーしています。 第二に、空間的人工物に基づく検出器が一般化性に欠けていることの探索実験により明らかになった。 そこで,本稿では,特徴学習における空間的アーティファクトの影響を排除し,時間的アーティファクトに着目した,簡易かつ効果的な \textbf{de} 決定モデルを提案する。 大規模な実験は、目に見えないビデオ生成モデルによって生成されたビデオの検出におけるDeCoFの有効性を実証し、その強力な一般化性を複数の商用プロプライエタリなモデルで確認する。 コードとデータセットは \url{https://anonymous.4open.science/r/DeCoF-8394} でリリースされます。

The escalating quality of video generated by advanced video generation methods results in new security challenges, while there have been few relevant research efforts: 1) There is no open-source dataset for generated video detection, 2) No generated video detection method has been proposed so far. To this end, we propose an open-source dataset and a detection method for generated video for the first time. First, we propose a scalable dataset consisting of 964 prompts, covering various forgery targets, scenes, behaviors, and actions, as well as various generation models with different architectures and generation methods, including the most popular commercial models like OpenAI's Sora and Google's Veo. Second, we found via probing experiments that spatial artifact-based detectors lack generalizability. Hence, we propose a simple yet effective \textbf{de}tection model based on \textbf{f}rame \textbf{co}nsistency (\textbf{DeCoF}), which focuses on temporal artifacts by eliminating the impact of spatial artifacts during feature learning. Extensive experiments demonstrate the efficacy of DeCoF in detecting videos generated by unseen video generation models and confirm its powerful generalizability across several commercially proprietary models. Our code and dataset will be released at \url{https://anonymous.4open.science/r/DeCoF-8394}.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-03
# Aligner: 修正の学習による効率的なアライメント

Aligner: Efficient Alignment by Learning to Correct ( http://arxiv.org/abs/2402.02416v3 )

ライセンス: Link先を確認
Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang, Xuehai Pan, Juntao Dai, Tianyi Qiu, Yaodong Yang, (参考訳) 大規模言語モデル(LLM)の急激な開発と、絶え間なく進化する実践的要件により、効率的かつ効果的なアライメント方法を見つけることは、これまで以上に重要とされてきた。 しかしながら、現在のアライメントメソッドの複雑さとデプロイメントシナリオにおける迅速なイテレーションの必要性の間の緊張は、これらの制約の下で動作可能なモデルに依存しないアライメントアプローチの開発を必要とします。 本稿では,好ましくない回答と好ましくない回答の補正残差を小さなモデルで学習する,新しくシンプルなアライメントパラダイムであるAlignerを紹介する。 モデルに依存しないプラグイン・アンド・プレイモジュールとして設計されたAlignerは、ワンオフトレーニングのみで、さまざまなオープンソースおよびAPIベースのモデルに直接適用することができるため、迅速なイテレーションに適している。 特に、Alignerは、強力で大規模な上流モデルに適用できる。 さらに、修正された応答を人工的な人間の嗜好データとして使用して、上流モデルのブートストラップを反復的に行うことで、モデルのパフォーマンス天井を破ることができる。 実験では,11種類のLDMに対して同一のAlignerモデルをデプロイし,3H次元(重大性,無害性,正直性)で評価した。 具体的には、Aligner-7Bは、覚醒を効果的に減少させながら、試験LSM全体で68.9\%、23.8\%の無害性を平均的に改善した。 Alpaca-Eval のリーダーボードでは、Aligner-2B を GPT-4 Turbo に積み重ねて LC Win Rate を 55.0\% から 58.3\% に改善し、GPT-4 オムニの 57.5\% Win Rate を上回った(コミュニティレポート)。

With the rapid development of large language models (LLMs) and ever-evolving practical requirements, finding an efficient and effective alignment method has never been more critical. However, the tension between the complexity of current alignment methods and the need for rapid iteration in deployment scenarios necessitates the development of a model-agnostic alignment approach that can operate under these constraints. In this paper, we introduce Aligner, a novel and simple alignment paradigm that learns the correctional residuals between preferred and dispreferred answers using a small model. Designed as a model-agnostic, plug-and-play module, Aligner can be directly applied to various open-source and API-based models with only one-off training, making it suitable for rapid iteration. Notably, Aligner can be applied to any powerful, large-scale upstream models. Moreover, it can even iteratively bootstrap the upstream models using corrected responses as synthetic human preference data, breaking through the model's performance ceiling. Our experiments demonstrate performance improvements by deploying the same Aligner model across 11 different LLMs, evaluated on the 3H dimensions (helpfulness, harmlessness, and honesty). Specifically, Aligner-7B has achieved an average improvement of 68.9\% in helpfulness and 23.8\% in harmlessness across the tested LLMs while also effectively reducing hallucination. In the Alpaca-Eval leaderboard, stacking Aligner-2B on GPT-4 Turbo improved its LC Win Rate from 55.0\% to 58.3\%, surpassing GPT-4 Omni's 57.5\% Win Rate (community report).
翻訳日:2024-06-04 19:13:07 公開日:2024-06-03
# KS-Lottery:多言語言語モデルのための認証されたロッキーティケットを見つける

KS-Lottery: Finding Certified Lottery Tickets for Multilingual Language Models ( http://arxiv.org/abs/2402.02801v2 )

ライセンス: Link先を確認
Fei Yuan, Chang Ma, Shuai Yuan, Qiushi Sun, Lei Li, (参考訳) 宝くじの仮説は、ランダムに初期化されたニューラルネットワークの中に 'winning ticket'' が存在することを示唆している。 微調整シナリオにおけるLLMの当選チケットは存在するか? そんな入賞券はどうやって見つけられるのですか。 本稿では,多言語微調整に非常に有効なLLMパラメータの小さなサブセットを同定するKS-Lotteryを提案する。 我々はKolmogorov-Smirnov Testを用いて、微調整前後のパラメータの分布変化を分析する。 さらに我々は,KS-Lotteryが組込み層で証明された当選チケットを見つけることができることを理論的に証明し,検出したパラメータの微調整を保証し,完全な微調整を行う。 KS-Lotteryと他のパラメータ効率の調整アルゴリズムとの比較実験により,KS-Lotteryは細調整のためのパラメータセットがはるかに小さく,かつ完全な微調整LDMと同等の性能を実現していることがわかった。 驚いたことに、18個の微調整されたLLaMAの埋め込みは、微調整された翻訳性能~\footnote{https://github.com/CONE-MT/KS-Lotteryに到達するのに十分である。 と。

The lottery ticket hypothesis posits the existence of ``winning tickets'' within a randomly initialized neural network. Do winning tickets exist for LLMs in fine-tuning scenarios? How can we find such winning tickets? In this paper, we propose KS-Lottery, a method to identify a small subset of LLM parameters highly effective in multilingual fine-tuning. Our key idea is to use Kolmogorov-Smirnov Test to analyze the distribution shift of parameters before and after fine-tuning. We further theoretically prove that KS-Lottery can find the certified winning tickets in the embedding layer, fine-tuning on the found parameters is guaranteed to perform as well as full fine-tuning. Comparing KS-Lottery with other parameter-efficient tuning algorithms on translation tasks, the experimental results show that KS-Lottery finds a much smaller set of parameters for fine-tuning while achieving the comparable performance as full fine-tuning LLM. Surprisingly, we find that fine-tuning 18 tokens' embedding of LLaMA suffices to reach the fine-tuning translation performance~\footnote{https://github.com/CONE-MT/KS-Lottery.}.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-03
# 非同期計画推論におけるグラフ強化大言語モデル

Graph-enhanced Large Language Models in Asynchronous Plan Reasoning ( http://arxiv.org/abs/2402.02805v2 )

ライセンス: Link先を確認
Fangru Lin, Emanuele La Malfa, Valentin Hofmann, Elle Michelle Yang, Anthony Cohn, Janet B. Pierrehumbert, (参考訳) 計画は人間の知性の基本的特性である。 非同期計画の推論は、時間コストを最適化するためにシーケンシャルで並列な計画を必要とするため、難しい。 大規模言語モデル(LLM)がこのタスクを成功させるだろうか? 本稿では,この問題を調査した最初の大規模研究について紹介する。 GPT-4 や LLaMA-2 など,クローズドかつオープンソースな LLM の代表的セットは,我々のベンチマーク AsyncHow のタスク解決プロセスに関する図面が提供されないと,動作が悪くなる。 そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。 PLaGはモデル性能を向上させることができるが、タスクの複雑さが増加するとLLMは劇的に劣化し、デジタルデバイスをシミュレートするためにLLMを利用することの限界が浮き彫りになる。 我々の研究は、LSMを効率的な自律エージェントとして使うためのエキサイティングなステップだと考えています。 私たちのコードとデータはhttps://github.com/fangru-lin/graph-llm-asynchow-planで公開されています。

Planning is a fundamental property of human intelligence. Reasoning about asynchronous plans is challenging since it requires sequential and parallel planning to optimize time costs. Can large language models (LLMs) succeed at this task? Here, we present the first large-scale study investigating this question. We find that a representative set of closed and open-source LLMs, including GPT-4 and LLaMA-2, behave poorly when not supplied with illustrations about the task-solving process in our benchmark AsyncHow. We propose a novel technique called Plan Like a Graph (PLaG) that combines graphs with natural language prompts and achieves state-of-the-art results. We show that although PLaG can boost model performance, LLMs still suffer from drastic degradation when task complexity increases, highlighting the limits of utilizing LLMs for simulating digital devices. We see our study as an exciting step towards using LLMs as efficient autonomous agents. Our code and data are available at https://github.com/fangru-lin/graph-llm-asynchow-plan.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-03
# PowerGraph: グラフニューラルネットワークのための電力グリッドベンチマークデータセット

PowerGraph: A power grid benchmark dataset for graph neural networks ( http://arxiv.org/abs/2402.02827v2 )

ライセンス: Link先を確認
Anna Varbella, Kenza Amara, Blazhe Gjorgiev, Mennatallah El-Assady, Giovanni Sansavini, (参考訳) 電力網は現代社会にとって最も重要なインフラであり、様々な状況や失敗の下で運用するために設計された。 進行中のエネルギー遷移は、意思決定者とシステムオペレーターに新たな課題をもたらす。 そこで我々は,信頼性の高い動作を保証するために,グリッド解析アルゴリズムを開発しなければならない。 これらの主要なツールには、効率的な運用計画と戦略的計画に必要な電力フロー分析とシステムセキュリティ分析が含まれる。 文献レビューでは、これらの分析を効果的に実行する機械学習(ML)モデルの増加傾向が示されている。 特に、グラフニューラルネットワーク(GNN)は、電力グリッドのグラフに基づく構造のため、このようなアプリケーションにおいて際立っている。 しかし、電力グリッドアプリケーションでMLモデルをトレーニングし、ベンチマークするためのグラフデータセットが公開されていない。 まず、GNN対応のデータセットを含むPowerGraphを紹介する。 i) 電力の流れ 二 最適動力流、及び 三 送電網のカスケード故障解析 第二に、カスケード故障解析の真理的な説明を提供する。 最後に、ノードレベルおよびグラフレベルのタスクと説明可能性のためのGNN手法の完全なベンチマークを行う。 PowerGraphは、さまざまなタスクのための多面的GNNデータセットであり、実世界の説明を伴う電力の流れと障害シナリオを含み、ノードレベル、グラフレベルタスクのための改善されたGNNモデルを開発するための貴重なリソースを提供する。 データセットはhttps://figshare.com/articles/dataset/PowerGraph/22820534で、コードはhttps://github.com/PowerGraph-Datasetsで入手できる。

Power grids are critical infrastructures of paramount importance to modern society and, therefore, engineered to operate under diverse conditions and failures. The ongoing energy transition poses new challenges for the decision-makers and system operators. Therefore, we must develop grid analysis algorithms to ensure reliable operations. These key tools include power flow analysis and system security analysis, both needed for effective operational and strategic planning. The literature review shows a growing trend of machine learning (ML) models that perform these analyses effectively. In particular, Graph Neural Networks (GNNs) stand out in such applications because of the graph-based structure of power grids. However, there is a lack of publicly available graph datasets for training and benchmarking ML models in electrical power grid applications. First, we present PowerGraph, which comprises GNN-tailored datasets for i) power flows, ii) optimal power flows, and iii) cascading failure analyses of power grids. Second, we provide ground-truth explanations for the cascading failure analysis. Finally, we perform a complete benchmarking of GNN methods for node-level and graph-level tasks and explainability. Overall, PowerGraph is a multifaceted GNN dataset for diverse tasks that includes power flow and fault scenarios with real-world explanations, providing a valuable resource for developing improved GNN models for node-level, graph-level tasks and explainability methods in power system modeling. The dataset is available at https://figshare.com/articles/dataset/PowerGraph/22820534 and the code at https://github.com/PowerGraph-Datasets.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-03
# Video-LaVIT: 切り離された視覚運動のトークン化による統合ビデオランゲージ事前トレーニング

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization ( http://arxiv.org/abs/2402.03161v3 )

ライセンス: Link先を確認
Yang Jin, Zhicheng Sun, Kun Xu, Kun Xu, Liwei Chen, Hao Jiang, Quzhe Huang, Chengru Song, Yuliang Liu, Di Zhang, Yang Song, Kun Gai, Yadong Mu, (参考訳) マルチモーダル大規模言語モデル(LLM)の最近の進歩を踏まえ、画像テキストデータからより情報に富んだ実世界のビデオへの拡張に注目が集まっている。 静止画像と比較すると,ビデオは時空間力学のモデル化により,大規模な事前学習を効果的に行う上で,ユニークな課題となる。 本稿では,各映像をキーフレームと時間的動きとして表現する効率的な映像分解法を用いて,ビデオ言語事前学習におけるこのような制限に対処する。 これらは、よく設計されたトークンーを使用してLCMに適合し、視覚的および時間的情報をいくつかのトークンとして識別し、ビデオ、画像、テキストの統一的な生成前トレーニングを可能にする。 推測では、LPMから生成されたトークンを元の連続画素空間に慎重に回収し、様々なビデオコンテンツを作成する。 提案するフレームワークは,画像および映像の理解と生成において,13のマルチモーダルベンチマークの競合性能で示されるように,画像および映像コンテンツの理解と生成を両立させることができる。 私たちのコードとモデルはhttps://video-lavit.github.io.comで公開されています。

In light of recent advances in multimodal Large Language Models (LLMs), there is increasing attention to scaling them from image-text data to more informative real-world videos. Compared to static images, video poses unique challenges for effective large-scale pre-training due to the modeling of its spatiotemporal dynamics. In this paper, we address such limitations in video-language pre-training with an efficient video decomposition that represents each video as keyframes and temporal motions. These are then adapted to an LLM using well-designed tokenizers that discretize visual and temporal information as a few tokens, thus enabling unified generative pre-training of videos, images, and text. At inference, the generated tokens from the LLM are carefully recovered to the original continuous pixel space to create various video content. Our proposed framework is both capable of comprehending and generating image and video content, as demonstrated by its competitive performance across 13 multimodal benchmarks in image and video understanding and generation. Our code and models are available at https://video-lavit.github.io.
翻訳日:2024-06-04 19:03:18 公開日:2024-06-03
# 再バランス戦略は必要か? : SMOTEとその変種に関する理論的および実証的研究

Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants ( http://arxiv.org/abs/2402.03819v2 )

ライセンス: Link先を確認
Abdoulaye Sakho, Emmanuel Malherbe, Erwan Scornet, (参考訳) SMOTE(Synthetic Minority Oversampling Technique)は、不均衡な表付きデータセットを扱うための一般的な再バランス手法である。 しかし、SMOTEを理論的に分析する研究はほとんどない。 本稿では、SMOTE(デフォルトパラメータを持つ)が元のマイノリティサンプルを漸近的にコピーすることを証明する。 また,SMOTEが境界アーティファクトを示すことを証明し,既存のSMOTEの変形を正当化する。 次に、2つの新しいSMOTE関連戦略を導入し、それらを最先端のリバランシング手順と比較する。 驚くべきことに、ほとんどのデータセットでは、ランダムな森林を調整した予測性能において、再バランス戦略を適用することは競合しない。 高度に不均衡なデータセットに対しては、新しい手法であるMultivariate Gaussian SMOTEが競合する。 さらに、ランダムな森林と組み合わせて使う場合、一般的な再バランス戦略の振舞いに光を当てる。

Synthetic Minority Oversampling Technique (SMOTE) is a common rebalancing strategy for handling imbalanced tabular data sets. However, few works analyze SMOTE theoretically. In this paper, we prove that SMOTE (with default parameter) simply copies the original minority samples asymptotically. We also prove that SMOTE exhibits boundary artifacts, thus justifying existing SMOTE variants. Then we introduce two new SMOTE-related strategies, and compare them with state-of-the-art rebalancing procedures. Surprisingly, for most data sets, we observe that applying no rebalancing strategy is competitive in terms of predictive performances, with tuned random forests. For highly imbalanced data sets, our new method, named Multivariate Gaussian SMOTE, is competitive. Besides, our analysis sheds some lights on the behavior of common rebalancing strategies, when used in conjunction with random forests.
翻訳日:2024-06-04 19:03:18 公開日:2024-06-03
# ドットの接続:ブラックボックスビジョンランゲージモデルのための協調的微調整

Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models ( http://arxiv.org/abs/2402.04050v2 )

ライセンス: Link先を確認
Zhengbo Wang, Jian Liang, Ran He, Zilei Wang, Tieniu Tan, (参考訳) 事前訓練された視覚言語モデル(VLM)の出現に伴い、下流タスクのための微調整に多大な努力が注がれている。 効率的な微調整手法の設計の進歩にもかかわらず、そのような手法はモデルのパラメータへのアクセスを必要とするため、モデル所有者はモデル所有権を保護するためにブラックボックスとしてモデルを提供することがしばしば難しい。 本稿では,入力プロンプトとモデル出力予測にのみアクセス可能なブラックボックスVLMをダウンストリームタスクに微調整するための, \textbf{C}ollabo\textbf{ra}tive \textbf{F}ine-\textbf{T}uning (\textbf{CraFT})アプローチを提案する。 CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。 さらに,これらのモジュール間の一貫した最適化を促進するために,補助的な予測一貫性損失を導入する。 これらのモジュールは、新しい協調トレーニングアルゴリズムによって最適化されている。 15以上のデータセットに対する数発の分類に関する大規模な実験は、CraFTの優位性を示している。 結果は、CraFTが16ショットのデータセットと8000のクエリで、およそ12\%の十分なゲインを達成していることを示している。 さらに、CraFTはより速くトレーニングし、配置にメモリフットプリントの約1/80しか使用せず、ホワイトボックス方式に比べて1.62\%しか消費していない。 私たちのコードはhttps://github.com/mrflogs/CraFTで公開されています。

With the emergence of pretrained vision-language models (VLMs), considerable efforts have been devoted to fine-tuning them for downstream tasks. Despite the progress made in designing efficient fine-tuning methods, such methods require access to the model's parameters, which can be challenging as model owners often opt to provide their models as a black box to safeguard model ownership. This paper proposes a \textbf{C}ollabo\textbf{ra}tive \textbf{F}ine-\textbf{T}uning (\textbf{CraFT}) approach for fine-tuning black-box VLMs to downstream tasks, where one only has access to the input prompts and the output predictions of the model. CraFT comprises two modules, a prompt generation module for learning text prompts and a prediction refinement module for enhancing output predictions in residual style. Additionally, we introduce an auxiliary prediction-consistent loss to promote consistent optimization across these modules. These modules are optimized by a novel collaborative training algorithm. Extensive experiments on few-shot classification over 15 datasets demonstrate the superiority of CraFT. The results show that CraFT achieves a decent gain of about 12\% with 16-shot datasets and only 8,000 queries. Moreover, CraFT trains faster and uses only about 1/80 of the memory footprint for deployment, while sacrificing only 1.62\% compared to the white-box method. Our code is publicly available at https://github.com/mrflogs/CraFT .
翻訳日:2024-06-04 19:03:18 公開日:2024-06-03
# 参照集約による線形時間最小ベイズリスクデコード

Linear-time Minimum Bayes Risk Decoding with Reference Aggregation ( http://arxiv.org/abs/2402.04251v2 )

ライセンス: Link先を確認
Jannis Vamvas, Rico Sennrich, (参考訳) 最小ベイズリスク(MBR)復号法(Minimum Bayes Risk, MBR)は、機械翻訳の品質向上を図ったテキスト生成手法であるが、サンプリングベースの近似を用いても高価である。 多数のサンプルシーケンスを必要とするのに加えて、2次複雑さを持つ実用計量のペアワイズ計算が必要となる。 本稿では,集約された参照表現に対して計算されたスコアを用いて,ペアワイズメトリックスコアを近似する。 これはユーティリティ推定の複雑さを$O(n^2)$から$O(n)$に変更し、MBRデコードの品質向上を実証的に保存する。 ソースコードはhttps://github.com/ZurichNLP/mbrで公開しています。

Minimum Bayes Risk (MBR) decoding is a text generation technique that has been shown to improve the quality of machine translations, but is expensive, even if a sampling-based approximation is used. Besides requiring a large number of sampled sequences, it requires the pairwise calculation of a utility metric, which has quadratic complexity. In this paper, we propose to approximate pairwise metric scores with scores calculated against aggregated reference representations. This changes the complexity of utility estimation from $O(n^2)$ to $O(n)$, while empirically preserving most of the quality gains of MBR decoding. We release our source code at https://github.com/ZurichNLP/mbr
翻訳日:2024-06-04 19:03:18 公開日:2024-06-03
# DFA-RAG:有限オートマトンを持つ大言語モデルのための対話型セマンティックルータ

DFA-RAG: Conversational Semantic Router for Large Language Model with Definite Finite Automaton ( http://arxiv.org/abs/2402.04411v2 )

ライセンス: Link先を確認
Yiyou Sun, Junjie Hu, Wei Cheng, Haifeng Chen, (参考訳) 本稿では,多言語モデル (LLM) を用いた対話型エージェントの能力向上を目的とした新フレームワークであるDefinite Finite Automaton (DFA-RAG) を用いた検索拡張大型言語モデルを提案する。 従来のLLMは、感情的サポートやカスタマーサービスなど、所定のレスポンスガイドラインを持つ特別なシナリオにおいて、規制された、コンプライアンスされたレスポンスを生成する上で、課題に直面しています。 我々のフレームワークは、LLM内のトレーニング対話から学んだDFA(Definite Finite Automaton)を組み込むことによって、これらの課題に対処する。 この構造的アプローチは、LLMが決定論的応答経路に従うことを可能にするセマンティックルータとして機能する。 ルーティングは、現在の会話コンテキストに沿った対話例を慎重に選択する検索拡張生成(RAG)戦略によって達成される。 DFA-RAGの利点は、人間可読なDFAによる解釈可能な構造、会話における応答の文脈認識検索、既存のLLMとのプラグアンドプレイ互換性である。 広範囲なベンチマークにより、DFA-RAGの有効性が検証され、会話エージェントに重要な貢献をする可能性が示唆された。

This paper introduces the retrieval-augmented large language model with Definite Finite Automaton (DFA-RAG), a novel framework designed to enhance the capabilities of conversational agents using large language models (LLMs). Traditional LLMs face challenges in generating regulated and compliant responses in special scenarios with predetermined response guidelines, like emotional support and customer service. Our framework addresses these challenges by embedding a Definite Finite Automaton (DFA), learned from training dialogues, within the LLM. This structured approach acts as a semantic router which enables the LLM to adhere to a deterministic response pathway. The routing is achieved by the retrieval-augmentation generation (RAG) strategy, which carefully selects dialogue examples aligned with the current conversational context. The advantages of DFA-RAG include an interpretable structure through human-readable DFA, context-aware retrieval for responses in conversations, and plug-and-play compatibility with existing LLMs. Extensive benchmarks validate DFA-RAG's effectiveness, indicating its potential as a valuable contribution to the conversational agent.
翻訳日:2024-06-04 19:03:18 公開日:2024-06-03
# シュタイン・ボルツマンサンプリング:大域最適化のための変分的アプローチ

Stein Boltzmann Sampling: A Variational Approach for Global Optimization ( http://arxiv.org/abs/2402.04689v5 )

ライセンス: Link先を確認
Gaëtan Serré, Argyris Kalogeratos, Nicolas Vayatis, (参考訳) 本稿では,Stein Boltzmann Sampling (SBS) と呼ばれる連続ソボレフ関数を大域的に最適化するフローベース手法を提案する。 SBSは、候補とする解を表す多数の粒子を初期化し、次にStein Variational Gradient Descent (SVGD)アルゴリズムを用いて、それらの粒子を逐次的かつ決定的に移動させ、最適化関数の領域の有望領域の周りに質量が集中しているターゲット分布を近似する。 ターゲットは、適切にパラメトリケートされたボルツマン分布として選択される。 大域的最適化のために、より汎用的なターゲット分布を$\mathbb{R}^d$のコンパクト部分集合上で処理できるジェネリックSVGD理論フレームワークを適用し、SBSの漸近収束を証明した。 主SBSアルゴリズムに加えて、粒子フィルタリング戦略を含むSBS-PFと、SBSまたはSBS-PFを他の粒子や分布に基づく最適化手法の継続として使用するSBS-HYBRIDの2つの変種を示す。 ベンチマーク関数の最先端手法との詳細な比較により、SBSとその変種は高い競争力を示す一方、2つの変種の組み合わせは精度と計算コストの最良のトレードオフを提供する。

In this paper, we present a flow-based method for global optimization of continuous Sobolev functions, called Stein Boltzmann Sampling (SBS). SBS initializes uniformly a number of particles representing candidate solutions, then uses the Stein Variational Gradient Descent (SVGD) algorithm to sequentially and deterministically move those particles in order to approximate a target distribution whose mass is concentrated around promising areas of the domain of the optimized function. The target is chosen to be a properly parametrized Boltzmann distribution. For the purpose of global optimization, we adapt the generic SVGD theoretical framework allowing to address more general target distributions over a compact subset of $\mathbb{R}^d$, and we prove SBS's asymptotic convergence. In addition to the main SBS algorithm, we present two variants: the SBS-PF that includes a particle filtering strategy, and the SBS-HYBRID one that uses SBS or SBS-PF as a continuation after other particle- or distribution-based optimization methods. A detailed comparison with state-of-the-art methods on benchmark functions demonstrates that SBS and its variants are highly competitive, while the combination of the two variants provides the best trade-off between accuracy and computational cost.
翻訳日:2024-06-04 19:03:18 公開日:2024-06-03
# 階層的木構造知識グラフによる学術的洞察調査

Hierarchical Tree-structured Knowledge Graph For Academic Insight Survey ( http://arxiv.org/abs/2402.04854v3 )

ライセンス: Link先を確認
Jinghong Li, Huy Phan, Wen Gu, Koichi Ota, Shinobu Hasegawa, (参考訳) 調査は、研究トレーニングが不足している初心者研究者にとって、常に課題となっている。 これらの研究者は、研究トピックの方向性や、新しい研究結果の発見を短期間で理解するのに苦労しています。 初心者研究者に直感的な支援を提供する一つの方法は、関連する知識グラフ(KG)を提供し、関連する学術論文を推薦することである。 しかし、既存のナビゲーション知識グラフは主に研究分野のキーワードに依存しており、複数の関連論文の論理的階層をはっきりと示さないことが多い。 さらに、学術論文の推薦システムの多くは、単に高いテキスト類似性に依存しており、研究者は、ある記事が推奨されている理由について混乱させる可能性がある。 また, 「Issue Solution」 と 「Issue Find」 の間に得られる洞察の関連性について, 重要な情報が欠如している可能性がある。 これらの課題に対処するために,本研究では,研究トピックの継承洞察と学術論文の関連洞察を反映した階層的木構造知識グラフを確立することにより,初心者研究者を対象とした研究洞察調査を支援することを目的とする。

Research surveys have always posed a challenge for beginner researchers who lack of research training. These researchers struggle to understand the directions within their research topic, and the discovery of new research findings within a short time. One way to provide intuitive assistance to beginner researchers is by offering relevant knowledge graphs(KG) and recommending related academic papers. However, existing navigation knowledge graphs primarily rely on keywords in the research field and often fail to present the logical hierarchy among multiple related papers clearly. Moreover, most recommendation systems for academic papers simply rely on high text similarity, which can leave researchers confused as to why a particular article is being recommended. They may lack of grasp important information about the insight connection between "Issue resolved" and "Issue finding" that they hope to obtain. To address these issues, this study aims to support research insight surveys for beginner researchers by establishing a hierarchical tree-structured knowledge graph that reflects the inheritance insight of research topics and the relevance insight among the academic papers.
翻訳日:2024-06-04 19:03:18 公開日:2024-06-03
# 非平衡最適輸送による生成モデリングのためのスケーラブルワッサースタイン勾配流

Scalable Wasserstein Gradient Flow for Generative Modeling through Unbalanced Optimal Transport ( http://arxiv.org/abs/2402.05443v3 )

ライセンス: Link先を確認
Jaemoo Choi, Jaewoong Choi, Myungjoo Kang, (参考訳) Wasserstein Gradient Flow (WGF) は、Wasserstein空間内の確率密度の勾配力学を記述する。 WGFは確率分布に対して最適化を行うための有望なアプローチを提供する。 連続WGFを数値的に近似するには時間離散化が必要である。 最もよく知られている方法はJKOスキームである。 この点において、従来のWGFモデルは、各JKOステップに対して、JKOスキームとパラメタライズトランスポートマップを用いている。 しかし、このアプローチは、JKOのステップ数$K$の2次トレーニング複雑性$O(K^2)$となる。 これによりWGFモデルのスケーラビリティが著しく制限される。 本稿では,Semi-dual JKO(S-JKO)と呼ばれるスケーラブルなWGFベースの生成モデルを提案する。 我々のモデルは、JKOステップと不均衡最適輸送の等価性から導かれるJKOステップの半二重形式に基づいている。 我々のアプローチは、トレーニングの複雑さを$O(K)$に減らします。 CIFAR-10ではFIDスコアが2.62、CelebA-HQ-256では5.46と、最先端の画像生成モデルに匹敵する結果を得た。

Wasserstein Gradient Flow (WGF) describes the gradient dynamics of probability density within the Wasserstein space. WGF provides a promising approach for conducting optimization over the probability distributions. Numerically approximating the continuous WGF requires the time discretization method. The most well-known method for this is the JKO scheme. In this regard, previous WGF models employ the JKO scheme and parametrize transport map for each JKO step. However, this approach results in quadratic training complexity $O(K^2)$ with the number of JKO step $K$. This severely limits the scalability of WGF models. In this paper, we introduce a scalable WGF-based generative model, called Semi-dual JKO (S-JKO). Our model is based on the semi-dual form of the JKO step, derived from the equivalence between the JKO step and the Unbalanced Optimal Transport. Our approach reduces the training complexity to $O(K)$. We demonstrate that our model significantly outperforms existing WGF-based generative models, achieving FID scores of 2.62 on CIFAR-10 and 5.46 on CelebA-HQ-256, which are comparable to state-of-the-art image generative models.
翻訳日:2024-06-04 19:03:18 公開日:2024-06-03
# 平均フィールドゲームのためのモデルベースRLはシングルエージェントRLよりも統計的に困難ではない

Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL ( http://arxiv.org/abs/2402.05724v2 )

ライセンス: Link先を確認
Jiawei Huang, Niao He, Andreas Krause, (参考訳) 平均フィールドゲーム(MFG)における強化学習(RL)のサンプル複雑性とモデルに基づく関数近似について検討し,Nash平衡ポリシーの探索に戦略的探索を必要とする。 本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。 特に、P-MBEDは与えられた平均場モデルクラスから変換された単エージェントモデルクラスの複雑さを測り、潜在的には \citet{huang2023statistical} によって提案されたMBEDよりも指数関数的に小さくすることができる。 我々は,新しい探索戦略を特徴とするモデル除去アルゴリズムに寄与し,サンプル複雑性結果多項式 w.r.t.~P-MBED を確立する。 重要な結果として、MFGsにおける'emph{learning Nash Equilibrium in MFGs'は、基本的な実現可能性とリプシッツ連続性仮定の下では、単エージェントRL問題の対数問題よりも統計的に困難である。 さらに,従来のMFGから一般化し,複数の種類のエージェントを含むマルチタイプMFGに結果を拡張した。 この拡張は、平均場近似の有効性を通じて、より広い種類のマルコフゲームの統計的トラクタビリティを意味する。 最後に,我々の理論的アルゴリズムに触発されて,計算効率を向上し,その有効性を実証的に示すヒューリスティックな手法を提案する。

We study the sample complexity of reinforcement learning (RL) in Mean-Field Games (MFGs) with model-based function approximation that requires strategic exploration to find a Nash Equilibrium policy. We introduce the Partial Model-Based Eluder Dimension (P-MBED), a more effective notion to characterize the model class complexity. Notably, P-MBED measures the complexity of the single-agent model class converted from the given mean-field model class, and potentially, can be exponentially lower than the MBED proposed by \citet{huang2023statistical}. We contribute a model elimination algorithm featuring a novel exploration strategy and establish sample complexity results polynomial w.r.t.~P-MBED. Crucially, our results reveal that, under the basic realizability and Lipschitz continuity assumptions, \emph{learning Nash Equilibrium in MFGs is no more statistically challenging than solving a logarithmic number of single-agent RL problems}. We further extend our results to Multi-Type MFGs, generalizing from conventional MFGs and involving multiple types of agents. This extension implies statistical tractability of a broader class of Markov Games through the efficacy of mean-field approximation. Finally, inspired by our theoretical algorithm, we present a heuristic approach with improved computational efficiency and empirically demonstrate its effectiveness.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-03
# OpenToM:大規模言語モデルの理論推論能力評価のための総合ベンチマーク

OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models ( http://arxiv.org/abs/2402.06044v3 )

ライセンス: Link先を確認
Hainiu Xu, Runcong Zhao, Lixing Zhu, Jinhua Du, Yulan He, (参考訳) N-ToM(Neural Theory-of-Mind)は、他者の精神状態を理解し、追跡する機械の能力である。 しかし、一般的なN-ToMベンチマークには、曖昧で人工的な物語の存在、性格の特徴や好みの欠如、キャラクターの精神的状態に対処する質問の欠如、質問の多様性の制限など、いくつかの欠点がある。 これらの問題に対応するために,(1)より長く明瞭な物語を持つN-ToMを評価するための新しいベンチマークであるOpenToMを構築し,(2)明示的な性格特性を持つキャラクター,(3)キャラクタ意図によって引き起こされる行動,(4)物理的・心理的両世界のキャラクターの精神状態をモデル化するLLMの能力に挑戦するために設計された質問について述べる。 OpenToMを用いて,身体世界における心的状態の特定の側面をモデル化する上で最先端のLLMが成長するが,心理世界における心的状態を追跡する際には不足することが明らかとなった。

Neural Theory-of-Mind (N-ToM), machine's ability to understand and keep track of the mental states of others, is pivotal in developing socially intelligent agents. However, prevalent N-ToM benchmarks have several shortcomings, including the presence of ambiguous and artificial narratives, absence of personality traits and preferences, a lack of questions addressing characters' psychological mental states, and limited diversity in the questions posed. In response to these issues, we construct OpenToM, a new benchmark for assessing N-ToM with (1) longer and clearer narrative stories, (2) characters with explicit personality traits, (3) actions that are triggered by character intentions, and (4) questions designed to challenge LLMs' capabilities of modeling characters' mental states of both the physical and psychological world. Using OpenToM, we reveal that state-of-the-art LLMs thrive at modeling certain aspects of mental states in the physical world but fall short when tracking characters' mental states in the psychological world.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-03
# 確率勾配Descenceの損失対称性とノイズ平衡

Loss Symmetry and Noise Equilibrium of Stochastic Gradient Descent ( http://arxiv.org/abs/2402.07193v2 )

ライセンス: Link先を確認
Liu Ziyin, Mingze Wang, Hongchao Li, Lei Wu, (参考訳) ニューラルネットワークの損失関数には、対称性が豊富に存在する。 連続対称性の幅広いサブクラスである指数対称性が損失関数の中に存在する場合、確率勾配降下(SGD)の学習力学を特徴付ける。 勾配雑音がバランスが取れない場合、SGDはモデルパラメータを異なる方向からのノイズがバランスの取れた地点へ移動させる傾向にあることを示す。 ここでは、損失関数の定数方向における特別な固定点が、SGDの解の候補として現れる。 主理論的な結果として、各パラメータ $\theta$ が損失関数障壁なしで一意な雑音バランスの固定点 $\theta^*$ に接続することが証明される。 この理論は、勾配ノイズのバランスが、プログレッシブ・シャープニングや平坦化のような関連する現象の新たな代替メカニズムとして機能し、表現正規化、行列分解、ウォームアップ、潜在表現の形成といった一般的な実践的問題を理解するために応用できることを示唆している。

Symmetries exist abundantly in the loss function of neural networks. We characterize the learning dynamics of stochastic gradient descent (SGD) when exponential symmetries, a broad subclass of continuous symmetries, exist in the loss function. We establish that when gradient noises do not balance, SGD has the tendency to move the model parameters toward a point where noises from different directions are balanced. Here, a special type of fixed point in the constant directions of the loss function emerges as a candidate for solutions for SGD. As the main theoretical result, we prove that every parameter $\theta$ connects without loss function barrier to a unique noise-balanced fixed point $\theta^*$. The theory implies that the balancing of gradient noise can serve as a novel alternative mechanism for relevant phenomena such as progressive sharpening and flattening and can be applied to understand common practical problems such as representation normalization, matrix factorization, warmup, and formation of latent representations.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-03
# CyberMetric: サイバーセキュリティ知識におけるLLM評価のための検索拡張生成に基づくベンチマークデータセット

CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs in Cybersecurity Knowledge ( http://arxiv.org/abs/2402.07688v2 )

ライセンス: Link先を確認
Norbert Tihanyi, Mohamed Amine Ferrag, Ridhi Jain, Tamas Bisztray, Merouane Debbah, (参考訳) 大規模言語モデル(LLM)は、ソフトウェア開発からサイバー脅威インテリジェンスまで、さまざまな領域で利用されている。 暗号、リバースエンジニアリング、リスクアセスメントなどのトピックを含む、サイバーセキュリティのさまざまな分野を理解することは、人間の専門家にとっても課題となる。 サイバーセキュリティにおけるLLMの一般的な知識を正確にテストするためには、研究コミュニティは多様で正確で最新のデータセットが必要である。 このギャップに対処するため,CyberMetric-80,CyberMetric-500,CyberMetric-2000,CyberMetric-10000を提示する。 GPT-3.5 と Retrieval-Augmented Generation (RAG) を利用して,NIST 標準,研究論文,公開書籍,RFC,その他のサイバーセキュリティ分野の出版物を収集し,それぞれ4つの可能な回答を得た。 結果は数ラウンドのエラーチェックと改善が行われた。 人間の専門家は200時間以上かけて、その正確さと関連性を確認し、サイバーセキュリティとは無関係な質問をフィルタリングするために、質問とソリューションの検証に費やした。 我々は、CyberMetricデータセット上で25の最先端LCMモデルを評価し、比較した。 LLMを評価することの第一目標に加えて、クローズドブックシナリオでCyberMetric-80を解決するために30人の参加者が参加しました。 この結果は、人間とLLMの一般的なサイバーセキュリティ知識を比較するための参考となる。 その結果, GPT-4o, GPT-4-turbo, Mixtral-8x7B-Instruct, Falcon-180B-Chat, GEMINI-pro 1.0が最も優れたLCMであることが判明した。 加えて、上位のLLMはCyberMetric-80の人間よりも精度が高かったが、経験豊富な人間の専門家はLlama-3-8B、Phi-2、Gemma-7bといった小型モデルよりも優れていた。

Large Language Models (LLMs) are increasingly used across various domains, from software development to cyber threat intelligence. Understanding all the different fields of cybersecurity, which includes topics such as cryptography, reverse engineering, and risk assessment, poses a challenge even for human experts. To accurately test the general knowledge of LLMs in cybersecurity, the research community needs a diverse, accurate, and up-to-date dataset. To address this gap, we present CyberMetric-80, CyberMetric-500, CyberMetric-2000, and CyberMetric-10000, which are multiple-choice Q&A benchmark datasets comprising 80, 500, 2000, and 10,000 questions respectively. By utilizing GPT-3.5 and Retrieval-Augmented Generation (RAG), we collected documents, including NIST standards, research papers, publicly accessible books, RFCs, and other publications in the cybersecurity domain, to generate questions, each with four possible answers. The results underwent several rounds of error checking and refinement. Human experts invested over 200 hours validating the questions and solutions to ensure their accuracy and relevance, and to filter out any questions unrelated to cybersecurity. We have evaluated and compared 25 state-of-the-art LLM models on the CyberMetric datasets. In addition to our primary goal of evaluating LLMs, we involved 30 human participants to solve CyberMetric-80 in a closed-book scenario. The results can serve as a reference for comparing the general cybersecurity knowledge of humans and LLMs. The findings revealed that GPT-4o, GPT-4-turbo, Mixtral-8x7B-Instruct, Falcon-180B-Chat, and GEMINI-pro 1.0 were the best-performing LLMs. Additionally, the top LLMs were more accurate than humans on CyberMetric-80, although highly experienced human experts still outperformed small models such as Llama-3-8B, Phi-2 or Gemma-7b.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-03
# フラクショナルフォッカー・プランク方程式による重機SDEの一般化境界

Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation ( http://arxiv.org/abs/2402.07723v2 )

ライセンス: Link先を確認
Benjamin Dupuis, Umut Şimşekli, (参考訳) 重み付き確率最適化アルゴリズムの一般化特性を理解することは、近年注目されている。 重み付き確率微分方程式をプロキシとして用いることで確率最適化の興味深い側面を照らす一方で、以前の研究は期待される一般化境界を提供したり、計算不可能な情報理論用語を導入したりした。 これらの欠点に対処するため、本研究では、非自明な情報理論用語を含まない重み付きSDEに対する高確率一般化境界を証明した。 この目的を達成するため、我々は、いわゆる分数的フォッカー・プランク方程式(対応する重み付きSDEの分布の進化を制御した偏微分方程式)に付随するエントロピーフローを推定した新しい証明手法を開発した。 高確率バウンダリを得るのに加えて、我々のバウンダリは、先行技術と比較してパラメータの次元により良い依存があることが示される。 以上の結果から,重尾は問題構造によって有益か有害かが示唆される相転移現象が明らかとなった。 我々は様々な環境で実施された実験で理論を支持している。

Understanding the generalization properties of heavy-tailed stochastic optimization algorithms has attracted increasing attention over the past years. While illuminating interesting aspects of stochastic optimizers by using heavy-tailed stochastic differential equations as proxies, prior works either provided expected generalization bounds, or introduced non-computable information theoretic terms. Addressing these drawbacks, in this work, we prove high-probability generalization bounds for heavy-tailed SDEs which do not contain any nontrivial information theoretic terms. To achieve this goal, we develop new proof techniques based on estimating the entropy flows associated with the so-called fractional Fokker-Planck equation (a partial differential equation that governs the evolution of the distribution of the corresponding heavy-tailed SDE). In addition to obtaining high-probability bounds, we show that our bounds have a better dependence on the dimension of parameters as compared to prior art. Our results further identify a phase transition phenomenon, which suggests that heavy tails can be either beneficial or harmful depending on the problem structure. We support our theory with experiments conducted in a variety of settings.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-03
# シュワルツシルトの時空における光子重力結合

Photon-Gravity Coupling in Schwarzschild Spacetime ( http://arxiv.org/abs/2402.07969v3 )

ライセンス: Link先を確認
Masoud Molaei, (参考訳) 曲面時空における量子電磁力学の正準形式性を開発した。 この形式主義はシュワルツシルト重力場における光子の体系的な研究を可能にし、新しい結果を得るとともに、ヒューリスティックな方法で予測された以前の結果を精査する。 重力赤方偏移はスペクトルの全ての周波数に対する光子の鋭い周波数の変化である」という主張が証明されている。 重力デコヒーレンスは、曲がった時空現象における光子-重力結合と観測者依存の量子電磁力学に起因することが示されている。 光子重力干渉法による相対位相シフトの適切な値が計算され、その完全な量子一般相対論的性質が示される。 その観測はニュートン重力の妥当性とアインシュタイン同値原理の1点を超える拡張(弱い一様重力場でさえも)を偽ることを示した。

A canonical formalism for quantum electrodynamics in curved spacetime is developed. This formalism enables a systematic investigation of photons in the Schwarzschild gravitational field, yielding novel results as well as refining previous results that were predicted by heuristic methods. The claim that "the gravitational redshift is a shift in the sharp frequencies of the photons for all frequencies of the spectrum" is proved. It is shown the gravitational decoherence is due to photon-gravity coupling and observer-dependent quantum electrodynamics in curved spacetime phenomena. The proper value of the photon gravitational interferometric relative phase shift is calculated and its full quantum-general relativistic nature is demonstrated. It is shown its observation will falsify the validity of Newtonian gravity and the extension of the Einstein equivalence principle beyond a single point (even in the weak uniform gravitational field.)
翻訳日:2024-06-04 18:53:33 公開日:2024-06-03
# 根拠に基づく質問応答のための忠実でロバストなLLMスペシャリストを目指して

Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering ( http://arxiv.org/abs/2402.08277v5 )

ライセンス: Link先を確認
Tobias Schimanski, Jingwei Ni, Mathias Kraus, Elliott Ash, Markus Leippold, (参考訳) 大規模言語モデル(LLM)のより忠実でトレーサブルな回答への進歩は、様々な研究や実践に不可欠である。 この目標を達成するための道の1つは、信頼できる情報源の回答を基礎づけることである。 しかしながら、このエビデンスに基づくQAは、正しいソース(ソースの品質)を引用し、情報源(属性)内の情報を真に表現するという点で、LLMと不十分に機能することが証明されている。 本研究では,より優れたソース品質と応答帰属性を実現するために,LLMを頑健に微調整する方法を体系的に検討する。 具体的には、自動データ品質フィルタを備えたデータ生成パイプラインを導入し、多様な高品質なトレーニングおよびテストデータを大規模に合成する。 さらに、細調整されたスペシャリストモデルの堅牢性を評価するために、4つのテストセットを導入します。 総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。 さらに,提案した品質フィルタによって大幅に改善できるデータ品質が,証拠ベースQAの改善に重要であることを示す。

Advances towards more faithful and traceable answers of Large Language Models (LLMs) are crucial for various research and practical endeavors. One avenue in reaching this goal is basing the answers on reliable sources. However, this Evidence-Based QA has proven to work insufficiently with LLMs in terms of citing the correct sources (source quality) and truthfully representing the information within sources (answer attributability). In this work, we systematically investigate how to robustly fine-tune LLMs for better source quality and answer attributability. Specifically, we introduce a data generation pipeline with automated data quality filters, which can synthesize diversified high-quality training and testing data at scale. We further introduce four test sets to benchmark the robustness of fine-tuned specialist models. Extensive evaluation shows that fine-tuning on synthetic data improves performance on both in- and out-of-distribution. Furthermore, we show that data quality, which can be drastically improved by proposed quality filters, matters more than quantity in improving Evidence-Based QA.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# エージェントSmith:マルチモーダルのLLMエージェントを1枚1枚で脱獄できる

Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast ( http://arxiv.org/abs/2402.08567v2 )

ライセンス: Link先を確認
Xiangming Gu, Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Ye Wang, Jing Jiang, Min Lin, (参考訳) マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。 それでも、赤チームの努力は、敵対的な画像やプロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こす可能性があることを明らかにしている。 本研究では,感染性ジェイルブレイクと呼ばれるマルチエージェント環境において,さらに深刻な安全性上の問題について報告する。 敵はただ一つのエージェントをジェイルブレイクするだけで、敵の介入なしに、(ほとんど)全てのエージェントが指数関数的に感染し、有害な振る舞いを示す。 感染性ジェイルブレイクの可能性を検証するため、最大100万LLaVA-1.5エージェントを含むマルチエージェント環境をシミュレートし、マルチエージェントインタラクションのための概念実証の手段としてランダム化されたペアワイズチャットを用いる。 その結果, ランダムに選択したエージェントのメモリに(感染した)敵画像を送り込むことで, 感染性ジェイルブレイクを実現するのに十分であることがわかった。 最後に, 防犯機構が感染性ジェイルブレイクの拡散を確実に抑制できるかどうかを決定するための簡単な原理を導出する。 私たちのプロジェクトページはhttps://sail-sg.github.io/Agent-Smith/で公開されています。

A multimodal large language model (MLLM) agent can receive instructions, capture images, retrieve histories from memory, and decide which tools to use. Nonetheless, red-teaming efforts have revealed that adversarial images/prompts can jailbreak an MLLM and cause unaligned behaviors. In this work, we report an even more severe safety issue in multi-agent environments, referred to as infectious jailbreak. It entails the adversary simply jailbreaking a single agent, and without any further intervention from the adversary, (almost) all agents will become infected exponentially fast and exhibit harmful behaviors. To validate the feasibility of infectious jailbreak, we simulate multi-agent environments containing up to one million LLaVA-1.5 agents, and employ randomized pair-wise chat as a proof-of-concept instantiation for multi-agent interaction. Our results show that feeding an (infectious) adversarial image into the memory of any randomly chosen agent is sufficient to achieve infectious jailbreak. Finally, we derive a simple principle for determining whether a defense mechanism can provably restrain the spread of infectious jailbreak, but how to design a practical defense that meets this principle remains an open question to investigate. Our project page is available at https://sail-sg.github.io/Agent-Smith/.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# 因果説明のための2段階摂動試験による必要十分性および十分性に寄与する特徴

Feature Attribution with Necessity and Sufficiency via Dual-stage Perturbation Test for Causal Explanation ( http://arxiv.org/abs/2402.08845v3 )

ライセンス: Link先を確認
Xuexin Chen, Ruichu Cai, Zhengting Huang, Yuxuan Zhu, Julien Horwood, Zhifeng Hao, Zijian Li, Jose Miguel Hernandez-Lobato, (参考訳) 本稿では,摂動テストによる特徴量評価を行うFAM(Feature Attribution Methods)に着目し,機械学習モデルの説明可能性の問題について検討する。 実用性にも拘わらず、FAMは摂動後の予測変化が類似している場合、異なる特徴の貢献を区別するのに苦労する。 本研究では,FAMの識別能力を高めるために,FANS(Feature Attribution with Necessity and Sufficiency)を導入し,この領域内の摂動サンプルが,予測の変化の原因となる必要十分かつ十分である確率が高く,このPNSを特徴の重要性として利用する。 具体的には、FANSは、近隣を推定するためのヒューリスティックな戦略と、2段階(現実的および介入的)の対実的推論を含む摂動テストを通じて、このPNSを計算している。 対物サンプルを生成するために, 観測試料に対する再サンプリングに基づくアプローチを用いて, 必要な条件分布を近似する。 FANSは6つのベンチマークで既存の属性法よりも優れていることを示す。 ソースコードは \url{https://github.com/DMIRLAB-Group/FANS} で参照してください。

We investigate the problem of explainability for machine learning models, focusing on Feature Attribution Methods (FAMs) that evaluate feature importance through perturbation tests. Despite their utility, FAMs struggle to distinguish the contributions of different features, when their prediction changes are similar after perturbation. To enhance FAMs' discriminative power, we introduce Feature Attribution with Necessity and Sufficiency (FANS), which find a neighborhood of the input such that perturbing samples within this neighborhood have a high Probability of being Necessity and Sufficiency (PNS) cause for the change in predictions, and use this PNS as the importance of the feature. Specifically, FANS compute this PNS via a heuristic strategy for estimating the neighborhood and a perturbation test involving two stages (factual and interventional) for counterfactual reasoning. To generate counterfactual samples, we use a resampling-based approach on the observed samples to approximate the required conditional distribution. We demonstrate that FANS outperforms existing attribution methods on six benchmarks. Please refer to the source code via \url{https://github.com/DMIRLAB-Group/FANS}.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# HyCubE: 効率的な知識ハイパーグラフ3D循環型畳み込み

HyCubE: Efficient Knowledge Hypergraph 3D Circular Convolutional Embedding ( http://arxiv.org/abs/2402.08961v2 )

ライセンス: Link先を確認
Zhao Li, Xin Wang, Jun Zhao, Wenbin Guo, Jianxin Li, (参考訳) 知識ハイパーグラフ埋め込みモデルは通常、固有の複雑な意味情報のために計算コストがかかる。 しかし、既存の研究は主に知識ハイパーグラフの埋め込みの有効性の改善に重点を置いており、モデルアーキテクチャをより複雑で冗長なものにしている。 モデルの有効性と効率のトレードオフに達するためには、知識ハイパーグラフの埋め込みが望ましいし、難しい。 本稿では,新しい3次元円形畳み込みニューラルネットワークとマスクスタック戦略を設計し,特徴情報の相互作用と抽出を包括的に促進する,エンドツーエンドに効率的なn-ary知識ハイパーグラフ埋め込みモデルHyCubEを提案する。 さらに,本モデルでは, 3次元円形畳み込み層構造を適応的に調整し, パラメータの少ないアリティ知識ハイパーグラフを処理することにより, 有効性と効率のトレードオフを向上する。 さらに、エンティティマスク機構に基づく1-Nマルチ線形スコアリングを用いて、モデルのトレーニング効率をさらに向上する。 最後に、すべてのデータセットに対する広範な実験結果から、提案したモデルは、平均7.30%-9.53%、最大33.82%の改善により、最先端のベースラインを一貫して上回ることを示した。 一方、HyCubEは4.12倍速く、GPUメモリ使用量は52.19%減少し、最新の最先端ベースラインの平均値と比較してパラメータの数は85.21%減少する。

Knowledge hypergraph embedding models are usually computationally expensive due to the inherent complex semantic information. However, existing works mainly focus on improving the effectiveness of knowledge hypergraph embedding, making the model architecture more complex and redundant. It is desirable and challenging for knowledge hypergraph embedding to reach a trade-off between model effectiveness and efficiency. In this paper, we propose an end-to-end efficient n-ary knowledge hypergraph embedding model, HyCubE, which designs a novel 3D circular convolutional neural network and the alternate mask stack strategy to enhance the interaction and extraction of feature information comprehensively. Furthermore, our proposed model achieves a better trade-off between effectiveness and efficiency by adaptively adjusting the 3D circular convolutional layer structure to handle different arity knowledge hypergraphs with fewer parameters. In addition, we use 1-N multilinear scoring based on the entity mask mechanism to further accelerate the model training efficiency. Finally, extensive experimental results on all datasets demonstrate that our proposed model consistently outperforms state-of-the-art baselines, with an average improvement of 7.30%-9.53% and a maximum improvement of 33.82% across all metrics. Meanwhile, HyCubE is 4.12x faster, GPU memory usage is 52.19% lower, and the number of parameters is reduced by 85.21% compared with the average metric of the latest state-of-the-art baselines.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# SyntaxShap: テキスト生成のための構文認識説明可能性法

SyntaxShap: Syntax-aware Explainability Method for Text Generation ( http://arxiv.org/abs/2402.09259v2 )

ライセンス: Link先を確認
Kenza Amara, Rita Sevastjanova, Mennatallah El-Assady, (参考訳) 安全クリティカルドメインにおける大規模言語モデルのパワーを活用するためには、それらの予測の説明可能性を確保する必要がある。 しかし、モデル解釈可能性に大きな注意を払っているにもかかわらず、テキストデータに適した手法を用いてシーケンス・ツー・シーケンスのタスクを説明する際には、まだ探索されていない領域が残っている。 本稿では,テキストデータの構文を考慮した局所的モデルに依存しないテキスト生成法であるSyntaxShapを紹介する。 提案された作業は、解析ベースの構文依存を考慮に入れたShapley値を拡張する。 SyntaxShapはゲーム理論のアプローチを採用し、依存性ツリーによって制約される連立性のみを考慮する。 我々は,SyntaxShapとその重み付け形式を,テキスト生成タスクに適応した最先端の説明可能性手法と比較するために,モデルに基づく評価を採用する。 本手法は,自己回帰モデルによる予測に対するより忠実で一貫性のある説明を構築する上で有効であることを示す。 本稿では、人間とAIモデル推論の不整合と相まって、説明可能なAIにおける慎重な評価戦略の必要性を強調した。

To harness the power of large language models in safety-critical domains, we need to ensure the explainability of their predictions. However, despite the significant attention to model interpretability, there remains an unexplored domain in explaining sequence-to-sequence tasks using methods tailored for textual data. This paper introduces SyntaxShap, a local, model-agnostic explainability method for text generation that takes into consideration the syntax in the text data. The presented work extends Shapley values to account for parsing-based syntactic dependencies. Taking a game theoric approach, SyntaxShap only considers coalitions constraint by the dependency tree. We adopt a model-based evaluation to compare SyntaxShap and its weighted form to state-of-the-art explainability methods adapted to text generation tasks, using diverse metrics including faithfulness, coherency, and semantic alignment of the explanations to the model. We show that our syntax-aware method produces explanations that help build more faithful and coherent explanations for predictions by autoregressive models. Confronted with the misalignment of human and AI model reasoning, this paper also highlights the need for cautious evaluation strategies in explainable AI.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# DoRA:重量分解低ランク適応

DoRA: Weight-Decomposed Low-Rank Adaptation ( http://arxiv.org/abs/2402.09353v5 )

ライセンス: Link先を確認
Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen, (参考訳) 広く使われているパラメータ効率の微調整(PEFT)手法の中で、LoRAとその変種は追加の推論コストを避けるためにかなりの人気を得ている。 しかし、これらの手法とフル微調整(FT)の間には精度のギャップがまだ残っている。 そこで本研究では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。 本研究は,FTの学習能力に類似して,重み分解型低ランク適応(DoRA)を提案する。 DoRAは、トレーニング済みの重量を2つのコンポーネント、マグニチュードと方向に分解して微調整し、特に、トレーニング可能なパラメータの数を効率的に最小化するために、方向更新にLoRAを使用している。 ここでは,LoRAの学習能力とトレーニング安定性を両立させながら,追加の推論オーバーヘッドを回避した。 微調整のLLaMA、LLaVA、VL-BARTでは、コモンセンス推論、ビジュアルインストラクションチューニング、画像/ビデオテキスト理解など、様々なダウンストリームタスクでLoRAを一貫して上回ります。 コードはhttps://github.com/NVlabs/DoRA.comで入手できる。

Among the widely used parameter-efficient fine-tuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full fine-tuning (FT). In this work, we first introduce a novel weight decomposition analysis to investigate the inherent differences between FT and LoRA. Aiming to resemble the learning capacity of FT from the findings, we propose Weight-Decomposed Low-Rank Adaptation (DoRA). DoRA decomposes the pre-trained weight into two components, magnitude and direction, for fine-tuning, specifically employing LoRA for directional updates to efficiently minimize the number of trainable parameters. By employing \ours, we enhance both the learning capacity and training stability of LoRA while avoiding any additional inference overhead. \ours~consistently outperforms LoRA on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as commonsense reasoning, visual instruction tuning, and image/video-text understanding. Code is available at https://github.com/NVlabs/DoRA.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# iMove: フィットネスアクティビティ認識のためのバイオインダプタンスセンシング

iMove: Exploring Bio-impedance Sensing for Fitness Activity Recognition ( http://arxiv.org/abs/2402.09445v2 )

ライセンス: Link先を確認
Mengxi Liu, Vitor Fortes Rey, Yu Zhang, Lala Shakti Swarup Ray, Bo Zhou, Paul Lukowicz, (参考訳) 自動的かつ正確なフィットネスアクティビティ認識は、健康的なライフスタイルの促進からパーソナライズされた予防医療まで、面で有益である。 IMUは、現在、iMoveを通じて、バイオインダクタンスによって、センサフュージョンとコントラストラーニングによるIMUベースのフィットネストラッキングを改善することができるが、我々の方法を評価するために、両手首のバイオインダクタンスと左手首のIMUのバイオインダクタンスから同期データを収集するために、5日間にわたって10人の被験者による上半身フィットネス活動を含む実験を行った。 また,生体インピーダンスだけでは,平均マクロF1スコアが75.36 %であり,IMU単独でより優れていても,平均マクロF1スコアが89.57 %(トレーニングと推論の両方に必要な2つのモダリティ)に達することにより,生体インピーダンスがヒトの行動認識(HAR)を直接改善できることを示す。 さらに,本研究のアプローチの汎用性を示すとともに,低体力度活動分類に関する拡張研究においても同様の結果が得られた。我々の研究は,センサフュージョンとコントラスト学習が,IMU系システムの能力増強に重要な役割を担っているとともに,フィットネス活動認識を向上するための貴重なツールとしての可能性を示している。

Automatic and precise fitness activity recognition can be beneficial in aspects from promoting a healthy lifestyle to personalized preventative healthcare. While IMUs are currently the prominent fitness tracking modality, through iMove, we show bio-impedence can help improve IMU-based fitness tracking through sensor fusion and contrastive learning.To evaluate our methods, we conducted an experiment including six upper body fitness activities performed by ten subjects over five days to collect synchronized data from bio-impedance across two wrists and IMU on the left wrist.The contrastive learning framework uses the two modalities to train a better IMU-only classification model, where bio-impedance is only required at the training phase, by which the average Macro F1 score with the input of a single IMU was improved by 3.22 \% reaching 84.71 \% compared to the 81.49 \% of the IMU baseline model. We have also shown how bio-impedance can improve human activity recognition (HAR) directly through sensor fusion, reaching an average Macro F1 score of 89.57 \% (two modalities required for both training and inference) even if Bio-impedance alone has an average macro F1 score of 75.36 \%, which is outperformed by IMU alone. In addition, similar results were obtained in an extended study on lower body fitness activity classification, demonstrating the generalisability of our approach.Our findings underscore the potential of sensor fusion and contrastive learning as valuable tools for advancing fitness activity recognition, with bio-impedance playing a pivotal role in augmenting the capabilities of IMU-based systems.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# 表現外科:アフィンステアリングの理論と実践

Representation Surgery: Theory and Practice of Affine Steering ( http://arxiv.org/abs/2402.09631v3 )

ライセンス: Link先を確認
Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan Cotterell, Ponnurangam Kumaraguru, (参考訳) 言語モデルは、しばしば好ましくない振る舞いを示し、例えば、有毒または性別に偏ったテキストを生成する。 ニューラルネットワークモデルの場合、望ましくない振る舞いの符号化がモデルの表現にしばしば存在する。 したがって、モデルが望ましくない振る舞いを示すのを防ぐ自然な(そして一般的な)アプローチは、望ましくないテキストを生成する確率を減らす方法でモデルの表現を操ることである。 本稿では、ステアリング関数の形式的および経験的特性、すなわち、その振る舞いを変えるニューラルネットワークモデルの表現の変換について検討する。 まず、最小二乗の意味で、異なる制約の下でのアフィンステアリング関数を最適に2つ導き出す。 我々の理論は既存のアプローチを正当化し、新しく改良されたステアリングアプローチを提供する。 第2に、偏りを緩和し、毒性の発生を減らす方法の実証的な効果を実証する一連の実験を提供する。

Language models often exhibit undesirable behavior, e.g., generating toxic or gender-biased text. In the case of neural language models, an encoding of the undesirable behavior is often present in the model's representations. Thus, one natural (and common) approach to prevent the model from exhibiting undesirable behavior is to steer the model's representations in a manner that reduces the probability of it generating undesirable text. This paper investigates the formal and empirical properties of steering functions, i.e., transformation of the neural language model's representations that alter its behavior. First, we derive two optimal, in the least-squares sense, affine steering functions under different constraints. Our theory provides justification for existing approaches and offers a novel, improved steering approach. Second, we offer a series of experiments that demonstrate the empirical effectiveness of the methods in mitigating bias and reducing toxic generation.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# ECEはどんな欠陥があるのか? ログの平滑化による分析

How Flawed Is ECE? An Analysis via Logit Smoothing ( http://arxiv.org/abs/2402.10046v2 )

ライセンス: Link先を確認
Muthu Chidambaram, Holden Lee, Colin McSwiggen, Semon Rezchikov, (参考訳) 形式的には、モデルがその予測が正しければ、その予測の信頼性に一致する確率で校正される。 キャリブレーション測定の文献で最も一般的な方法は、期待キャリブレーション誤差(ECE)である。 しかし、最近の研究は、予測器の空間において不連続であるという事実など、ECEの欠点を指摘した。 この作業では、これらの問題はどの程度根本的であり、既存の結果にどのような影響があるのか? この目的に向けて、ポーランド空間上の一般的な確率測度に関して、ECEの不連続性を完全に特徴づける。 次に、これらの不連続性の性質を用いて、ロジット・スムースドECE(LS-ECE)と呼ばれる、新しい連続的、容易に推定される誤校正指標を動機付ける。 予め訓練した画像分類モデルのECEとLS-ECEを比較することで、ECEを結合したECEがLS-ECEを密に追跡する実験を行い、ECEの理論的病理が実際は避けられることを示した。

Informally, a model is calibrated if its predictions are correct with a probability that matches the confidence of the prediction. By far the most common method in the literature for measuring calibration is the expected calibration error (ECE). Recent work, however, has pointed out drawbacks of ECE, such as the fact that it is discontinuous in the space of predictors. In this work, we ask: how fundamental are these issues, and what are their impacts on existing results? Towards this end, we completely characterize the discontinuities of ECE with respect to general probability measures on Polish spaces. We then use the nature of these discontinuities to motivate a novel continuous, easily estimated miscalibration metric, which we term Logit-Smoothed ECE (LS-ECE). By comparing the ECE and LS-ECE of pre-trained image classification models, we show in initial experiments that binned ECE closely tracks LS-ECE, indicating that the theoretical pathologies of ECE may be avoidable in practice.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# MIM-Refiner: 中間的事前学習表現からのコントラスト学習促進

MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations ( http://arxiv.org/abs/2402.10093v2 )

ライセンス: Link先を確認
Benedikt Alkin, Lukas Miklautz, Sepp Hochreiter, Johannes Brandstetter, (参考訳) 我々は,MIMモデルに対するコントラスト学習強化であるMIM-Refinerを紹介する。 MIM-Refinerは、MIMモデル内の強い表現が一般的に中間層に存在するという洞察に動機づけられている。 そのため、MIM-Refinerは異なる中間層に接続された複数のコントラストヘッドを利用する。 各ヘッドでは、修正された近接オブジェクトがセマンティッククラスタを構成し、セマンティック情報をキャプチャして、オフザシェルフや微調整設定など、下流タスクのパフォーマンスを改善する。 精製プロセスは短くてシンプルですが、非常に効果的です。 数世紀以内に、MIMモデルの機能をサブパーから最先端のオフザシェルフ機能まで洗練します。 ImageNet-1KでData2vec 2.0で事前トレーニングされたViT-Hの精製は、リニアプローブ(84.7%)の新たな最先端と、ImageNet-1Kで事前トレーニングされたモデルのローショット分類を規定する。 ImageNet-1Kの1ショット分類では、MIM-Refinerは最先端の64.2%に進化し、DINOv2-g、OpenCLIP-G、MAWS-6.5Bなどの2000倍のデータでトレーニングされたより大きなモデルよりも優れている。

We introduce MIM (Masked Image Modeling)-Refiner, a contrastive learning boost for pre-trained MIM models. MIM-Refiner is motivated by the insight that strong representations within MIM models generally reside in intermediate layers. Accordingly, MIM-Refiner leverages multiple contrastive heads that are connected to different intermediate layers. In each head, a modified nearest neighbor objective constructs semantic clusters that capture semantic information which improves performance on downstream tasks, including off-the-shelf and fine-tuning settings. The refinement process is short and simple - yet highly effective. Within a few epochs, we refine the features of MIM models from subpar to state-of-the-art, off-the-shelf features. Refining a ViT-H, pre-trained with data2vec 2.0 on ImageNet-1K, sets a new state-of-the-art in linear probing (84.7%) and low-shot classification among models that are pre-trained on ImageNet-1K. At ImageNet-1K 1-shot classification, MIM-Refiner advances the state-of-the-art to 64.2%, outperforming larger models that were trained on up to 2000 times more data such as DINOv2-g, OpenCLIP-G and MAWS-6.5B.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# SAMformer:シャープネス認識最小化とチャネルワイズ注意による時系列予測におけるトランスフォーマーの可能性の解錠

SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention ( http://arxiv.org/abs/2402.10198v3 )

ライセンス: Link先を確認
Romain Ilbert, Ambroise Odonnat, Vasilii Feofanov, Aladin Virmaux, Giuseppe Paolo, Themis Palpanas, Ievgen Redko, (参考訳) トランスフォーマーベースのアーキテクチャは自然言語処理とコンピュータビジョンにおいて画期的な性能を達成したが、多変量長期予測において単純な線形ベースラインよりも劣っている。 この現象をよりよく理解するために、我々は、高い表現力にもかかわらずトランスフォーマーが真の解に収束できないことを示すような、おもちゃの線形予測問題の研究から始める。 我々はさらに、変換器の注意を、この低一般化能力の責任とみなす。 この知見に基づいて、シャープネスを意識した最適化で最適化した場合に、悪質な局所最小値から逃れることのできる、浅い軽量トランスフォーマーモデルを提案する。 実世界の多変量時系列データセットのすべてにこの結果が拡張されることを実証的に実証した。 特にSAMformerは現在の最先端メソッドを超え、最大の基盤モデルであるMOIRAIと同等であり、パラメータは大幅に少ない。 コードはhttps://github.com/romilbert/samformer.comで公開されている。

Transformer-based architectures achieved breakthrough performance in natural language processing and computer vision, yet they remain inferior to simpler linear baselines in multivariate long-term forecasting. To better understand this phenomenon, we start by studying a toy linear forecasting problem for which we show that transformers are incapable of converging to their true solution despite their high expressive power. We further identify the attention of transformers as being responsible for this low generalization capacity. Building upon this insight, we propose a shallow lightweight transformer model that successfully escapes bad local minima when optimized with sharpness-aware optimization. We empirically demonstrate that this result extends to all commonly used real-world multivariate time series datasets. In particular, SAMformer surpasses current state-of-the-art methods and is on par with the biggest foundation model MOIRAI while having significantly fewer parameters. The code is available at https://github.com/romilbert/samformer.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# 時空間ダウンサンプリングによる欠測データを用いたグラフベース予測

Graph-based Forecasting with Missing Data through Spatiotemporal Downsampling ( http://arxiv.org/abs/2402.10634v2 )

ライセンス: Link先を確認
Ivan Marisca, Cesare Alippi, Filippo Maria Bianchi, (参考訳) 空間におけるセンサポイントに関連付けられ、シリーズ間関係を特徴とする同期時系列の集合が与えられた場合、時空間予測の問題は各点の将来の観測を予測することからなる。 時空間グラフニューラルネットワークは、時系列間の関係をグラフとして表現することにより、顕著な結果を達成する。 それでも、既存のほとんどのメソッドは、入力が常に利用可能であり、データの一部が欠落しているときに隠された時空間的ダイナミクスを捕捉できないという、しばしば非現実的な仮定に依存している。 本研究では,階層的な時空間ダウンサンプリングによってこの問題に対処する。 入力時系列は時間と空間によって徐々に粗くなり、不均一な時間的・空間的ダイナミクスを捉える表現のプールが得られる。 観測と欠落したデータパターンに基づいて、このような表現を解釈可能な注意機構で組み合わせて予測を生成する。 提案手法は,異なるデータ分布,特に欠落した値の連続ブロックの存在下で,合成および実世界のベンチマークにおける最先端の手法よりも優れる。

Given a set of synchronous time series, each associated with a sensor-point in space and characterized by inter-series relationships, the problem of spatiotemporal forecasting consists of predicting future observations for each point. Spatiotemporal graph neural networks achieve striking results by representing the relationships across time series as a graph. Nonetheless, most existing methods rely on the often unrealistic assumption that inputs are always available and fail to capture hidden spatiotemporal dynamics when part of the data is missing. In this work, we tackle this problem through hierarchical spatiotemporal downsampling. The input time series are progressively coarsened over time and space, obtaining a pool of representations that capture heterogeneous temporal and spatial dynamics. Conditioned on observations and missing data patterns, such representations are combined by an interpretable attention mechanism to generate the forecasts. Our approach outperforms state-of-the-art methods on synthetic and real-world benchmarks under different missing data distributions, particularly in the presence of contiguous blocks of missing values.
翻訳日:2024-06-04 18:43:36 公開日:2024-06-03
# BioFusionNet:多機能・多モードデータ融合によるER+乳癌の深層学習による生存リスク階層化

BioFusionNet: Deep Learning-Based Survival Risk Stratification in ER+ Breast Cancer Through Multifeature and Multimodal Data Fusion ( http://arxiv.org/abs/2402.10717v2 )

ライセンス: Link先を確認
Raktim Kumar Mondol, Ewan K. A. Millar, Arcot Sowmya, Erik Meijering, (参考訳) 乳がんは世界中で何百万人もの女性に影響を及ぼす重要な健康上の問題である。 正確な生存リスク階層化は、パーソナライズされた治療決定を導き、患者の成果を改善する上で重要な役割を担っている。 ここでは,ER+乳癌患者の生存リスク階層化を実現するために,画像由来の特徴を遺伝子・臨床データと融合した深層学習フレームワークであるBioFusionNetを提案する。 我々は,病理組織学的パッチに予め訓練された複数の自己監督的特徴抽出器(DINO,MoCoV3)を用いて,詳細な画像特徴を捉える。 これらの機能は、変分オートエンコーダによって融合され、患者レベルの特徴を生成する自己注意ネットワークに送られる。 コダール・クロス・アテンションのメカニズムは、病理組織学的特徴と遺伝データを組み合わせることで、モデルがそれらの間の相互作用をキャプチャすることを可能にする。 さらに、フィードフォワードネットワークを用いて臨床データを取り込み、予測性能をさらに向上し、総合的なマルチモーダル機能統合を実現する。 さらに,不均衡な生存データを扱うために特別に設計された重み付きコックス損失関数を導入する。 本モデルでは, 平均一致率0.77, 曲線0.84の時間依存領域を達成し, 最先端の手法より優れていた。 単変量解析(HR=2.99, 95% CI: 1.88--4.78, p<0.005)において、リスク(高い対低い)を予測し、標準臨床病理学的変数(HR=2.91, 95\% CI: 1.80--4.68, p<0.005)を取り入れた多変量解析において独立した重要性を維持する。

Breast cancer is a significant health concern affecting millions of women worldwide. Accurate survival risk stratification plays a crucial role in guiding personalised treatment decisions and improving patient outcomes. Here we present BioFusionNet, a deep learning framework that fuses image-derived features with genetic and clinical data to obtain a holistic profile and achieve survival risk stratification of ER+ breast cancer patients. We employ multiple self-supervised feature extractors (DINO and MoCoV3) pretrained on histopathological patches to capture detailed image features. These features are then fused by a variational autoencoder and fed to a self-attention network generating patient-level features. A co-dual-cross-attention mechanism combines the histopathological features with genetic data, enabling the model to capture the interplay between them. Additionally, clinical data is incorporated using a feed-forward network, further enhancing predictive performance and achieving comprehensive multimodal feature integration. Furthermore, we introduce a weighted Cox loss function, specifically designed to handle imbalanced survival data, which is a common challenge. Our model achieves a mean concordance index of 0.77 and a time-dependent area under the curve of 0.84, outperforming state-of-the-art methods. It predicts risk (high versus low) with prognostic significance for overall survival in univariate analysis (HR=2.99, 95% CI: 1.88--4.78, p<0.005), and maintains independent significance in multivariate analysis incorporating standard clinicopathological variables (HR=2.91, 95\% CI: 1.80--4.68, p<0.005).
翻訳日:2024-06-04 18:33:51 公開日:2024-06-03
# II-MMR:視覚質問応答におけるマルチモーダルマルチホップ推論の同定と改善

II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering ( http://arxiv.org/abs/2402.11058v3 )

ライセンス: Link先を確認
Jihyung Kil, Farideh Tavazoee, Dongyeop Kang, Joo-Kyung Kim, (参考訳) VQA(Visual Question Answering)は、視覚と言語(V&L)にまたがる様々な推論シナリオを含むことが多い。 しかしながら、以前のVQA研究のほとんどは、異なる推論ケースで評価することなく、モデル全体の精度を評価することにのみ焦点を絞っている。 さらに、いくつかの最近の研究は、特にマルチホップ推論を必要とする複雑なシナリオにおいて、従来のCoT(Chain-of-Thought)がVQAに対して効果的な推論を起こさないことを観察している。 本稿では,VQAにおけるマルチモーダルマルチホップ推論を識別・改善するための新しいアイデアであるII-MMRを提案する。 具体的には、II-MMRは画像でVQA質問を受け取り、2つの新しい言語プロンプトを使って答えに到達する理由を見つける。 一 予測誘導CoTプロンプトの回答 (二 知識三重化指示書 II-MMRはこの経路を分析して、現在のVQAベンチマークで異なる推論ケースを特定する。 GQA や A-OKVQA などの一般的なベンチマークでは、II-MMR は VQA のほとんどの質問は答えが簡単であり、単に "シングルホップ" の推論を要求する。 さらに,最近のV&Lモデルでは,従来のCoT法でも複雑なマルチホップ推論問題に苦慮しているが,II-MMRは,ゼロショットと微調整の両方ですべての推論ケースで有効性を示す。

Visual Question Answering (VQA) often involves diverse reasoning scenarios across Vision and Language (V&L). Most prior VQA studies, however, have merely focused on assessing the model's overall accuracy without evaluating it on different reasoning cases. Furthermore, some recent works observe that conventional Chain-of-Thought (CoT) prompting fails to generate effective reasoning for VQA, especially for complex scenarios requiring multi-hop reasoning. In this paper, we propose II-MMR, a novel idea to identify and improve multi-modal multi-hop reasoning in VQA. In specific, II-MMR takes a VQA question with an image and finds a reasoning path to reach its answer using two novel language promptings: (i) answer prediction-guided CoT prompt, or (ii) knowledge triplet-guided prompt. II-MMR then analyzes this path to identify different reasoning cases in current VQA benchmarks by estimating how many hops and what types (i.e., visual or beyond-visual) of reasoning are required to answer the question. On popular benchmarks including GQA and A-OKVQA, II-MMR observes that most of their VQA questions are easy to answer, simply demanding "single-hop" reasoning, whereas only a few questions require "multi-hop" reasoning. Moreover, while the recent V&L model struggles with such complex multi-hop reasoning questions even using the traditional CoT method, II-MMR shows its effectiveness across all reasoning cases in both zero-shot and fine-tuning settings.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-03
# 標準微調整によるモデル編集

Model Editing by Standard Fine-Tuning ( http://arxiv.org/abs/2402.11078v3 )

ライセンス: Link先を確認
Govind Gangadhar, Karl Stratos, (参考訳) 標準的な微調整は、比較的低い性能のため、モデル編集の特殊な方法ほど効果的ではないと考えられている。 しかし、編集されるモデルのアーキテクチャの詳細に従わず、追加の作業(例えば、計算効率のブラックボックスPEFT)を伴わずに標準訓練技術の進歩を活用できるため、モデルエディターにとって魅力的な選択である。 本研究では,標準的な微調整だけで2つの小さな修正を加えて,競争力のあるモデル編集性能が得られることを示す。 まず、全確率ではなく条件付き確率を最適化する。 第二に、ランダムに言い換えられた編集プロンプトの訓練が一般化を促進するのに加え、ランダムまたは類似の未編集事実を訓練して局所性を奨励する。 ZsREおよびCounterFactデータセットに対する実験により、これらの単純な修正により、編集スコアの点から、標準の微調整が高度に専門化されたエディタに適合または優れることを示す。

Standard fine-tuning is considered not as effective as specialized methods for model editing due to its comparatively poor performance. However, it is simple, agnostic to the architectural details of the model being edited, and able to leverage advances in standard training techniques with no additional work (e.g., black-box PEFT for computational efficiency), making it an appealing choice for a model editor. In this work, we show that standard fine-tuning alone can yield competitive model editing performance with two minor modifications. First, we optimize the conditional likelihood rather than the full likelihood. Second, in addition to the typical practice of training on randomly paraphrased edit prompts to encourage generalization, we also train on random or similar unedited facts to encourage locality. Our experiments on the ZsRE and CounterFact datasets demonstrate that these simple modifications allow standard fine-tuning to match or outperform highly specialized editors in terms of edit score.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-03
# 大規模マルチモーダルモデルで画像の奥深くのセマンティックスを発見できるのか?

Can Large Multimodal Models Uncover Deep Semantics Behind Images? ( http://arxiv.org/abs/2402.11281v2 )

ライセンス: Link先を確認
Yixin Yang, Zheng Li, Qingxiu Dong, Heming Xia, Zhifang Sui, (参考訳) 画像の深い意味を理解することは、ソーシャルメディアが支配する時代において不可欠である。 しかし、現在の研究は主に表面的な画像の記述に焦点を当てており、本質的な深い意味論の体系的な研究において顕著な欠如が明らかになっている。 本研究では,視覚深層セマンティクスの大規模マルチモーダルモデル(LMM)能力を評価するための総合的なベンチマークであるDEEPEVALを紹介する。 DEEPEVALには、人間の注釈付きデータセットと、3つのプログレッシブサブタスクが含まれている。 DEEPEVALを用いて,9つのオープンソースLMMとGPT-4V(ision)を評価した。 本評価は,既存のLMMと人間との深い意味理解能力の差を顕著に示すものである。 例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。 さらに分析した結果,DeEPEVALにおけるLMMの性能は,探索された深い意味論の特定の側面によって異なることが明らかとなり,LMMの開発に残る根本的な課題が示唆された。

Understanding the deep semantics of images is essential in the era dominated by social media. However, current research works primarily on the superficial description of images, revealing a notable deficiency in the systematic investigation of the inherent deep semantics. In this work, we introduce DEEPEVAL, a comprehensive benchmark to assess Large Multimodal Models' (LMMs) capacities of visual deep semantics. DEEPEVAL includes human-annotated dataset and three progressive subtasks: fine-grained description selection, in-depth title matching, and deep semantics understanding. Utilizing DEEPEVAL, we evaluate 9 open-source LMMs and GPT-4V(ision). Our evaluation demonstrates a substantial gap between the deep semantic comprehension capabilities of existing LMMs and humans. For example, GPT-4V is 30% behind humans in understanding deep semantics, even though it achieves human-comparable performance in image description. Further analysis reveals that LMM performance on DEEPEVAL varies according to the specific facets of deep semantics explored, indicating the fundamental challenges remaining in developing LMMs.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-03
# バランスデータ、不均衡スペクトル:スペクトル不均衡を伴うクラス格差を解消する

Balanced Data, Imbalanced Spectra: Unveiling Class Disparities with Spectral Imbalance ( http://arxiv.org/abs/2402.11742v2 )

ライセンス: Link先を確認
Chiraag Kaushik, Ran Liu, Chi-Heng Lin, Amrit Khera, Matthew Y Jin, Wenrui Ma, Vidya Muthukumar, Eva L Dyer, (参考訳) 分類モデルは、異なるクラスで同じように機能することが期待されているが、実際には、パフォーマンスに大きなギャップがしばしばある。 このクラスバイアスの問題はサンプル不均衡のデータセットでは広く研究されているが、バランスの取れたデータセットでは比較的見過ごされている。 本研究では,特徴量におけるスペクトル不均衡の概念をクラス不均衡の潜在的源として導入し,スペクトル不均衡とクラス偏差の関係について考察する。 スペクトル不均衡とクラスギャップの関連性を構築するため,高次元混合モデルにおけるクラス間誤差の正確な表現を導出する理論的枠組みを構築した。 次に、この現象を11種類の最先端事前訓練エンコーダで研究し、提案したフレームワークを用いてエンコーダの品質を比較し、データ拡張戦略を評価して問題を緩和する方法を示す。 我々の研究は、学習のクラス依存的な効果に光を当て、最新の最先端の事前訓練された特徴が、スペクトルを通して診断できる未知のバイアスを持つ可能性があるという新たな洞察を提供する。

Classification models are expected to perform equally well for different classes, yet in practice, there are often large gaps in their performance. This issue of class bias is widely studied in cases of datasets with sample imbalance, but is relatively overlooked in balanced datasets. In this work, we introduce the concept of spectral imbalance in features as a potential source for class disparities and study the connections between spectral imbalance and class bias in both theory and practice. To build the connection between spectral imbalance and class gap, we develop a theoretical framework for studying class disparities and derive exact expressions for the per-class error in a high-dimensional mixture model setting. We then study this phenomenon in 11 different state-of-the-art pretrained encoders and show how our proposed framework can be used to compare the quality of encoders, as well as evaluate and combine data augmentation strategies to mitigate the issue. Our work sheds light on the class-dependent effects of learning, and provides new insights into how state-of-the-art pretrained features may have unknown biases that can be diagnosed through their spectra.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-03
# 反復正規化による密度比推定における過渡飽和

Overcoming Saturation in Density Ratio Estimation by Iterated Regularization ( http://arxiv.org/abs/2402.13891v2 )

ライセンス: Link先を確認
Lukas Gruber, Markus Holzleitner, Johannes Lehner, Sepp Hochreiter, Werner Zellinger, (参考訳) 有限個のサンプルから2つの確率密度の比を推定することは、機械学習と統計学における中心的な課題である。 本研究では,高次正規学習問題に対して,アルゴリズムが高速な誤り収束率を達成できないように,密度比推定のための大規模なカーネル手法が誤差飽和に悩まされていることを示す。 飽和を解消するために,高速な誤差率を達成するために,密度比推定の反復正規化を導入する。 提案手法は,密度比推定のためのベンチマークや,深層非教師付きドメイン適応モデルの重要度重み付けのための大規模評価において,非定型化バージョンよりも優れていた。

Estimating the ratio of two probability densities from finitely many samples, is a central task in machine learning and statistics. In this work, we show that a large class of kernel methods for density ratio estimation suffers from error saturation, which prevents algorithms from achieving fast error convergence rates on highly regular learning problems. To resolve saturation, we introduce iterated regularization in density ratio estimation to achieve fast error rates. Our methods outperform its non-iteratively regularized versions on benchmarks for density ratio estimation as well as on large-scale evaluations for importance-weighted ensembling of deep unsupervised domain adaptation models.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-03
# 冷凍ネットワークにおける部分探索は、強力なロテリチケットを見つけるのに十分である

Partial Search in a Frozen Network is Enough to Find a Strong Lottery Ticket ( http://arxiv.org/abs/2402.14029v2 )

ライセンス: Link先を確認
Hikari Otsuka, Daiki Chijiwa, Ángel López García-Arias, Yasuyuki Okoshi, Kazushi Kawamura, Thiem Van Chu, Daichi Fujiki, Susumu Takeuchi, Masato Motomura, (参考訳) ランダムに初期化された高密度ネットワークには、ウェイトラーニングなしで高い精度を達成するサブネットワークが含まれている -- 強力な宝くじチケット(SLT)。近年、Gadhikarら (2023) は、SLTをランダムに刈り取ったソースネットワーク内で見つけることができ、SLTの検索スペースを削減できることを示した。しかし、これは、意図しないほど高いスパース性により、ソースよりもはるかに精度が悪く、SLTの検索を制限している。本稿では、SLTの検索スペースを所望のSLT間隔とは独立に任意の比率で縮小する手法を提案する。 探索空間の削減に加えて、提案したランダム凍結は、推論のモデルサイズを削減できる。 さらに,提案手法は,高密度あるいはランダムに切断されたソースネットワークから得られたSLTよりも精度・モデル間サイズトレードオフのよいSLTを見出した。 特に、ImageNetを用いた画像分類におけるFrozen ResNetsに見られるSLTは、密集(非凍結)またはスパース(非ロック)ランダムネットワーク内のSLTに対する精度-検索空間と精度-モデルサイズトレードオフを大幅に改善する。

Randomly initialized dense networks contain subnetworks that achieve high accuracy without weight learning -- strong lottery tickets (SLTs). Recently, Gadhikar et al. (2023) demonstrated that SLTs can also be found within a randomly pruned source network, thus reducing the SLT search space. However, this limits the search to SLTs that are even sparser than the source, leading to worse accuracy due to unintentionally high sparsity. This paper proposes a method that reduces the SLT search space by an arbitrary ratio independent of the desired SLT sparsity. A random subset of the initial weights is excluded from the search space by freezing it -- i.e., by either permanently pruning them or locking them as a fixed part of the SLT. In addition to reducing search space, the proposed random freezing can also provide the benefit of reducing the model size for inference. Furthermore, experimental results show that the proposed method finds SLTs with better accuracy-to-model size trade-off than the SLTs obtained from dense or randomly pruned source networks. In particular, the SLTs found in Frozen ResNets on image classification using ImageNet significantly improve the accuracy-to-search space and accuracy-to-model size trade-offs over SLTs within dense (non-freezing) or sparse (non-locking) random networks.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-03
# 微分不能な規則誘導拡散を用いたシンボリック音楽生成

Symbolic Music Generation with Non-Differentiable Rule Guided Diffusion ( http://arxiv.org/abs/2402.14285v3 )

ライセンス: Link先を確認
Yujia Huang, Adishree Ghatare, Yuanzhe Liu, Ziniu Hu, Qinsheng Zhang, Chandramouli S Sastry, Siddharth Gururani, Sageev Oore, Yisong Yue, (参考訳) 本研究では,非微分不可能なルールガイダンスに焦点をあてて,記号的音楽生成(例えばピアノロール生成)の問題について検討する。 音楽規則は、音の密度やコード進行などの音符の特徴に象徴的な形で表されることが多いが、その多くが微分不可能であり、誘導拡散のためにそれらを使用する際には困難である。 本稿では,事前学習した拡散モデルにプラグイン・アンド・プレイで対応可能なルール関数の前方評価のみを必要とする新しい指導法である‘oursfull(\ours)’を提案する。 さらに,SCGをプラグ・アンド・プレイ方式で構成可能な,高解像度のシンボリック・ミュージック・ジェネレーションのための潜時拡散アーキテクチャを提案する。 シンボリック・ミュージック・ジェネレーションにおける標準的な強靭なベースラインと比較すると、このフレームワークは音楽の質と規則に基づく制御性において顕著な進歩を示し、様々な設定で現在の最先端のジェネレータよりも優れていた。 詳細なデモ、コード、モデルチェックポイントについては、プロジェクトのWebサイトを参照してください。

We study the problem of symbolic music generation (e.g., generating piano rolls), with a technical focus on non-differentiable rule guidance. Musical rules are often expressed in symbolic form on note characteristics, such as note density or chord progression, many of which are non-differentiable which pose a challenge when using them for guided diffusion. We propose \oursfull (\ours), a novel guidance method that only requires forward evaluation of rule functions that can work with pre-trained diffusion models in a plug-and-play way, thus achieving training-free guidance for non-differentiable rules for the first time. Additionally, we introduce a latent diffusion architecture for symbolic music generation with high time resolution, which can be composed with SCG in a plug-and-play fashion. Compared to standard strong baselines in symbolic music generation, this framework demonstrates marked advancements in music quality and rule-based controllability, outperforming current state-of-the-art generators in a variety of settings. For detailed demonstrations, code and model checkpoints, please visit our project website: https://scg-rule-guided-music.github.io/.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-03
# クラスタリングによる言語モデルトレーニングのためのバランスデータサンプリング

Balanced Data Sampling for Language Model Training with Clustering ( http://arxiv.org/abs/2402.14526v2 )

ライセンス: Link先を確認
Yunfan Shao, Linyang Li, Zhaoye Fei, Hang Yan, Dahua Lin, Xipeng Qiu, (参考訳) データは、LLM(Large Language Models)のトレーニングにおいて、基本的な役割を果たす。 データセットの収集と構成に注意が払われているが、トレーニングにおけるデータサンプリング戦略を決定することは、依然としてオープンな問題である。 ほとんどのLSMは単純な戦略、ランダムサンプリングで訓練されている。 しかし、このサンプリング戦略は、トレーニングデータ分散の非バランスな性質を無視しており、これは準最適である。 本稿では,学習データのテキスト分布のバランスを保ち,モデルトレーニングを改善するためにClusterClip Smplingを提案する。 具体的には、ClusterClip Samplingは、トレーニングセットのデータ分散を反映するためにデータクラスタリングを使用し、クラスタ結果に基づいてトレーニング中に共通サンプルとレアサンプルのバランスをとる。 特定のクラスタからのサンプルによって引き起こされる過度な問題を軽減するために、繰り返しクリップ操作が導入される。 大規模な実験では、さまざまなトレーニングデータセットや大規模言語モデルの下で、ランダムサンプリングやその他のクラスタベースのサンプリングバリエーションよりも優れたパフォーマンスを発揮するClusterClip Smplingの有効性が検証されている。

Data plays a fundamental role in the training of Large Language Models (LLMs). While attention has been paid to the collection and composition of datasets, determining the data sampling strategy in training remains an open question. Most LLMs are trained with a simple strategy, random sampling. However, this sampling strategy ignores the unbalanced nature of training data distribution, which can be sub-optimal. In this paper, we propose ClusterClip Sampling to balance the text distribution of training data for better model training. Specifically, ClusterClip Sampling utilizes data clustering to reflect the data distribution of the training set and balances the common samples and rare samples during training based on the cluster results. A repetition clip operation is introduced to mitigate the overfitting issue led by samples from certain clusters. Extensive experiments validate the effectiveness of ClusterClip Sampling, which outperforms random sampling and other cluster-based sampling variants under various training datasets and large language models.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-03
# ニューラルWebストラップによるコーパスキュレーションのクリーン化

Cleaner Pretraining Corpus Curation with Neural Web Scraping ( http://arxiv.org/abs/2402.14652v2 )

ライセンス: Link先を確認
Zhipeng Xu, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Ge Yu, Chenyan Xiong, (参考訳) ウェブには、人間の情報検索のニーズを満たすために、大規模で多様で豊富な情報が含まれている。 厳密なデータ収集、事前処理、キュレーションを通じて、Webページは言語モデル事前学習の基本的なデータリソースとして利用することができる。 しかし、Webページの革新的かつ複雑な性質に直面すると、ルールベース/フィーチャーベースのWebスクレイパーはますます不十分になりつつある。 本稿では,Webページから一次的かつクリーンなテキストコンテンツを抽出するための,シンプルで高速かつ効果的なNeuScraper(NeuScraper)を提案する。 実験の結果,NeuScraperは20%以上の改善を達成し,言語モデルの事前学習を促進するために高品質なデータを抽出する可能性を示した。 すべてのコードはhttps://github.com/OpenMatch/NeuScraperで入手できる。

The web contains large-scale, diverse, and abundant information to satisfy the information-seeking needs of humans. Through meticulous data collection, preprocessing, and curation, webpages can be used as a fundamental data resource for language model pretraining. However, when confronted with the progressively revolutionized and intricate nature of webpages, rule-based/feature-based web scrapers are becoming increasingly inadequate. This paper presents a simple, fast, and effective Neural web Scraper (NeuScraper) to help extract primary and clean text contents from webpages. Experimental results show that NeuScraper surpasses the baseline scrapers by achieving more than a 20% improvement, demonstrating its potential in extracting higher-quality data to facilitate the language model pretraining. All of the code is available at https://github.com/OpenMatch/NeuScraper.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-03
# 帰納的推論における人間と大言語モデルの比較

Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning ( http://arxiv.org/abs/2402.14856v2 )

ライセンス: Link先を確認
Philipp Mondorf, Barbara Plank, (参考訳) 帰納的推論は、音の定式化や結束的議論において重要な役割を果たす。 提供された情報の真の価値を考慮すれば、個人が論理的に従う結論を引き出すことができる。 大規模言語モデル(LLMs)の領域における最近の進歩は、帰納的推論タスクの実行能力を示している。 それにもかかわらず、研究のかなりの部分は、これらのタスクを解く際のLSMの精度を評価し、しばしばそれらの推論行動のより深い分析を見落としている。 本研究では,LLMが採用する推論戦略を考察するために,認知心理学の原理を基礎として,命題論理問題に対するその応答の詳細な評価を行う。 以上の結果から, LLMは, $\textit{supposition following}$ や $\textit{chain construction}$ など,人間と類似した推論パターンを示すことが明らかとなった。 さらに,本研究では,より高度なモデルでは,より洗練度の高いモデルよりも戦略を頻繁に採用する傾向にあるため,モデルのアーキテクチャと規模が,より望ましい推論方法に大きく影響することを示した。 重要なことに、最終的な結論の正しさであるモデルの精度は、必ずしもその推論過程の妥当性を反映していない。 この区別は、この分野においてより微妙な評価手順の必要性を浮き彫りにしている。

Deductive reasoning plays a pivotal role in the formulation of sound and cohesive arguments. It allows individuals to draw conclusions that logically follow, given the truth value of the information provided. Recent progress in the domain of large language models (LLMs) has showcased their capability in executing deductive reasoning tasks. Nonetheless, a significant portion of research primarily assesses the accuracy of LLMs in solving such tasks, often overlooking a deeper analysis of their reasoning behavior. In this study, we draw upon principles from cognitive psychology to examine inferential strategies employed by LLMs, through a detailed evaluation of their responses to propositional logic problems. Our findings indicate that LLMs display reasoning patterns akin to those observed in humans, including strategies like $\textit{supposition following}$ or $\textit{chain construction}$. Moreover, our research demonstrates that the architecture and scale of the model significantly affect its preferred method of reasoning, with more advanced models tending to adopt strategies more frequently than less sophisticated ones. Importantly, we assert that a model's accuracy, that is the correctness of its final conclusion, does not necessarily reflect the validity of its reasoning process. This distinction underscores the necessity for more nuanced evaluation procedures in the field.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-03
# The Wolf inside: Covert Injection of Malice into MLLM Societies by a MLLM Operative (英語)

The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative ( http://arxiv.org/abs/2402.14859v2 )

ライセンス: Link先を確認
Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Yu Kong, Tianlong Chen, Huan Liu, (参考訳) 様々な種類のデータに対して処理および応答する前例のない能力のため、MLLM(Multimodal Large Language Models)は、AI(Artificial General Intelligence)の新たな境界を常に定義している。 これらの先進的な生成モデルは複雑なタスクのための協調ネットワークを形成しているため、システムの整合性とセキュリティは不可欠である。 我々の論文『The Wolf Inside'』は、悪意のあるコンテンツの間接的伝播であるMLLM社会における新たな脆弱性を探求している。 MLLMの直接有害な出力生成とは異なり、我々の研究は、単一のMLLMエージェントを微妙に影響して、社会内の他のMLLMエージェントに悪意のあるコンテンツを出力させるプロンプトを生成する方法を示している。 その結果,MLLMエージェントは特定のプロンプトや指示を生成するために操作された場合,MLLMの社会において,他のエージェントの「感染」を効果的に行うことができることがわかった。 この感染は、社会全体で危険な指示や誤報などの有害なアウトプットの生成と流通につながる。 また、これら間接的に発生するプロンプトの伝達可能性を示し、エージェント間通信による悪意の伝播の可能性を強調した。 この研究は、MLLMによって引き起こされる脅威の新たな次元について批判的な洞察を与える。 本研究は,MLLM社会における包括的操作を検知・緩和するロバストなメカニズム開発の必要性を浮き彫りにし,社会的応用における安全・倫理的利用の確保を図ったものである。

Due to their unprecedented ability to process and respond to various types of data, Multimodal Large Language Models (MLLMs) are constantly defining the new boundary of Artificial General Intelligence (AGI). As these advanced generative models increasingly form collaborative networks for complex tasks, the integrity and security of these systems are crucial. Our paper, ``The Wolf Within'', explores a novel vulnerability in MLLM societies - the indirect propagation of malicious content. Unlike direct harmful output generation for MLLMs, our research demonstrates how a single MLLM agent can be subtly influenced to generate prompts that, in turn, induce other MLLM agents in the society to output malicious content. Our findings reveal that, an MLLM agent, when manipulated to produce specific prompts or instructions, can effectively ``infect'' other agents within a society of MLLMs. This infection leads to the generation and circulation of harmful outputs, such as dangerous instructions or misinformation, across the society. We also show the transferability of these indirectly generated prompts, highlighting their possibility in propagating malice through inter-agent communication. This research provides a critical insight into a new dimension of threat posed by MLLMs, where a single agent can act as a catalyst for widespread malevolent influence. Our work underscores the urgent need for developing robust mechanisms to detect and mitigate such covert manipulations within MLLM societies, ensuring their safe and ethical utilization in societal applications.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-03
# 量子論とコンテキスト最適輸送の応用

Quantum Theory and Application of Contextual Optimal Transport ( http://arxiv.org/abs/2402.14991v3 )

ライセンス: Link先を確認
Nicola Mariella, Albert Akhriev, Francesco Tacchino, Christa Zoufal, Juan Carlos Gonzalez-Espitia, Benedek Harsanyi, Eugene Koskin, Ivano Tavernelli, Stefan Woerner, Marianna Rapsomaniki, Sergiy Zhuk, Jannis Born, (参考訳) Optimal Transport(OT)は多くのドメインにわたって機械学習(ML)を推進している。 ペアデータの測定値 $(\boldsymbol{\mu}, \boldsymbol{\nu})$ を共変量に結合すると、困難な条件分布学習環境が発生する。 既存のアプローチによる$\textit{global}$トランスポートマップの学習は、潜在的に見えない文脈でパラメータ化され、Neural OTを用いており、ブレニエの定理に大きく依存している。 本稿では、文脈化された輸送計画の償却最適化のための、第一種量子コンピューティングの定式化を提案する。 両立確率行列とユニタリ演算子との直接リンクを利用して、OTと量子計算との自然な接続を悪化させる。 薬物投与量に応じた細胞型分布の変動を予測し, 合成データと実データに基づいて本手法(QontOT)を検証する。 重要なことは、24量子ビットのハードウェア実験を、古典的コンピュータに挑戦するタスクで実施し、我々の古典的ニューラルOTアプローチと一致しない性能を報告している。 要約すると、これは量子コンピューティングを通じてコンテキスト化された輸送計画を予測することを学ぶための第一歩である。

Optimal Transport (OT) has fueled machine learning (ML) across many domains. When paired data measurements $(\boldsymbol{\mu}, \boldsymbol{\nu})$ are coupled to covariates, a challenging conditional distribution learning setting arises. Existing approaches for learning a $\textit{global}$ transport map parameterized through a potentially unseen context utilize Neural OT and largely rely on Brenier's theorem. Here, we propose a first-of-its-kind quantum computing formulation for amortized optimization of contextualized transportation plans. We exploit a direct link between doubly stochastic matrices and unitary operators thus unravelling a natural connection between OT and quantum computation. We verify our method (QontOT) on synthetic and real data by predicting variations in cell type distributions conditioned on drug dosage. Importantly we conduct a 24-qubit hardware experiment on a task challenging for classical computers and report a performance that cannot be matched with our classical neural OT approach. In sum, this is a first step toward learning to predict contextualized transportation plans through quantum computing.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-03
# KIEval: 大規模言語モデルのための知識に基づく対話型評価フレームワーク

KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models ( http://arxiv.org/abs/2402.15043v2 )

ライセンス: Link先を確認
Zhuohao Yu, Chang Gao, Wenjin Yao, Yidong Wang, Wei Ye, Jindong Wang, Xing Xie, Yue Zhang, Shikun Zhang, (参考訳) 大規模言語モデル(LLM)の自動評価手法は,データ汚染によって妨げられ,その有効性の評価が膨らむ。 汚染されたテキストの検出を目的とした既存の戦略は、モデル性能を正確に計測するのではなく、汚染状態の定量化に重点を置いている。 本稿では,LLMを用いた対話型評価フレームワークであるKIEvalについて紹介する。 ドメイン固有の知識を含む従来のLLMベンチマークの質問から始め、KIEvalは動的に生成されたマルチラウンド、知識に焦点を当てた対話を利用して、モデルの応答が単にベンチマーク回答のリコールであるかどうかを判断したり、より複雑な会話に知識を適用するための深い理解を示す。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。 また,データ汚染は実世界の応用性や理解に寄与や悪影響を及ぼさないこと,LLMの既存の汚染検出手法は事前学習時にのみ検出できるが,教師付き微調整中は検出できないことも明らかにした。

Automatic evaluation methods for large language models (LLMs) are hindered by data contamination, leading to inflated assessments of their effectiveness. Existing strategies, which aim to detect contaminated texts, focus on quantifying contamination status instead of accurately gauging model performance. In this paper, we introduce KIEval, a Knowledge-grounded Interactive Evaluation framework, which incorporates an LLM-powered "interactor" role for the first time to accomplish a dynamic contamination-resilient evaluation. Starting with a question in a conventional LLM benchmark involving domain-specific knowledge, KIEval utilizes dynamically generated, multi-round, and knowledge-focused dialogues to determine whether a model's response is merely a recall of benchmark answers or demonstrates a deep comprehension to apply knowledge in more complex conversations. Extensive experiments on seven leading LLMs across five datasets validate KIEval's effectiveness and generalization. We also reveal that data contamination brings no contribution or even negative effect to models' real-world applicability and understanding, and existing contamination detection methods for LLMs can only identify contamination in pre-training but not during supervised fine-tuning.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-03
# 制約マルコフ決定過程における$\tilde{O}(1/ε)$サンプル複素性の実現

Achieving $\tilde{O}(1/ε)$ Sample Complexity for Constrained Markov Decision Process ( http://arxiv.org/abs/2402.16324v2 )

ライセンス: Link先を確認
Jiashuo Jiang, Yinyu Ye, (参考訳) 本稿では,制約付きマルコフ決定プロセス(CMDP)の強化学習問題について考察する。 この問題では、有限資源と未知の遷移確率を持つMDPが与えられる。 それぞれの段階で、私たちは行動をとり、報酬を集め、いくつかのリソースを消費します。 本研究は,CMDP問題に対する最適問題依存保証の導出に向けた第一歩である。 これは$O(\frac{1}{\Delta\cdot\eps}\cdot\log^2(1/\eps))$サンプル複雑性境界であり、$\Delta$は問題依存パラメータであるが$\eps$とは独立である。 我々のサンプル複雑性境界は、以前の文献で確立されたCMDP問題に対する最先端の$O(1/\eps^2)$サンプル複雑性を、$\eps$への依存性の観点から改善する。 そこで我々は,CMDP問題を解析するための新しいフレームワークを開発した。 具体的には,本アルゴリズムはプライマリ空間で動作し,各期間におけるCMDP問題に対するプライマリLPを,<textit{adaptive} の残量でオンライン的に解決する。 我々のアルゴリズムの鍵となる要素は次のとおりである。 一 LPベースによるインスタンス硬度の評価 二 原始LPの1つの最適な基礎を識別する除去手続、及び 三 残余の資源に適応し、特徴的最適基準に固執する解決手続

We consider the reinforcement learning problem for the constrained Markov decision process (CMDP), which plays a central role in satisfying safety or resource constraints in sequential learning and decision-making. In this problem, we are given finite resources and a MDP with unknown transition probabilities. At each stage, we take an action, collecting a reward and consuming some resources, all assumed to be unknown and need to be learned over time. In this work, we take the first step towards deriving optimal problem-dependent guarantees for the CMDP problems. We derive a logarithmic regret bound, which translates into a $O(\frac{1}{\Delta\cdot\eps}\cdot\log^2(1/\eps))$ sample complexity bound, with $\Delta$ being a problem-dependent parameter, yet independent of $\eps$. Our sample complexity bound improves upon the state-of-art $O(1/\eps^2)$ sample complexity for CMDP problems established in the previous literature, in terms of the dependency on $\eps$. To achieve this advance, we develop a new framework for analyzing CMDP problems. To be specific, our algorithm operates in the primal space and we resolve the primal LP for the CMDP problem at each period in an online manner, with \textit{adaptive} remaining resource capacities. The key elements of our algorithm are: i) a characterization of the instance hardness via LP basis, ii) an eliminating procedure that identifies one optimal basis of the primal LP, and; iii) a resolving procedure that is adaptive to the remaining resources and sticks to the characterized optimal basis.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-03
# ロバストなセマンティック画像合成のための確率的条件拡散モデル

Stochastic Conditional Diffusion Models for Robust Semantic Image Synthesis ( http://arxiv.org/abs/2402.16506v3 )

ライセンス: Link先を確認
Juyeon Ko, Inho Kong, Dogyun Park, Hyunwoo J. Kim, (参考訳) セマンティック画像合成(英: Semantic image synthesis、SIS)は、セマンティックマップ(ラベル)に対応する現実的な画像を生成するタスクである。 しかし、現実世界のアプリケーションでは、SISはしばしばノイズの多いユーザ入力に遭遇する。 そこで本稿では,Stochastic Conditional Diffusion Model (SCDM)を提案する。 これは、ラベル拡散を通じて意味ラベルマップを確率的に摂動させることにより、ロバスト性を高め、離散拡散でラベルを拡散させる。 ラベルの拡散により、ノイズとクリーンな意味写像はタイムステップが増加するにつれて類似し、最終的には$t=T$で同一となる。 これにより、クリーンな画像に近い画像の生成が容易になり、堅牢な生成が可能になる。 さらに,クラスに応じてラベルを微分拡散するクラスワイドノイズスケジュールを提案する。 提案手法は, 実世界のアプリケーションにおけるヒューマンエラーをシミュレーションする新しい実験装置を含む, ベンチマークデータセットの広範な実験と解析により, 高品質なサンプルを生成する。 コードはhttps://github.com/mlvlab/SCDMで入手できる。

Semantic image synthesis (SIS) is a task to generate realistic images corresponding to semantic maps (labels). However, in real-world applications, SIS often encounters noisy user inputs. To address this, we propose Stochastic Conditional Diffusion Model (SCDM), which is a robust conditional diffusion model that features novel forward and generation processes tailored for SIS with noisy labels. It enhances robustness by stochastically perturbing the semantic label maps through Label Diffusion, which diffuses the labels with discrete diffusion. Through the diffusion of labels, the noisy and clean semantic maps become similar as the timestep increases, eventually becoming identical at $t=T$. This facilitates the generation of an image close to a clean image, enabling robust generation. Furthermore, we propose a class-wise noise schedule to differentially diffuse the labels depending on the class. We demonstrate that the proposed method generates high-quality samples through extensive experiments and analyses on benchmark datasets, including a novel experimental setup simulating human errors during real-world applications. Code is available at https://github.com/mlvlab/SCDM.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-03
# Craftax: オープンソースの強化学習のためのLightning-Fastベンチマーク

Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning ( http://arxiv.org/abs/2402.16801v2 )

ライセンス: Link先を確認
Michael Matthews, Michael Beukman, Benjamin Ellis, Mikayel Samvelyan, Matthew Jackson, Samuel Coward, Jakob Foerster, (参考訳) ベンチマークは強化学習(RL)アルゴリズムの開発と分析において重要な役割を果たす。 オープンエンドラーニングの研究に用いられる既存のベンチマークは、2つのカテゴリの1つに分類される。 Crafter、NetHack、Minecraftのような膨大な計算資源なしで有意義な研究を行うには遅すぎるか、あるいはMinigridやProcgenのような重要な課題を起こすにはほどんど複雑ではない。 これを改善するために、私たちは最初にCraftax-Classicを紹介します: Pythonネイティブのオリジナルよりも最大250倍高速なJAXでのCrafterの書き直しです。 10億の環境相互作用を使用したPPOの実行は、1つのGPUだけで1時間以内に終了し、最適な報酬の90%を平均します。 NetHackからインスパイアされた要素によるCrafterのメカニックの大幅な拡張である、メインのCraftaxベンチマークを提示する。 Craftaxの解決には、深い探索、長期計画と記憶、そして世界が発見されるにつれて新しい状況への継続的な適応が必要である。 本研究では,グローバル・エピソード探索を含む既存の手法と,教師なし環境設計がベンチマークで実質的な進歩を損なうことを示す。 Craftaxは、研究者が限られた計算資源を持つ複雑なオープンエンド環境で実験できる、と私たちは信じています。

Benchmarks play a crucial role in the development and analysis of reinforcement learning (RL) algorithms. We identify that existing benchmarks used for research into open-ended learning fall into one of two categories. Either they are too slow for meaningful research to be performed without enormous computational resources, like Crafter, NetHack and Minecraft, or they are not complex enough to pose a significant challenge, like Minigrid and Procgen. To remedy this, we first present Craftax-Classic: a ground-up rewrite of Crafter in JAX that runs up to 250x faster than the Python-native original. A run of PPO using 1 billion environment interactions finishes in under an hour using only a single GPU and averages 90% of the optimal reward. To provide a more compelling challenge we present the main Craftax benchmark, a significant extension of the Crafter mechanics with elements inspired from NetHack. Solving Craftax requires deep exploration, long term planning and memory, as well as continual adaptation to novel situations as more of the world is discovered. We show that existing methods including global and episodic exploration, as well as unsupervised environment design fail to make material progress on the benchmark. We believe that Craftax can for the first time allow researchers to experiment in a complex, open-ended environment with limited computational resources.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-03
# アダプティブデコードによるオープンエンディングテキスト生成の改善

Improving Open-Ended Text Generation via Adaptive Decoding ( http://arxiv.org/abs/2402.18223v2 )

ライセンス: Link先を確認
Wenhong Zhu, Hongkun Hao, Zhiwei He, Yiming Ai, Rui Wang, (参考訳) 現在の言語モデルは、確率分布に従ってトークンでテキストトークンをデコードし、次のトークンの適切な候補を決定することは、生成品質を保証するために不可欠である。 本研究では、動的に言語モデルに適応的復号化を導入し、生成時に意味のある候補集合を同定する機構を提案する。 具体的には、信頼度と呼ばれるエントロピーに基づく計量を導入し、最適候補集合を信頼増加過程として決定する。 信頼の増大を利用して、候補集合にトークンを含める合理性を評価する。 実験結果から,本手法は多様性と一貫性のバランスが良好であることが明らかとなった。 人間の評価は,本手法が人間の好むテキストを生成可能であることを示す。 さらに,本手法は言語モデルの推論能力を向上させる可能性がある。

Current language models decode text token by token according to probabilistic distribution, and determining the appropriate candidates for the next token is crucial to ensure generation quality. This study introduces adaptive decoding, a mechanism that dynamically empowers language models to ascertain a sensible candidate set during generation. Specifically, we introduce an entropy-based metric called confidence and conceptualize determining the optimal candidate set as a confidence-increasing process. The rationality of including a token in the candidate set is assessed by leveraging the increment of confidence. Experimental results reveal that our method balances diversity and coherence well. The human evaluation shows that our method can generate human-preferred text. Additionally, our method can potentially improve the reasoning ability of language models.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-03
# バックドアモデルとモデルマージを連携させる無料ランチ

Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge ( http://arxiv.org/abs/2402.19334v2 )

ライセンス: Link先を確認
Ansh Arora, Xuanli He, Maximilian Mozes, Srinibas Swain, Mark Dras, Qiongkai Xu, (参考訳) オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に進歩し、最先端技術へのアクセスが拡大した。 しかし、このオープン性は、特定の入力によって隠れた悪意のある振る舞いが引き起こされるバックドア攻撃や、自然言語処理(NLP)システムの完全性と信頼性を損なうような、重大なセキュリティリスクをもたらす。 本稿では, バックドアモデルと他の同種モデルとを組み合わせることで, 完全安全でない場合でも, バックドア脆弱性を著しく軽減することができることを示唆する。 実験では,様々なモデル (BERT-Base, RoBERTa-Large, Llama2-7B, Mistral-7B) とデータセット (SST-2, OLID, AG News, QNLI) の仮説を検証した。 複数の先進的な防御手法と比較して,本手法は,余分なリソースや特定の知識を伴わずに,分類タスクや指導タスクに対するバックドア攻撃に対する効果的かつ効率的な推論段階の防御を提供する。 我々のアプローチは、最近の先進的ベースラインを一貫して上回り、攻撃成功率の平均75%が低下する結果となった。 モデルマージは、モデル性能を改善するための確立されたアプローチであるため、防衛に関する付加的な利点は、コスト不要のボーナスと見なすことができる。

The democratization of pre-trained language models through open-source initiatives has rapidly advanced innovation and expanded access to cutting-edge technologies. However, this openness also brings significant security risks, including backdoor attacks, where hidden malicious behaviors are triggered by specific inputs, compromising natural language processing (NLP) system integrity and reliability. This paper suggests that merging a backdoored model with other homogeneous models can significantly remediate backdoor vulnerabilities even if such models are not entirely secure. In our experiments, we verify our hypothesis on various models (BERT-Base, RoBERTa-Large, Llama2-7B, and Mistral-7B) and datasets (SST-2, OLID, AG News, and QNLI). Compared to multiple advanced defensive approaches, our method offers an effective and efficient inference-stage defense against backdoor attacks on classification and instruction-tuned tasks without additional resources or specific knowledge. Our approach consistently outperforms recent advanced baselines, leading to an average of about 75% reduction in the attack success rate. Since model merging has been an established approach for improving model performance, the extra advantage it provides regarding defense can be seen as a cost-free bonus.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-03
# Spurious Feature Eraser: Vision-Language Foundation Modelのためのテスト時間適応の安定化

Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model ( http://arxiv.org/abs/2403.00376v2 )

ライセンス: Link先を確認
Huan Ma, Yan Zhu, Changqing Zhang, Peilin Zhao, Baoyuan Wu, Long-Kai Huang, Qinghua Hu, Bingzhe Wu, (参考訳) 視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。 しかし、これらのモデルは、その一般化能力を阻害する「決定的ショートカット」の結果、細粒度画像分類などの下流タスクに適用する際の大きな制限も示している。 本研究では,CLIPモデルには,<textit{desired invariant causal features} と \textit{undesired decision shortcuts} の両方を含む,豊富な特徴セットが存在することがわかった。 さらに、下流タスクにおけるCLIPの過小評価は、特定のタスク要求に応じてトレーニング済みの機能を有効に活用できないことに起因する。 この課題に対処するために、スプリアス特徴消去法(Spurious Feature Eraser, SEraser)を提案し、スプリアス特徴を消去することで意思決定のショートカットを緩和する。 具体的には、学習可能なプロンプトを最適化するテスト時間プロンプトチューニングパラダイムを導入し、推論フェーズにおける決定ショートカットを無視しながら、不変機能を活用できるようにモデルを説得する。 提案手法は,潜在的に誤解を招く可能性のある突発的情報への過度な依存を効果的に軽減する。 本稿では,提案手法の比較分析を行い,その有意な優位性を検証した。

Vision-language foundation models have exhibited remarkable success across a multitude of downstream tasks due to their scalability on extensive image-text paired data. However, these models also display significant limitations when applied to downstream tasks, such as fine-grained image classification, as a result of ``decision shortcuts'' that hinder their generalization capabilities. In this work, we find that the CLIP model possesses a rich set of features, encompassing both \textit{desired invariant causal features} and \textit{undesired decision shortcuts}. Moreover, the underperformance of CLIP on downstream tasks originates from its inability to effectively utilize pre-trained features in accordance with specific task requirements. To address this challenge, we propose a simple yet effective method, Spurious Feature Eraser (SEraser), to alleviate the decision shortcuts by erasing the spurious features. Specifically, we introduce a test-time prompt tuning paradigm that optimizes a learnable prompt, thereby compelling the model to exploit invariant features while disregarding decision shortcuts during the inference phase. The proposed method effectively alleviates excessive dependence on potentially misleading spurious information. We conduct comparative analysis of the proposed method against various approaches which validates the significant superiority.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-03
# TempCompass:ビデオのLLMは本当にビデオの理解度が高いか?

TempCompass: Do Video LLMs Really Understand Videos? ( http://arxiv.org/abs/2403.00476v3 )

ライセンス: Link先を確認
Yuanxin Liu, Shicheng Li, Yi Liu, Yuxiang Wang, Shuhuai Ren, Lei Li, Sishuo Chen, Xu Sun, Lu Hou, (参考訳) 近年,ビデオ大言語モデル(ビデオLLM)に関する関心が高まっている。 しかし、既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。 一方、それらの多くは、異なる時間的側面(例えば、速度、方向)を区別することができず、そのため、これらの特定の側面におけるニュアンスドのパフォーマンスを反映できない。 一方、タスク形式(例えば、複数選択QAのみ)の多様性に制限があり、時間的知覚性能がタスクの種類によってどのように異なるかを理解するのを妨げている。 これら2つの問題に触発されて,時間的側面とタスク形式を多様に導入する,textbf{TempCompass} ベンチマークを提案する。 高品質なテストデータを集めるためには,(1)ビデオコレクションにおいて,同一の静的コンテンツを共有するが,特定の時間的側面で異なるコンフリクトのあるビデオを構築することで,ビデオLLMが単一フレームバイアスや言語優先の活用を妨げている,という2つの新しい戦略を考案する。 2)タスク命令を収集するために,人間がまずビデオのメタ情報にアノテートし,次にLCMが命令を生成するパラダイムを提案する。 また、ビデオLLMからの応答を自動的かつ正確に評価するLLMベースのアプローチを設計する。 TempCompassをベースとして,8つの最先端(SOTA)ビデオLLMと3つの画像LLMを総合的に評価し,これらのモデルが時間知覚能力に劣ることを示す。 私たちのデータはhttps://github.com/llyx97/TempCompass.comで公開されます。

Recently, there is a surge in interest surrounding video large language models (Video LLMs). However, existing benchmarks fail to provide a comprehensive feedback on the temporal perception ability of Video LLMs. On the one hand, most of them are unable to distinguish between different temporal aspects (e.g., speed, direction) and thus cannot reflect the nuanced performance on these specific aspects. On the other hand, they are limited in the diversity of task formats (e.g., only multi-choice QA), which hinders the understanding of how temporal perception performance may vary across different types of tasks. Motivated by these two problems, we propose the \textbf{TempCompass} benchmark, which introduces a diversity of temporal aspects and task formats. To collect high-quality test data, we devise two novel strategies: (1) In video collection, we construct conflicting videos that share the same static content but differ in a specific temporal aspect, which prevents Video LLMs from leveraging single-frame bias or language priors. (2) To collect the task instructions, we propose a paradigm where humans first annotate meta-information for a video and then an LLM generates the instruction. We also design an LLM-based approach to automatically and accurately evaluate the responses from Video LLMs. Based on TempCompass, we comprehensively evaluate 8 state-of-the-art (SOTA) Video LLMs and 3 Image LLMs, and reveal the discerning fact that these models exhibit notably poor temporal perception ability. Our data will be available at https://github.com/llyx97/TempCompass.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-03
# NeuSpeech: ニューラル信号を音声としてデコードする

NeuSpeech: Decode Neural signal as Speech ( http://arxiv.org/abs/2403.01748v3 )

ライセンス: Link先を確認
Yiqian Yang, Yiqun Duan, Qiang Zhang, Hyejeong Jo, Jinni Zhou, Won Hee Lee, Renjing Xu, Hui Xiong, (参考訳) 脳力学から言語を復号することは脳-コンピュータインタフェース(BCI)の領域において重要な方向であり、特に大規模言語モデルの急速な成長を考慮している。 電極移植手術を必要とする侵襲的信号と比較して、非侵襲的神経信号(eg EEG, MEG)は安全性と汎用性を考慮して注目を集めている。 しかし、この探検は3つの側面において不十分である。 1) 従来の手法は主に脳波に焦点を合わせていたが, 信号品質が向上したMEGでは, これまでのどの研究もこの問題に対処していない。 2) 先行研究は, 生成復号時に主に$`teacher-forcing"$を使用し, 実用的でない。 3)先行研究はほとんどが$`BART-based"$ not fully auto-regressiveであり、他のシーケンスタスクではより優れている。本稿では、教師の強制なしにMEG信号からテキストを直接生成するクロスアテンションベースの「whisper」モデルを初めて検討する。 我々のモデルは、2つの主要なデータセット($\textit{GWilliams}$と$\textit{Schoffelen}$)を事前トレーニングすることなく、60.30と52.89という印象的なBLEU-1スコアを達成する。 本稿では,音声復号生成が神経復号処理にどのように作用するかを包括的に検討し,初期化の事前訓練,分割,拡張,スケーリング法則のトレーニングなどを行う。 コードはhttps://github.com/NeuSpeech/NeuSpeech1$.comで入手できる。

Decoding language from brain dynamics is an important open direction in the realm of brain-computer interface (BCI), especially considering the rapid growth of large language models. Compared to invasive-based signals which require electrode implantation surgery, non-invasive neural signals (e.g. EEG, MEG) have attracted increasing attention considering their safety and generality. However, the exploration is not adequate in three aspects: 1) previous methods mainly focus on EEG but none of the previous works address this problem on MEG with better signal quality; 2) prior works have predominantly used $``teacher-forcing"$ during generative decoding, which is impractical; 3) prior works are mostly $``BART-based"$ not fully auto-regressive, which performs better in other sequence tasks. In this paper, we explore the brain-to-text translation of MEG signals in a speech-decoding formation. Here we are the first to investigate a cross-attention-based ``whisper" model for generating text directly from MEG signals without teacher forcing. Our model achieves impressive BLEU-1 scores of 60.30 and 52.89 without pretraining $\&$ teacher-forcing on two major datasets ($\textit{GWilliams}$ and $\textit{Schoffelen}$). This paper conducts a comprehensive review to understand how speech decoding formation performs on the neural decoding tasks, including pretraining initialization, training $\&$ evaluation set splitting, augmentation, and scaling law. Code is available at https://github.com/NeuSpeech/NeuSpeech1$.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-03
# 階層的セマンティック環境によるグラフの分布外一般化の改善

Improving out-of-distribution generalization in graphs via hierarchical semantic environments ( http://arxiv.org/abs/2403.01773v2 )

ライセンス: Link先を確認
Yinhua Piao, Sangseon Lee, Yijingxiu Lu, Sun Kim, (参考訳) グラフ領域におけるアウト・オブ・ディストリビューション(OOD)の一般化は、複雑な分布シフトと環境コンテキストの欠如により困難である。 近年の手法は平らな環境を発生させることでOOD一般化のグラフ化を推し進めている。 しかし、このような平坦な環境には、より複雑なデータ分散をキャプチャする固有の制限がある。 多様なトレーニング環境(例えば、足場、サイズなど)を含むTarmOODデータセットを考えると、フラットコンテキストは、その高い不均一性に十分対応できない。 このようにして、分散シフトを扱うためのグラフ不変学習を強化するために、よりセマンティックに強化された環境を生成するための新しい課題が提示される。 本稿では,グラフ毎に階層的セマンティック環境を生成する新しい手法を提案する。 まず、入力グラフが与えられた場合、入力グラフから可変部分グラフを明示的に抽出し、ローカル環境におけるプロキシ予測を生成する。 次に,グローバル環境を階層的に再生するサブグラフを再抽出するために,確率的注意機構を用いる。 さらに,異なる階層間の一貫性を維持しつつ,同一階層内の環境の多様性を学習するためのモデルを提案する。 このアプローチにより,我々のモデルは環境間の関係を考慮し,頑健なグラフ不変学習を容易にする。 実世界のグラフデータに関する大規模な実験は、我々のフレームワークの有効性を実証した。 特に、挑戦的なデータセットであるTarmOODでは、IC50とEC50の予測タスクの最良のベースラインに対して、最大1.29%と2.83%の改善が達成されている。

Out-of-distribution (OOD) generalization in the graph domain is challenging due to complex distribution shifts and a lack of environmental contexts. Recent methods attempt to enhance graph OOD generalization by generating flat environments. However, such flat environments come with inherent limitations to capture more complex data distributions. Considering the DrugOOD dataset, which contains diverse training environments (e.g., scaffold, size, etc.), flat contexts cannot sufficiently address its high heterogeneity. Thus, a new challenge is posed to generate more semantically enriched environments to enhance graph invariant learning for handling distribution shifts. In this paper, we propose a novel approach to generate hierarchical semantic environments for each graph. Firstly, given an input graph, we explicitly extract variant subgraphs from the input graph to generate proxy predictions on local environments. Then, stochastic attention mechanisms are employed to re-extract the subgraphs for regenerating global environments in a hierarchical manner. In addition, we introduce a new learning objective that guides our model to learn the diversity of environments within the same hierarchy while maintaining consistency across different hierarchies. This approach enables our model to consider the relationships between environments and facilitates robust graph invariant learning. Extensive experiments on real-world graph data have demonstrated the effectiveness of our framework. Particularly, in the challenging dataset DrugOOD, our method achieves up to 1.29% and 2.83% improvement over the best baselines on IC50 and EC50 prediction tasks, respectively.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-03
# 生成AIの不均一な生産性効果

The Heterogeneous Productivity Effects of Generative AI ( http://arxiv.org/abs/2403.01964v2 )

ライセンス: Link先を確認
David Kreitmeir, Paul A. Raschky, (参考訳) 我々は、イタリアのChatGPT禁止による個人の生産性への影響を分析する。 私たちは、イタリアや他のヨーロッパ諸国で3万6000人以上のGitHubユーザの毎日のコーディングアウトプット量と品質に関するデータをコンパイルし、これらのデータを、差分差分フレームワークによる突然の禁止の発表と組み合わせます。 イタリアの影響を受けたユーザのうち、経験不足のユーザに対しては、短期的なアウトプット量と品質の増加、経験不足のユーザに対しては、より日常的なタスクに対する生産性の低下が見られます。

We analyse the individual productivity effects of Italy's ban on ChatGPT, a generative pretrained transformer chatbot. We compile data on the daily coding output quantity and quality of over 36,000 GitHub users in Italy and other European countries and combine these data with the sudden announcement of the ban in a difference-in-differences framework. Among the affected users in Italy, we find a short-term increase in output quantity and quality for less experienced users and a decrease in productivity on more routine tasks for experienced users.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-03
# キャリブレーションされたディープクラスタリングネットワークを目指して

Towards Calibrated Deep Clustering Network ( http://arxiv.org/abs/2403.02998v2 )

ライセンス: Link先を確認
Yuheng Jia, Jianhong Cheng, Hui Liu, Junhui Hou, (参考訳) 深層クラスタリングは目覚ましい性能を示したが、特定のクラスタに属するサンプルの信頼度が実際の予測精度を大きく上回っているというオーバー信頼の問題が、以前の研究で見過ごされてきた。 この重要な問題に対処するため、我々はキャリブレーションされたディープクラスタリングフレームワークの開発を開拓した。 具体的には、推定された信頼度と実際の精度を効果的にキャリブレーションできる新しいデュアルヘッド(キャリブレーションヘッドとクラスタリングヘッド)深層クラスタリングモデルを提案する。 校正ヘッドは、クラスタリングヘッドの過信予測を調整し、モデル学習状態と一致する予測信頼を生成する。 そして、クラスタリングヘッドは、疑似ラベル自己学習のための校正ヘッドによって推定される信頼性の高い高信頼サンプルを動的に選択する。 さらに,トレーニング速度とネットワーク堅牢性を両立させる効果的なネットワーク初期化戦略を導入する。 キャリブレーション手法と初期化戦略の有効性は、どちらも確固とした理論的保証に支えられている。 大規模実験により, 提案手法は, 最先端の深層クラスタリング手法を10倍に上回るだけでなく, クラスタリング精度も大幅に向上した。

Deep clustering has exhibited remarkable performance; however, the over-confidence problem, i.e., the estimated confidence for a sample belonging to a particular cluster greatly exceeds its actual prediction accuracy, has been overlooked in prior research. To tackle this critical issue, we pioneer the development of a calibrated deep clustering framework. Specifically, we propose a novel dual-head (calibration head and clustering head) deep clustering model that can effectively calibrate the estimated confidence and the actual accuracy. The calibration head adjusts the overconfident predictions of the clustering head, generating prediction confidence that match the model learning status. Then, the clustering head dynamically select reliable high-confidence samples estimated by the calibration head for pseudo-label self-training. Additionally, we introduce an effective network initialization strategy that enhances both training speed and network robustness. The effectiveness of the proposed calibration approach and initialization strategy are both endorsed with solid theoretical guarantees. Extensive experiments demonstrate the proposed calibrated deep clustering model not only surpasses state-of-the-art deep clustering methods by 10 times in terms of expected calibration error but also significantly outperforms them in terms of clustering accuracy.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-03
# 人間対機械:ウォーゲームシミュレーションにおける専門家人間と言語モデル間の行動的差異

Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations ( http://arxiv.org/abs/2403.03407v2 )

ライセンス: Link先を確認
Max Lamparth, Anthony Corso, Jacob Ganz, Oriana Skylar Mastro, Jacquelyn Schneider, Harold Trinkunas, (参考訳) 人工知能(AI)の出現は、人間の誤りや感情の影響を減らしながら、より良い意思決定と軍事的効果を約束する者もいる。 しかし、AIシステム、特に大規模言語モデル(LLMs)は、エスカレーションや不要な紛争に対するリスクの増加の可能性を秘めている軍事的意思決定シナリオにおいて、人間に比較してどのように振る舞うかについては、依然として議論がある。 この可能性を検証し, LLMの使用を精査するために, 架空の米中シナリオにおける危機エスカレーションを考慮し, 個別のシミュレーションで人間プレイヤーとLLMシミュレーション応答を比較した, 107人の国家安全保障専門家による新たなウォーゲーム実験を行った。 戦争は軍事戦略の発展と国家の脅威や攻撃に対する対応において長い歴史を持っている。 ここでは, LLMとヒトの反応における高いレベルの合意と, 個々の行動と戦略傾向の有意な定量的, 質的な差異を示す。 これらの違いは、戦略的な指示による暴力の適切なレベル、LSMの選択、LSMがプレイヤーのチームを直接決定するか、最初にプレイヤー間の対話をシミュレートするかといった、LSMの固有のバイアスに依存する。 ダイアログをシミュレートする場合、議論は品質を欠き、極端に調和を維持します。 LLMシミュレーションは「平和主義者」や「攻撃的な社会パス」のような極端な特徴でさえ有意な違いを示さず、人間のプレイヤーの特徴を説明できない。 当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。

To some, the advent of artificial intelligence (AI) promises better decision-making and increased military effectiveness while reducing the influence of human error and emotions. However, there is still debate about how AI systems, especially large language models (LLMs), behave compared to humans in high-stakes military decision-making scenarios with the potential for increased risks towards escalation and unnecessary conflicts. To test this potential and scrutinize the use of LLMs for such purposes, we use a new wargame experiment with 107 national security experts designed to look at crisis escalation in a fictional US-China scenario and compare human players to LLM-simulated responses in separate simulations. Wargames have a long history in the development of military strategy and the response of nations to threats or attacks. Here, we show a considerable high-level agreement in the LLM and human responses and significant quantitative and qualitative differences in individual actions and strategic tendencies. These differences depend on intrinsic biases in LLMs regarding the appropriate level of violence following strategic instructions, the choice of LLM, and whether the LLMs are tasked to decide for a team of players directly or first to simulate dialog between players. When simulating the dialog, the discussions lack quality and maintain a farcical harmony. The LLM simulations cannot account for human player characteristics, showing no significant difference even for extreme traits, such as "pacifist" or "aggressive sociopath". Our results motivate policymakers to be cautious before granting autonomy or following AI-based strategy recommendations.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-03
# SPEAR:フェデレートラーニングにおけるバッチの具体的なグラディエント・インバージョン

SPEAR:Exact Gradient Inversion of Batches in Federated Learning ( http://arxiv.org/abs/2403.03945v2 )

ライセンス: Link先を確認
Dimitar I. Dimitrov, Maximilian Baader, Mark Niklas Müller, Martin Vechev, (参考訳) フェデレーション・ラーニング(Federated Learning)は、クライアントがサーバとプライベートデータを共有するのではなく、グラデーションアップデートのみを共有する、コラボレーティブな機械学習のためのフレームワークである。 しかし、近年、勾配反転攻撃は共有勾配からこのデータを再構成できることが示されている。 重要な誠実だが正確な設定では、既存のアタックは、バッチサイズが$b=1$でのみ正確なリコンストラクションを可能にし、より大きなバッチは、近似的なリコンストラクションのみを可能にする。 本研究では,バッチ全体を正確に$b > 1$で再構築する最初のアルゴリズムであるSPEARを提案する。 SPEARは、勾配の明示的な低ランク構造に対する洞察とサンプリングベースのアルゴリズムを組み合わせる。 重要なことは、ReLUにより誘導される勾配空間を利用して、多数の不正確なサンプルを正確にフィルタリングし、最終的な再構築ステップを抽出できるようにする。 完全に接続されたネットワークに対して効率的なGPU実装を提供し、大規模ネットワークへのスケーリング中に最大$b \lesssim 25$のバッチで高次元のImageNet入力を復元することを示す。 最後に,指数時間に対して高い確率でより大きなバッチを再構成できることを理論的に示す。

Federated learning is a framework for collaborative machine learning where clients only share gradient updates and not their private data with a server. However, it was recently shown that gradient inversion attacks can reconstruct this data from the shared gradients. In the important honest-but-curious setting, existing attacks enable exact reconstruction only for a batch size of $b=1$, with larger batches permitting only approximate reconstruction. In this work, we propose SPEAR, the first algorithm reconstructing whole batches with $b >1$ exactly. SPEAR combines insights into the explicit low-rank structure of gradients with a sampling-based algorithm. Crucially, we leverage ReLU-induced gradient sparsity to precisely filter out large numbers of incorrect samples, making a final reconstruction step tractable. We provide an efficient GPU implementation for fully connected networks and show that it recovers high-dimensional ImageNet inputs in batches of up to $b \lesssim 25$ exactly while scaling to large networks. Finally, we show theoretically that much larger batches can be reconstructed with high probability given exponential time.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-03
# マイクロアクション認識のベンチマーク:データセット、メソッド、アプリケーション

Benchmarking Micro-action Recognition: Dataset, Methods, and Applications ( http://arxiv.org/abs/2403.05234v2 )

ライセンス: Link先を確認
Dan Guo, Kun Li, Bin Hu, Yan Zhang, Meng Wang, (参考訳) マイクロアクション(Micro-action)は、低強度運動を特徴とする非言語行動である。 個人の感情や意図に関する洞察を与え、感情認識や心理評価といった人間指向の応用に重要である。 しかし、マイクロアクションの識別、分化、理解は、日常生活におけるこれらの微妙な人間の行動の知覚不能で到達不能な性質のために困難を生じさせる。 本研究では、マイクロアクション52(MA-52)と呼ばれる新しいマイクロアクションデータセットを革新的に収集し、マイクロアクション認識(MAR)タスクのためのマイクロアクションネットワーク(MANet)というベンチマークを提案する。 MA-52は、ジェスチャー、上肢と下肢の動きを含む全身的な視点を提供し、包括的なマイクロアクションの手がかりを明らかにする。 詳しくは、MA-52には、52のマイクロアクションカテゴリと7つのボディパートラベルが含まれており、心理学的インタビューから照合された205の参加者と22,422の動画インスタンスを考慮に入れ、現実的で自然なマイクロアクションを網羅している。 提案したデータセットに基づいて,MANetおよび他の9つの代表的な行動認識手法を評価する。 MANetは、マイクロアクションの時空間特性をモデル化するためのResNetアーキテクチャに、SEとTSMを組み込んでいる。 次に、ビデオラベルとアクションラベルのセマンティックマッチングのために、共同埋め込み損失を設計する。 感情認識における拡張された応用は、提案したデータセットと手法の重要な価値の1つを実証した。 将来的には、人間の行動、感情、心理的評価のさらなる探究が深く行われる。 データセットとソースコードはhttps://github.com/VUT-HFUT/Micro-Actionで公開されている。

Micro-action is an imperceptible non-verbal behaviour characterised by low-intensity movement. It offers insights into the feelings and intentions of individuals and is important for human-oriented applications such as emotion recognition and psychological assessment. However, the identification, differentiation, and understanding of micro-actions pose challenges due to the imperceptible and inaccessible nature of these subtle human behaviors in everyday life. In this study, we innovatively collect a new micro-action dataset designated as Micro-action-52 (MA-52), and propose a benchmark named micro-action network (MANet) for micro-action recognition (MAR) task. Uniquely, MA-52 provides the whole-body perspective including gestures, upper- and lower-limb movements, attempting to reveal comprehensive micro-action cues. In detail, MA-52 contains 52 micro-action categories along with seven body part labels, and encompasses a full array of realistic and natural micro-actions, accounting for 205 participants and 22,422 video instances collated from the psychological interviews. Based on the proposed dataset, we assess MANet and other nine prevalent action recognition methods. MANet incorporates squeeze-and excitation (SE) and temporal shift module (TSM) into the ResNet architecture for modeling the spatiotemporal characteristics of micro-actions. Then a joint-embedding loss is designed for semantic matching between video and action labels; the loss is used to better distinguish between visually similar yet distinct micro-action categories. The extended application in emotion recognition has demonstrated one of the important values of our proposed dataset and method. In the future, further exploration of human behaviour, emotion, and psychological assessment will be conducted in depth. The dataset and source code are released at https://github.com/VUT-HFUT/Micro-Action.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-03
# SPAFormer: トランスフォーマーを備えた逐次3Dパーツアセンブリ

SPAFormer: Sequential 3D Part Assembly with Transformers ( http://arxiv.org/abs/2403.05874v2 )

ライセンス: Link先を確認
Boshen Xu, Sipeng Zheng, Qin Jin, (参考訳) SPAFormerは,3Dパートアセンブリ(3D-PA)タスクにおける組合せ的爆発的課題を克服するために設計された,革新的なモデルである。 このタスクは、各部品のポーズと形状を逐次的に正確に予測することを必要とし、部品の数が増えるにつれて、可能な組み立ての組み合わせは指数関数的に増加し、3D-PAの有効性を著しく阻害する組合せ爆発を引き起こす。 SPAFormerは、アセンブリシーケンスからの弱い制約を活用することでこの問題に対処し、ソリューション空間の複雑さを効果的に低減する。 組立部分列は、単語によって構成されている文に似た構成規則を伝達するため、並列生成と自己回帰生成の両方を探索する。 さらに、部品の属性とそのシーケンス情報を利用する知識強化戦略を通じてアセンブリを強化し、固有のアセンブリパターンと順序順に順序付けられた部品間の関係をキャプチャする。 また、SPAFormerの有効性をより包括的に検証するために、21種類のカテゴリをカバーするPartNet-Assemblyというより困難なベンチマークを構築した。 大規模な実験では、SPAFormerの優れた一般化能力、特にマルチタスクや長期水平組立を必要とするシナリオが示される。 コードとモデルの重み付けはhttps://github.com/xuboshen/SPAFormer.comで公開される。

We introduce SPAFormer, an innovative model designed to overcome the combinatorial explosion challenge in the 3D Part Assembly (3D-PA) task. This task requires accurate prediction of each part's pose and shape in sequential steps, and as the number of parts increases, the possible assembly combinations increase exponentially, leading to a combinatorial explosion that severely hinders the efficacy of 3D-PA. SPAFormer addresses this problem by leveraging weak constraints from assembly sequences, effectively reducing the solution space's complexity. Since assembly part sequences convey construction rules similar to sentences being structured through words, our model explores both parallel and autoregressive generation. It further enhances assembly through knowledge enhancement strategies that utilize the attributes of parts and their sequence information, enabling it to capture the inherent assembly pattern and relationships among sequentially ordered parts. We also construct a more challenging benchmark named PartNet-Assembly covering 21 varied categories to more comprehensively validate the effectiveness of SPAFormer. Extensive experiments demonstrate the superior generalization capabilities of SPAFormer, particularly with multi-tasking and in scenarios requiring long-horizon assembly. Codes and model weights will be released at https://github.com/xuboshen/SPAFormer.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-03
# フェデレーション・インクリメンタル・ラーニングにおける効果的なリプレイに向けて

Towards Efficient Replay in Federated Incremental Learning ( http://arxiv.org/abs/2403.05890v3 )

ライセンス: Link先を確認
Yichen Li, Qunwei Li, Haozhao Wang, Ruixuan Li, Wenliang Zhong, Guannan Zhang, (参考訳) フェデレートラーニング(FL)では、各クライアントのデータは通常、固定または静的であると仮定される。 しかし、データドメインが動的に増大する可能性がある現実世界のアプリケーションでは、データが漸進的に現れることが多い。 本研究では,フェデレーション付きインクリメンタルラーニング(FIL)シナリオにおけるデータ不均一性による破滅的忘れについて検討する。 本稿では,FIL 用のシンプルな汎用フレームワーク Re-Fed を提案する。 より具体的には、新しいタスクが到着すると、各クライアントはまず、グローバルとローカルの重要度に基づいて、選択したサンプルをキャッシュする。 そして、クライアントは新しいタスクからキャッシュされたサンプルとサンプルの両方でローカルモデルをトレーニングします。 理論的には、リプレイのための重要なサンプルを見つけるためのRe-Fedの能力を分析し、破滅的な忘れの問題を軽減する。 さらに,Re-Fedは最先端の手法に比べて競争性能が高いことを示す。

In Federated Learning (FL), the data in each client is typically assumed fixed or static. However, data often comes in an incremental manner in real-world applications, where the data domain may increase dynamically. In this work, we study catastrophic forgetting with data heterogeneity in Federated Incremental Learning (FIL) scenarios where edge clients may lack enough storage space to retain full data. We propose to employ a simple, generic framework for FIL named Re-Fed, which can coordinate each client to cache important samples for replay. More specifically, when a new task arrives, each client first caches selected previous samples based on their global and local importance. Then, the client trains the local model with both the cached samples and the samples from the new task. Theoretically, we analyze the ability of Re-Fed to discover important samples for replay thus alleviating the catastrophic forgetting problem. Moreover, we empirically show that Re-Fed achieves competitive performance compared to state-of-the-art methods.
翻訳日:2024-06-04 15:57:12 公開日:2024-06-03
# AIに基づくシステムにおけるアセット中心の脅威モデリング

Asset-centric Threat Modeling for AI-based Systems ( http://arxiv.org/abs/2403.06512v2 )

ライセンス: Link先を確認
Jan von der Assen, Jamo Sharif, Chao Feng, Christian Killer, Gérôme Bovet, Burkhard Stiller, (参考訳) 脅威モデリングは、敵による将来の損害の潜在的な領域を認識させることにより、システム開発を確実にするための一般的な手法である。 しかし、人工知能に依存するシステムの脅威モデリングはまだ十分に研究されていない。 従来の脅威モデリング手法とツールはAI関連の脅威には対処しなかったが、この融合の研究には、プロセスのガイドと自動化が可能なソリューションがまだ欠けている。 本稿では、AI関連資産、脅威、対策、残留リスクの定量化のためのガイダンスと自動化を提供するアプローチとツールであるThreatFinderAIを提案する。 このアプローチの実用性を評価するため、参加者はAIベースのヘルスケアプラットフォームのサイバーセキュリティ専門家によって開発された脅威モデルを再現するよう命じられた。 第2に、このアプローチはLLMベースのアプリケーションにおける戦略的リスクを特定し、議論するために、ケーススタディを通じて使用された。 全体として、ソリューションのユーザビリティはよく認識され、脅威の識別とリスクの議論を効果的にサポートする。

Threat modeling is a popular method to securely develop systems by achieving awareness of potential areas of future damage caused by adversaries. However, threat modeling for systems relying on Artificial Intelligence is still not well explored. While conventional threat modeling methods and tools did not address AI-related threats, research on this amalgamation still lacks solutions capable of guiding and automating the process, as well as providing evidence that the methods hold up in practice. Consequently, this paper presents ThreatFinderAI, an approach and tool providing guidance and automation to model AI-related assets, threats, countermeasures, and quantify residual risks. To evaluate the practicality of the approach, participants were tasked to recreate a threat model developed by cybersecurity experts of an AI-based healthcare platform. Secondly, the approach was used to identify and discuss strategic risks in an LLM-based application through a case study. Overall, the solution's usability was well-perceived and effectively supports threat identification and risk discussion.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-03
# 多段階一貫性モデル

Multistep Consistency Models ( http://arxiv.org/abs/2403.06807v2 )

ライセンス: Link先を確認
Jonathan Heek, Emiel Hoogeboom, Tim Salimans, (参考訳) 拡散モデルは比較的訓練が容易であるが、サンプルを生成するには多くのステップが必要である。 一貫性モデルはトレーニングがはるかに難しいが、単一のステップでサンプルを生成する。 本稿では,一貫性モデルと拡散モデルの間に補間可能な,一貫性モデル (Song et al , 2023) とTRACT (Berthelot et al , 2023) の融合,すなわちサンプリング速度とサンプリング品質のトレードオフを提案する。 具体的には、1段階の一貫性モデルは従来の一貫性モデルであるが、$\infty$-stepの一貫性モデルは拡散モデルである。 マルチステップ一貫性モデルは、実際に非常にうまく機能します。 サンプル予算を1ステップから2~8ステップに増やすことで、サンプリング速度のメリットの多くを保持しながら、より高い品質のサンプルを生成するモデルをより容易にトレーニングすることが可能になります。 注目すべき結果は、Imagenet 64で8ステップで1.4 FID、Imagenet128で2.1 FID、一貫性のある蒸留で8ステップで2.1 FID、対向訓練なしで単純な損失を使用することである。 また,本手法はテキストと画像の拡散モデルにスケールし,元のモデルの品質に近いサンプルを生成する。

Diffusion models are relatively easy to train but require many steps to generate samples. Consistency models are far more difficult to train, but generate samples in a single step. In this paper we propose Multistep Consistency Models: A unification between Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that can interpolate between a consistency model and a diffusion model: a trade-off between sampling speed and sampling quality. Specifically, a 1-step consistency model is a conventional consistency model whereas a $\infty$-step consistency model is a diffusion model. Multistep Consistency Models work really well in practice. By increasing the sample budget from a single step to 2-8 steps, we can train models more easily that generate higher quality samples, while retaining much of the sampling speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1 FID on Imagenet128 in 8 steps with consistency distillation, using simple losses without adversarial training. We also show that our method scales to a text-to-image diffusion model, generating samples that are close to the quality of the original model.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-03
# LLMはデータから命令を分離できるのか?

Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? ( http://arxiv.org/abs/2403.06833v2 )

ライセンス: Link先を確認
Egor Zverev, Sahar Abdelnabi, Soroush Tabesh, Mario Fritz, Christoph H. Lampert, (参考訳) LLM (Instruction-tuned Large Language Models) は、多くの実践的な応用において印象的な結果を示すが、コンピュータ科学の他の分野、特に命令とデータの明確な分離に共通する重要な安全性機能は欠如している。 これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。 驚くべきことに、この現象を定量化するための確立した定義やベンチマークは今のところ存在しない。 本研究では,モデル出力から計算可能な命令データ分離の形式的尺度と経験的不変量を導入することにより,このギャップを埋める。 また、実世界のモデルの測度を推定できる新しいデータセットであるSEPも提示する。 全てのモデルが高い分離を達成できず、素早い工学や微調整といった標準緩和技術は、分離やモデルの実用性を大幅に改善することができない。 ソースコードとSEPデータセットはhttps://github.com/egozverev/Shold-It-Be-Executed-Or-Processedで公開されている。

Instruction-tuned Large Language Models (LLMs) show impressive results in numerous practical applications, but they lack essential safety features that are common in other areas of computer science, particularly an explicit separation of instructions and data. This makes them vulnerable to manipulations such as indirect prompt injections and generally unsuitable for safety-critical tasks. Surprisingly, there is currently no established definition or benchmark to quantify this phenomenon. In this work, we close this gap by introducing a formal measure for instruction-data separation and an empirical variant that is calculable from a model's outputs. We also present a new dataset, SEP, that allows estimating the measure for real-world models. Our results on various LLMs show that the problem of instruction-data separation is real: all models fail to achieve high separation, and canonical mitigation techniques, such as prompt engineering and fine-tuning, either fail to substantially improve separation or reduce model utility. The source code and SEP dataset are openly accessible at https://github.com/egozverev/Shold-It-Be-Executed-Or-Processed.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-03
# 分子を解釈可能な文法のランダムウォークとして表現する

Representing Molecules as Random Walks Over Interpretable Grammars ( http://arxiv.org/abs/2403.08147v3 )

ライセンス: Link先を確認
Michael Sun, Minghao Guo, Weize Yuan, Veronika Thost, Crystal Elaine Owens, Aristotle Franklin Grosz, Sharvaa Selvan, Katelyn Zhou, Hassan Mohiuddin, Benjamin J Pedretti, Zachary P Smith, Jie Chen, Wojciech Matusik, (参考訳) 分子発見の最近の研究は、主に小さな薬物のような分子に焦点が当てられ、同様に材料設計において適切な技術を持たない多くの重要な応用が残されている。 これらの応用は、既知のサブ構造を用いて慎重に設計されるサンプルが少なく、より複雑な分子構造に依存していることが多い。 本稿では,設計基盤となるモチーフを特徴とする階層設計空間を明示的に記述したグラフ文法を用いて,そのような分子を表現・推論するためのデータ効率・解釈可能なモデルを提案する。 本稿では,分子生成と特性予測の両方を容易にする設計空間上のランダムウォークという,新しい表現を提案する。 本研究では, 予測分子の性能, 効率, 合成可能性の観点から, 既存の手法に対する明確な優位性を実証し, 提案手法の化学的解釈可能性に関する詳細な知見を提供する。

Recent research in molecular discovery has primarily been devoted to small, drug-like molecules, leaving many similarly important applications in material design without adequate technology. These applications often rely on more complex molecular structures with fewer examples that are carefully designed using known substructures. We propose a data-efficient and interpretable model for representing and reasoning over such molecules in terms of graph grammars that explicitly describe the hierarchical design space featuring motifs to be the design basis. We present a novel representation in the form of random walks over the design space, which facilitates both molecule generation and property prediction. We demonstrate clear advantages over existing methods in terms of performance, efficiency, and synthesizability of predicted molecules, and we provide detailed insights into the method's chemical interpretability.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-03
# 非線形システム理論を用いた収束保証による最適化の学習

Learning to optimize with convergence guarantees using nonlinear system theory ( http://arxiv.org/abs/2403.09389v2 )

ライセンス: Link先を確認
Andrea Martin, Luca Furieri, (参考訳) 動的システムを制御したり、機械学習モデルを訓練するための数値的な手法への依存度が増すにつれ、複雑な最適化ランドスケープを確実に効率的にナビゲートするアルゴリズムを考案する必要性が高まっている。 古典的な勾配降下法は凸問題に対して強い理論的保証を与えるが、非凸問題に対して厳密なハイパーパラメータチューニングを要求する。 新たな学習パラダイムであるL2Oは、学習モデルとデータを活用する最適化されたパフォーマンスを備えたアルゴリズムの発見を自動化するが、学習アルゴリズムの収束を分析する理論的枠組みは欠如している。 本稿では,非線形システム理論を利用して,このギャップを埋める。 具体的には、滑らかな非凸目的関数に対する全収束アルゴリズムの非制約パラメトリゼーションを提案する。 特に、我々のフレームワークは自動微分ツールと直接互換性があり、最適化を学習しながら設計による収束を保証する。

The increasing reliance on numerical methods for controlling dynamical systems and training machine learning models underscores the need to devise algorithms that dependably and efficiently navigate complex optimization landscapes. Classical gradient descent methods offer strong theoretical guarantees for convex problems; however, they demand meticulous hyperparameter tuning for non-convex ones. The emerging paradigm of learning to optimize (L2O) automates the discovery of algorithms with optimized performance leveraging learning models and data - yet, it lacks a theoretical framework to analyze convergence of the learned algorithms. In this paper, we fill this gap by harnessing nonlinear system theory. Specifically, we propose an unconstrained parametrization of all convergent algorithms for smooth non-convex objective functions. Notably, our framework is directly compatible with automatic differentiation tools, ensuring convergence by design while learning to optimize.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-03
# 品質多様性アクター批判:価値・継承的特徴批判によるハイパフォーマンス・ディヴァージョンの学習

Quality-Diversity Actor-Critic: Learning High-Performing and Diverse Behaviors via Value and Successor Features Critics ( http://arxiv.org/abs/2403.09930v3 )

ライセンス: Link先を確認
Luca Grillotti, Maxence Faldor, Borja G. León, Antoine Cully, (参考訳) 知性の重要な側面は、予期せぬ状況に適応するための幅広い行動のスペクトルを示す能力である。 過去10年間で、深層強化学習の進歩は、複雑な継続的制御タスクを解決するための画期的な成果をもたらした。 しかし、ほとんどのアプローチは特定の問題に特化した1つの解しか返さない。 本稿では,QDAC(Quality-Diversity Actor-Critic)について紹介する。QDAC(Quality-Diversity Actor-Critic)とは,価値関数批判と後継機能批判を利用して,ハイパフォーマンスで多様な振る舞いを学習する,非政治アクタ批判的深層強化学習アルゴリズムである。 この枠組みでは,(1)リターンを最大化し,(2)多様なスキルを実行するために,アクターが制約付き最適化を用いて両批評家をシームレスに統一する目的を最適化する。 他の品質多様性手法と比較すると、QDACは6つの困難な連続制御ロコモーションタスクにおいて、より高いパフォーマンスとより多様な振る舞いを達成する。 また、学習したスキルを活用して、他のベースラインよりも5つの摂動環境に適応できることも示しています。 最後に、定性的分析は、アダプティブ・インテリジェント・ロボティクス.github.io/QDACという、様々な顕著な行動を示す。

A key aspect of intelligence is the ability to demonstrate a broad spectrum of behaviors for adapting to unexpected situations. Over the past decade, advancements in deep reinforcement learning have led to groundbreaking achievements to solve complex continuous control tasks. However, most approaches return only one solution specialized for a specific problem. We introduce Quality-Diversity Actor-Critic (QDAC), an off-policy actor-critic deep reinforcement learning algorithm that leverages a value function critic and a successor features critic to learn high-performing and diverse behaviors. In this framework, the actor optimizes an objective that seamlessly unifies both critics using constrained optimization to (1) maximize return, while (2) executing diverse skills. Compared with other Quality-Diversity methods, QDAC achieves significantly higher performance and more diverse behaviors on six challenging continuous control locomotion tasks. We also demonstrate that we can harness the learned skills to adapt better than other baselines to five perturbed environments. Finally, qualitative analyses showcase a range of remarkable behaviors: adaptive-intelligent-robotics.github.io/QDAC.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-03
# SrまたはYb原子に対する単一光子大分子移動原子干渉法と微細構造定数決定への応用

A single-photon large-momentum-transfer atom interferometry scheme for Sr or Yb atoms with application to determining the fine-structure constant ( http://arxiv.org/abs/2403.10225v2 )

ライセンス: Link先を確認
Jesse S. Schelfhout, Thomas M. Hird, Kenneth M. Hughes, Christopher J. Foot, (参考訳) 微細構造定数である$\alpha$の実験的な決定は、現在、絶対質量測定を提供するために大きな運動量移動を持つラムゼー・ボーデ原子干渉計による原子光子-反コイル測定に依存している。 本研究では、中性原子種の光子反動を1光子光時計遷移で測定する中間スケール原子干渉計の実験手法を提案する。 適切な初期条件で2つの超低温原子雲を独立に打ち上げることにより、所望の重力勾配位相を無効化しつつ、リコイル位相を最適化する手法の軌道を計算する。 Sr と Yb では、現在の技術で絶対質量測定精度が $\Delta m / m \sim 1\times 10^{-11}$ の原子干渉計が十分である。 このような正確な測定(Sr または Yb にとって最初の)は、絶対質量測定によって制限されない不確実性である $\alpha$ で不確実性を半減する。 この制限の除去により、相対的な質量測定の改善により、$\alpha$の不確実性は10倍に減少し、粒子物理学の標準模型の高精度な試験の道を開くことができる。

The leading experimental determinations of the fine-structure constant, $\alpha$, currently rely on atomic photon-recoil measurements from Ramsey-Bord\'e atom interferometry with large momentum transfer to provide an absolute mass measurement. We propose an experimental scheme for an intermediate-scale differential atom interferometer to measure the photon-recoil of neutral atomic species with a single-photon optical clock transition. We calculate trajectories for our scheme that optimise the recoil phase while nullifying the undesired gravity-gradient phase by considering independently launching two clouds of ultracold atoms with the appropriate initial conditions. For Sr and Yb, we find an atom interferometer of height 3m to be sufficient for an absolute mass measurement precision of $\Delta m / m \sim 1\times 10^{-11}$ with current technology. Such a precise measurement (the first of its kind for Sr or Yb) would halve the uncertainty in $\alpha$ -- an uncertainty that would no longer be limited by an absolute mass measurement. The removal of this limitation would allow the uncertainty in $\alpha$ to be reduced by a factor of 10 by corresponding improvements in relative mass measurements, thus paving the way for higher-precision tests of the Standard Model of particle physics.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-03
# Mixture-of-Experts Adapters を用いた視覚言語モデルの連続学習の促進

Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters ( http://arxiv.org/abs/2403.11549v2 )

ライセンス: Link先を確認
Jiazuo Yu, Yunzhi Zhuge, Lu Zhang, Ping Hu, Dong Wang, Huchuan Lu, You He, (参考訳) 継続的な学習は、履歴データセット全体にアクセスする必要なしに、視覚言語モデルに新しい知識を継続的に取得する権限を与える。 しかし、大規模モデルの性能劣化を緩和するのは簡単ではない。 一 生涯学習を通してのパラメータシフト (II)フルモデルチューニングに伴う計算負荷が大きい。 本研究では,視覚言語モデルを用いた漸進的学習における長期的忘れを軽減するためのパラメータ効率のよい連続学習フレームワークを提案する。 我々のアプローチは、新しいタスクに対応するMixture-of-Experts (MoE)アダプタの統合を通じて、事前訓練されたCLIPモデルの動的拡張を伴う。 さらに、視覚言語モデルのゼロショット認識能力を保ちつつ、分散識別オートセレクタ (DDAS) を導入し、各入力をMoEアダプタとオリジナルのCLIPに自動的にルーティングする。 提案手法は,様々な環境における広範囲な実験を通じて,パラメータ学習負荷を60%削減しつつ,従来手法よりも一貫して性能を向上する。 私たちのコードはhttps://github.com/JiazuoYu/MoE-Adapters4CLにあります。

Continual learning can empower vision-language models to continuously acquire new knowledge, without the need for access to the entire historical dataset. However, mitigating the performance degradation in large-scale models is non-trivial due to (i) parameter shifts throughout lifelong learning and (ii) significant computational burdens associated with full-model tuning. In this work, we present a parameter-efficient continual learning framework to alleviate long-term forgetting in incremental learning with vision-language models. Our approach involves the dynamic expansion of a pre-trained CLIP model, through the integration of Mixture-of-Experts (MoE) adapters in response to new tasks. To preserve the zero-shot recognition capability of vision-language models, we further introduce a Distribution Discriminative Auto-Selector (DDAS) that automatically routes in-distribution and out-of-distribution inputs to the MoE Adapter and the original CLIP, respectively. Through extensive experiments across various settings, our proposed method consistently outperforms previous state-of-the-art approaches while concurrently reducing parameter training burdens by 60%. Our code locates at https://github.com/JiazuoYu/MoE-Adapters4CL
翻訳日:2024-06-04 15:47:27 公開日:2024-06-03
# INSIGHT: 言語説明による終末から終末へのニューロシンボリック視覚強化学習

INSIGHT: End-to-End Neuro-Symbolic Visual Reinforcement Learning with Language Explanations ( http://arxiv.org/abs/2403.12451v3 )

ライセンス: Link先を確認
Lirui Luo, Guoxi Zhang, Hongming Xu, Yaodong Yang, Cong Fang, Qing Li, (参考訳) ニューロシンボリック強化学習(NS-RL)は、象徴的政策の解釈可能性に特徴付けられる、説明可能な意思決定のための有望なパラダイムとして登場した。 NS-RLは、視覚的な観察を行うタスクの構造化状態表現を必要とするが、従来の手法では効率の欠如により、構造状態の洗練はできない。 アクセシビリティも問題であり、シンボリックポリシーの解釈には広範なドメイン知識が必要である。 本稿では、構造化状態と象徴的政策を共同で学習するための枠組みを提案し、その鍵となる考え方は、視覚基盤モデルをスケーラブルな知覚モジュールに蒸留し、政策学習中にそれを洗練させることである。 さらに、我々は大規模な言語モデルを用いてポリシーや決定のための言語説明を生成するパイプラインを設計する。 9つのアタリタスクの実験において,アプローチの有効性を検証するとともに,政策や意思決定に関する説明も提示する。

Neuro-symbolic reinforcement learning (NS-RL) has emerged as a promising paradigm for explainable decision-making, characterized by the interpretability of symbolic policies. NS-RL entails structured state representations for tasks with visual observations, but previous methods are unable to refine the structured states with rewards due to a lack of efficiency. Accessibility also remains to be an issue, as extensive domain knowledge is required to interpret symbolic policies. In this paper, we present a framework for learning structured states and symbolic policies jointly, whose key idea is to distill vision foundation models into a scalable perception module and refine it during policy learning. Moreover, we design a pipeline to generate language explanations for policies and decisions using large language models. In experiments on nine Atari tasks, we verify the efficacy of our approach, and we also present explanations for policies and decisions.
翻訳日:2024-06-04 15:47:27 公開日:2024-06-03
# FissionFusion:医療画像解析のための高速幾何生成と階層化

FissionFusion: Fast Geometric Generation and Hierarchical Souping for Medical Image Analysis ( http://arxiv.org/abs/2403.13341v2 )

ライセンス: Link先を確認
Santosh Sanjeev, Nuren Zhaksylyk, Ibrahim Almakky, Anees Ur Rehman Hashmi, Mohammad Areeb Qazi, Mohammad Yaqub, (参考訳) 十分に注釈付けされた医療データセットの不足は、ImageNetのような広範なデータセットやCLIPのような事前訓練されたモデルからの移行学習を活用する必要がある。 モデルスープは、In-Domain(ID)タスクのパフォーマンスを改善し、out-of-Distribution(OOD)データセットに対する堅牢性を高めることを目的とした、複数の微調整されたモデルの平均である。 しかし、これらの手法を医用画像領域に適用することは、課題に直面する。 これは主に、不均一性、ドメインシフト、クラス不均衡、トレーニングとテストフェーズ間の分散シフトなどのデータ複雑さに由来するエラー表面特性の違いによる。 この問題に対処するために,モデルのハイパーパラメータ構成に基づいて,モデルが局所的および大域的に集約される階層的なマージ手法を提案する。 さらに、ハイパーパラメータ探索において、多数のモデルをトレーニングする必要性を軽減するため、循環学習率スケジューラを用いて、重み空間におけるアグリゲーションのための複数のモデルを生成する計算効率の良い手法を提案する。 提案手法は,HAM10000データセットとCheXpertデータセットの約6%のゲインを達成しつつ,モデル生成と選択の計算コストを低く抑えながら,複数のデータセットにまたがるモデルスープングアプローチに対する大幅な改善を示す。 さらに,OODデータセットについて,モデルスープよりも優れた結果が得られる。 コードはhttps://github.com/BioMedIA-MBzuAI/FissionFusion.comで公開されている。

The scarcity of well-annotated medical datasets requires leveraging transfer learning from broader datasets like ImageNet or pre-trained models like CLIP. Model soups averages multiple fine-tuned models aiming to improve performance on In-Domain (ID) tasks and enhance robustness against Out-of-Distribution (OOD) datasets. However, applying these methods to the medical imaging domain faces challenges and results in suboptimal performance. This is primarily due to differences in error surface characteristics that stem from data complexities such as heterogeneity, domain shift, class imbalance, and distributional shifts between training and testing phases. To address this issue, we propose a hierarchical merging approach that involves local and global aggregation of models at various levels based on models' hyperparameter configurations. Furthermore, to alleviate the need for training a large number of models in the hyperparameter search, we introduce a computationally efficient method using a cyclical learning rate scheduler to produce multiple models for aggregation in the weight space. Our method demonstrates significant improvements over the model souping approach across multiple datasets (around 6% gain in HAM10000 and CheXpert datasets) while maintaining low computational costs for model generation and selection. Moreover, we achieve better results on OOD datasets than model soups. The code is available at https://github.com/BioMedIA-MBZUAI/FissionFusion.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-03
# モデルオープンネスフレームワーク:人工知能における再現性、透明性、ユーザビリティのための完全性とオープン性を促進する

The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence ( http://arxiv.org/abs/2403.13784v3 )

ライセンス: Link先を確認
Matt White, Ibrahim Haddad, Cailean Osborne, Xiao-Yang Liu Yanglet, Ahmed Abdelmonsef, Sachin Varghese, (参考訳) ジェネレーティブAI(GAI)は、研究とイノベーションの先例のない機会を提供するが、その商業化は透明性、再現性、安全性に関する懸念を引き起こしている。 多くのオープンなGAIモデルは、完全な理解と再現性に必要なコンポーネントを欠いている。 これらの問題に対処するために、我々は、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に従って、その完全性とオープン性に基づいて機械学習モデルを評価するランク付けされた分類システムであるモデルオープンネスフレームワーク(MOF)を提案する。 MOFは、適切なオープンライセンスの下で、モデル開発ライフサイクルの特定のコンポーネントを含め、リリースする必要がある。 このフレームワークは、オープンであると主張するモデルの誤った表現を防止し、研究者や開発者が許容ライセンスの下ですべてのモデルコンポーネントを提供することを誘導し、個人や組織が制約なく安全に採用できるモデルを識別するのを助けることを目的としている。 透明性と再現性を促進することで、MOFは'オープンウォッシング'の実践と戦い、責任あるAIのコアテテットと並行して、完全性とオープン性を主要な基準として確立する。 MOFの広範な採用は、よりオープンなAIエコシステムを育み、研究、イノベーション、最先端モデルの採用に寄与する。

Generative AI (GAI) offers unprecedented opportunities for research and innovation, but its commercialization has raised concerns about transparency, reproducibility, and safety. Many open GAI models lack the necessary components for full understanding and reproducibility, and some use restrictive licenses whilst claiming to be ``open-source''. To address these concerns, we propose the Model Openness Framework (MOF), a ranked classification system that rates machine learning models based on their completeness and openness, following principles of open science, open source, open data, and open access. The MOF requires specific components of the model development lifecycle to be included and released under appropriate open licenses. This framework aims to prevent misrepresentation of models claiming to be open, guide researchers and developers in providing all model components under permissive licenses, and help individuals and organizations identify models that can be safely adopted without restrictions. By promoting transparency and reproducibility, the MOF combats ``openwashing'' practices and establishes completeness and openness as primary criteria alongside the core tenets of responsible AI. Wide adoption of the MOF will foster a more open AI ecosystem, benefiting research, innovation, and adoption of state-of-the-art models.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-03
# 複雑な課題を最適に解決するための学習的政策ベースによる計画

Planning with a Learned Policy Basis to Optimally Solve Complex Tasks ( http://arxiv.org/abs/2403.15301v2 )

ライセンス: Link先を確認
Guillermo Infante, David Kuric, Anders Jonsson, Vicenç Gómez, Herke van Hoof, (参考訳) 従来の強化学習 (RL) 法は, 広範囲な逐次的決定問題の解決に成功している。 しかし、非マルコフ報酬仕様の設定において、複数のタスクに対して予測可能で一般化できる学習ポリシーは難しい問題である。 本稿では,後継機能を用いて政策ベースを学習し,その中の各(サブ)政治が明確に定義されたサブプロブレムを解決することを提案する。 同じサブプロブレムの集合を含む有限状態オートマトン(FSA)によって記述されるタスクでは、これらの(サブ)ポリケーションの組み合わせを使用して、追加の学習なしに最適な解を生成することができる。 計画を通じて(サブ)ポリティシを結合する他の手法とは対照的に,我々の手法は,確率的環境においても,漸近的にグローバルな最適性を達成する。

Conventional reinforcement learning (RL) methods can successfully solve a wide range of sequential decision problems. However, learning policies that can generalize predictably across multiple tasks in a setting with non-Markovian reward specifications is a challenging problem. We propose to use successor features to learn a policy basis so that each (sub)policy in it solves a well-defined subproblem. In a task described by a finite state automaton (FSA) that involves the same set of subproblems, the combination of these (sub)policies can then be used to generate an optimal solution without additional learning. In contrast to other methods that combine (sub)policies via planning, our method asymptotically attains global optimality, even in stochastic environments.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-03
# 圧縮された信頼の復号:圧縮下における効率的なLLMの信頼性の検討

Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression ( http://arxiv.org/abs/2403.15447v2 )

ライセンス: Link先を確認
Junyuan Hong, Jinhao Duan, Chenhui Zhang, Zhangheng Li, Chulin Xie, Kelsey Lieberman, James Diffenderfer, Brian Bartoldson, Ajay Jaiswal, Kaidi Xu, Bhavya Kailkhura, Dan Hendrycks, Dawn Song, Zhangyang Wang, Bo Li, (参考訳) 高機能大言語モデル (LLM) の圧縮は,資源効率のよい推論手法として好まれている。 SoTA(State-of-the-art)圧縮法は、良質なタスク性能の保存において顕著な進歩を誇っているが、安全性と信頼性の点で圧縮の潜在的なリスクは無視されている。 本研究は,8次元(8次元)にわたる5つのSTA圧縮技術を用いて,3つのLLMを徹底的に評価する。 我々の実験は、圧縮と信頼性の間の複雑な相互作用を強調し、興味深いパターンを明らかにします。 量子化は現在、効率性と信頼性を同時に達成する上で、プルーニングよりも効果的なアプローチであることが分かっています。 例えば、4ビットの量子化モデルでは、元のモデルの信頼性は維持されるが、モデルプルーニングは50%の間隔でも信頼性を著しく低下させる。 さらに、適度なビット範囲内での量子化の導入は、倫理や公正といった特定の信頼性の次元を予想外に改善する可能性がある。 逆に、非常に低ビットレベル(3ビット)への極端な量子化は、信頼性を著しく低下させる傾向がある。 このリスクの増加は、良心的なパフォーマンスを単独で見るだけでは発見できない。 これらの知見は, LLMの実用性, 効率, 信頼性を同時に達成するための実践的勧告を導いた。 コードとモデルはhttps://decoding-comp-trust.github.io.comで公開されている。

Compressing high-capability Large Language Models (LLMs) has emerged as a favored strategy for resource-efficient inferences. While state-of-the-art (SoTA) compression methods boast impressive advancements in preserving benign task performance, the potential risks of compression in terms of safety and trustworthiness have been largely neglected. This study conducts the first, thorough evaluation of three (3) leading LLMs using five (5) SoTA compression techniques across eight (8) trustworthiness dimensions. Our experiments highlight the intricate interplay between compression and trustworthiness, revealing some interesting patterns. We find that quantization is currently a more effective approach than pruning in achieving efficiency and trustworthiness simultaneously. For instance, a 4-bit quantized model retains the trustworthiness of its original counterpart, but model pruning significantly degrades trustworthiness, even at 50% sparsity. Moreover, employing quantization within a moderate bit range could unexpectedly improve certain trustworthiness dimensions such as ethics and fairness. Conversely, extreme quantization to very low bit levels (3 bits) tends to reduce trustworthiness significantly. This increased risk cannot be uncovered by looking at benign performance alone, in turn, mandating comprehensive trustworthiness evaluation in practice. These findings culminate in practical recommendations for simultaneously achieving high utility, efficiency, and trustworthiness in LLMs. Code and models are available at https://decoding-comp-trust.github.io.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-03
# 1電子還元密度行列の伝播にメモリを組み込む

Incorporating Memory into Propagation of 1-Electron Reduced Density Matrices ( http://arxiv.org/abs/2403.15596v2 )

ライセンス: Link先を確認
Harish S. Bhat, Hardeep Bassi, Karnamohit Ranka, Christine M. Isborn, (参考訳) 単体プロパゲータによって非帰納力学が支配される任意の線形系に対して、還元次元量に対する閉時間遅れ線形系を導出する。 本稿では,分子中の電子の相関ダイナミクスを解く手法である時間依存構成相互作用(TDCI)における1ドル電子還元密度行列のメモリ依存性を理解するために,本手法を適用した。 時間依存密度汎関数理論は、1ドル電子還元密度がメモリ依存を持つことを証明しているが、このメモリ依存の正確な性質は理解されていない。 我々はTDCI電子密度行列を伝播させる自己完結型対称性・制約保存法を導出した。 本手法は, エルミート対称性や定数トレースなどの密度行列の性質を保存している。 2つのモデルシステムの数値実験($\text{H}_2$と$\text{HeH}^+$)において、十分な時間遅延(またはメモリ依存性)があれば、精度の高いTDCI密度行列を伝搬することを示す。 結果の依存度を時間ステップとベースセットで調査する。 提案手法を実装するために,TDCI密度行列の縮小と完全化に関連する4ドルのインデックステンソルを導出する。 我々の導出は、基底集合、電子の数、波動関数におけるスレーター行列式の選択に関係なく、任意のTDCI系に適用される。 この導出により、還元されたTDCI密度行列の痕跡が定数であり、電子の数と等しいことを示すことができる。

For any linear system where the unreduced dynamics are governed by unitary propagators, we derive a closed, time-delayed, linear system for a reduced-dimensional quantity of interest. We apply this method to understand the memory-dependence of $1$-electron reduced density matrices in time-dependent configuration interaction (TDCI), a scheme to solve for the correlated dynamics of electrons in molecules. Though time-dependent density functional theory has established that the $1$-electron reduced density possesses memory-dependence, the precise nature of this memory-dependence has not been understood. We derive a self-contained, symmetry/constraint-preserving method to propagate reduced TDCI electron density matrices. Our method preserves properties of density matrices such as Hermitian symmetry and constant trace. In numerical tests on two model systems ($\text{H}_2$ and $\text{HeH}^+$), we show that with sufficiently large time-delay (or memory-dependence), our method propagates reduced TDCI density matrices with high quantitative accuracy. We study the dependence of our results on time step and basis set. To implement our method, we derive the $4$-index tensor that relates reduced and full TDCI density matrices. Our derivation applies to any TDCI system, regardless of basis set, number of electrons, or choice of Slater determinants in the wave function. This derivation enables a proof that the trace of the reduced TDCI density matrix is constant and equals the number of electrons.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-03
# マルコフ論理ネットワークにおけるドメインサイズ一般化の理解

Understanding Domain-Size Generalization in Markov Logic Networks ( http://arxiv.org/abs/2403.15933v3 )

ライセンス: Link先を確認
Florian Chen, Felix Weitkämper, Sagar Malhotra, (参考訳) マルコフ論理ネットワーク(MLN)の一般化挙動を,大きさの異なる関係構造にまたがって検討する。 複数の研究が、あるドメインで学んだMLNが、異なるサイズのドメイン間でうまく一般化しないことに気付いた。 この振る舞いは、異なるドメインサイズで使用する場合、MLNの内部一貫性の欠如から生じます。 本稿では,この不整合を定量化し,MLNパラメータの分散を考慮に入れた。 パラメータの分散は、異なる領域サイズから取られたMLNの辺分布間のKL分散も有界である。 これらの境界を用いて、パラメータの分散を最小化しながらデータをログライクな状態に最大化することは、ドメインサイズをまたいだ一般化という2つの自然な概念に対応することを示す。 我々の理論的結果は、指数ランダムグラフや他のマルコフネットワークに基づく関係モデルに適用できる。 最後に、正規化やドメインサイズ認識MLNなどのMLNパラメータの分散を減少させることで知られている解が、MLNの内部整合性を高めることを観察する。 我々は,パラメータ分散を制御する異なる手法を用いて,4つの異なるデータセット上で実験により結果を検証することにより,パラメータ分散の制御がより良い一般化をもたらすことを示す。

We study the generalization behavior of Markov Logic Networks (MLNs) across relational structures of different sizes. Multiple works have noticed that MLNs learned on a given domain generalize poorly across domains of different sizes. This behavior emerges from a lack of internal consistency within an MLN when used across different domain sizes. In this paper, we quantify this inconsistency and bound it in terms of the variance of the MLN parameters. The parameter variance also bounds the KL divergence between an MLN's marginal distributions taken from different domain sizes. We use these bounds to show that maximizing the data log-likelihood while simultaneously minimizing the parameter variance corresponds to two natural notions of generalization across domain sizes. Our theoretical results apply to Exponential Random Graphs and other Markov network based relational models. Finally, we observe that solutions known to decrease the variance of the MLN parameters, like regularization and Domain-Size Aware MLNs, increase the internal consistency of the MLNs. We empirically verify our results on four different datasets, with different methods to control parameter variance, showing that controlling parameter variance leads to better generalization.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-03
# HemoSet: 止血管理の自動化のための最初の血液分画データセット

HemoSet: The First Blood Segmentation Dataset for Automation of Hemostasis Management ( http://arxiv.org/abs/2403.16286v2 )

ライセンス: Link先を確認
Albert J. Miao, Shan Lin, Jingpei Lu, Florian Richter, Benjamin Ostrander, Emily K. Funk, Ryan K. Orosco, Michael C. Yip, (参考訳) 出血はあらゆる種類の手術で起こり、外科医は外科領域を急速に満たす血液から生じる視覚的干渉に迅速に適応せざるを得ない。 止血管理における重要な外科的タスクへの自動化の導入は、手術の効率と安全性を同時に向上させながら、外科医と外科的アシスタントから精神的および身体的なタスクをオフロードする。 止血管理の自動化の第一歩は外科領域における血液の検出である。 外科手術における血液検出アルゴリズムの開発を促進するため,生きた動物外科手術における出血に基づく最初の血液分画データセットであるHemoSetを提案する。 本データセットは, 血管出血例を特徴とし, 血管内乱流が外科領域の異常なプール地平線を生じさせる。 これらのプールは、不均一な異種組織、光沢のある照明条件、迅速な工具移動など、外科手術に適応する条件で形成されている。 我々は、最先端のセグメンテーションモデルをいくつかベンチマークし、血液検出に特有の困難について考察する。 我々は,血液セグメンテーションモデルをトレーニングし,改良するためのプラットフォームを提供することで,HemoSetによる自動血液吸引ツールの開発を促進することを目的としている。

Hemorrhaging occurs in surgeries of all types, forcing surgeons to quickly adapt to the visual interference that results from blood rapidly filling the surgical field. Introducing automation into the crucial surgical task of hemostasis management would offload mental and physical tasks from the surgeon and surgical assistants while simultaneously increasing the efficiency and safety of the operation. The first step in automation of hemostasis management is detection of blood in the surgical field. To propel the development of blood detection algorithms in surgeries, we present HemoSet, the first blood segmentation dataset based on bleeding during a live animal robotic surgery. Our dataset features vessel hemorrhage scenarios where turbulent flow leads to abnormal pooling geometries in surgical fields. These pools are formed in conditions endemic to surgical procedures -- uneven heterogeneous tissue, under glossy lighting conditions and rapid tool movement. We benchmark several state-of-the-art segmentation models and provide insight into the difficulties specific to blood detection. We intend for HemoSet to spur development of autonomous blood suction tools by providing a platform for training and refining blood segmentation models, addressing the precision needed for such robotics.
翻訳日:2024-06-04 15:37:40 公開日:2024-06-03
# 脳波を用いたChatGPT適用の有効性の検討

Using EEG to investigate the effectiveness of applying ChatGPT ( http://arxiv.org/abs/2403.16687v4 )

ライセンス: Link先を確認
Jiayue Zhang, Yiheng Liu, Wenqi Cai, Lanlan Wu, Yali Peng, Jingjing Yu, Senqing Qi, Taotao Long, Bao Ge, (参考訳) 近年、人工知能技術の急速な発展、特にChatGPTのような大規模言語モデル(LLM)の出現は、教育分野への応用に大きな可能性を示している。 LLMは、知識を解釈し、質問に答え、文脈を考慮し、学生に対話的な教えを支援する能力を持っている。 したがって,LLMの指導的役割を効果的に果たす能力について検討し,対話型教育シナリオにおける人間教育者に似た学習を促進することは,非常に貴重な研究課題である。 この研究は、34人の大学生を参加者として募集し、ランダムに2つのグループに分けられた。 実験群はChatGPTを用いて対話型指導を行い,コントロール群は人間教師と対話した。 両グループは情報関連コースであるDigital Image Processingでヒストグラム等化単位を学習した。 調査の結果,保持試験における両群間に比較スコアが認められた。 しかし,ChatGPTとの対話に携わる学生は,移行試験において低い成績を示した。 脳波データによると、ChatGPTと相互作用する学生は認知活動のレベルが高く、ChatGPTが知識基盤の確立と認知活動の促進に役立つことが示唆された。 しかし、学生の育成に力を入れている。 知識の応用と創造性は 重要ではありません 研究結果から,ChatGPTは情報関連科目における対話指導における教科の遂行に全力を尽くすことができないことが明らかとなった。 ChatGPTと従来の人間の教師を組み合わせることが、より理想的なアプローチかもしれない。 両者のシナジスティックな利用は、生徒により包括的な学習支援を提供し、教育の質の向上に寄与する。

In recent years, the rapid development of artificial intelligence technology, especially the emergence of large language models (LLMs) such as ChatGPT, has presented significant prospects for application in the field of education. LLMs possess the capability to interpret knowledge, answer questions, and consider context, thus providing support for dialogic teaching to students. Therefore, an examination of the capacity of LLMs to effectively fulfill instructional roles, thereby facilitating student learning akin to human educators within dialogic teaching scenarios, is an exceptionally valuable research topic. This research recruited 34 undergraduate students as participants, who were randomly divided into two groups. The experimental group engaged in dialogic teaching using ChatGPT, while the control group interacted with human teachers. Both groups learned the histogram equalization unit in the information-related course "Digital Image Processing". The research findings show comparable scores between the two groups on the retention test. However, students who engaged in dialogue with ChatGPT exhibited lower performance on the transfer test. Electroencephalography data revealed that students who interacted with ChatGPT exhibited higher levels of cognitive activity, suggesting that ChatGPT could help students establish a knowledge foundation and stimulate cognitive activity. However, its strengths on promoting students. knowledge application and creativity were insignificant. Based upon the research findings, it is evident that ChatGPT cannot fully excel in fulfilling teaching tasks in the dialogue teaching in information related courses. Combining ChatGPT with traditional human teachers might be a more ideal approach. The synergistic use of both can provide students with more comprehensive learning support, thus contributing to enhancing the quality of teaching.
翻訳日:2024-06-04 15:37:40 公開日:2024-06-03
# ALICE実験における不完全データからの機械学習による粒子識別

Particle identification with machine learning from incomplete data in the ALICE experiment ( http://arxiv.org/abs/2403.17436v2 )

ライセンス: Link先を確認
Maja Karwowska, Łukasz Graczykowski, Kamil Deja, Miłosz Kasak, Małgorzata Janik, (参考訳) LHCでのALICE実験は、超相対論的重イオン衝突で形成される強く相互作用する物質の特性を測定する。 このような研究には正確な粒子識別(PID)が必要である。 ALICEは、約100MeV/cから20GeV/cまでの運動量を持つ粒子の複数の検出器を介してPID情報を提供する。 伝統的に、粒子は長方形の切断で選択される。 機械学習(ML)メソッドで、はるかに優れたパフォーマンスを実現することができる。 私たちのソリューションでは、バイナリ分類器として複数のニューラルネットワーク(NN)を使用します。 さらに,不完全サンプルを用いたデータトレーニングのために,特徴セット埋め込みと注意を付加した粒子分類器を拡張した。 また、ALICE解析ソフトウェアとMLプロジェクトの統合について述べるとともに、シミュレーションデータと実実験データの間で知識を伝達するために必要なML技術であるドメイン適応について論じる。

The ALICE experiment at the LHC measures properties of the strongly interacting matter formed in ultrarelativistic heavy-ion collisions. Such studies require accurate particle identification (PID). ALICE provides PID information via several detectors for particles with momentum from about 100 MeV/c up to 20 GeV/c. Traditionally, particles are selected with rectangular cuts. A much better performance can be achieved with machine learning (ML) methods. Our solution uses multiple neural networks (NN) serving as binary classifiers. Moreover, we extended our particle classifier with Feature Set Embedding and attention in order to train on data with incomplete samples. We also present the integration of the ML project with the ALICE analysis software, and we discuss domain adaptation, the ML technique needed to transfer the knowledge between simulated and real experimental data.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-03
# 正の温度で相互作用する格子フェルミオンの磁化とエッジ電流の等式

Equality of magnetization and edge current for interacting lattice fermions at positive temperature ( http://arxiv.org/abs/2403.17566v2 )

ライセンス: Link先を確認
Jonas Lampart, Massimo Moscolari, Stefan Teufel, Tom Wessel, (参考訳) バルク磁化は、ギブス状態の局所的不連続性を満たす有限範囲相互作用を持つ格子フェルミオンの大規模なモデルの熱力学的限界におけるエッジ電流と等しいことを証明した。 これらの系におけるエッジ電流はバルク特性によって決定され,従って境界付近の大きな摂動に対して安定である。 さらに、化学ポテンシャルに関して誘導体を服用した後も同値性は持続する。 このようなバルクエッジ対応は、本質的にはギブス状態のバルクおよび局所性における均質性の結果であることを示す。 重要な中間結果は、2次元系に対するブロッホの定理の新たなバージョンであり、永久電流はバルクで消えると述べている。

We prove that the bulk magnetization is equal to the edge current in the thermodynamic limit for a large class of models of lattice fermions with finite-range interactions satisfying local indistinguishability of the Gibbs state, a condition known to hold for sufficiently high temperatures. Our result implies that edge currents in such systems are determined by bulk properties and are therefore stable against large perturbations near the boundaries. Moreover, the equality persists also after taking the derivative with respect to the chemical potential. We show that this form of bulk-edge correspondence is essentially a consequence of homogeneity in the bulk and locality of the Gibbs state. An important intermediate result is a new version of Bloch's theorem for two-dimensional systems, stating that persistent currents vanish in the bulk.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-03
# 言語学習型ロボットナビゲーションのための階層型オープンボキャブラリ3次元シーングラフ

Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation ( http://arxiv.org/abs/2403.17846v2 )

ライセンス: Link先を確認
Abdelrhman Werby, Chenguang Huang, Martin Büchner, Abhinav Valada, Wolfram Burgard, (参考訳) 近年のオープンボキャブラリロボットマッピング法は、事前学習された視覚言語特徴を持つ密集した幾何学的地図を具体化している。 これらのマップは、ある言語概念を問うときのポイント・ワイズ・サリエンシ・マップの予測を可能にするが、大規模環境やオブジェクトレベルを超えた抽象的なクエリは依然としてかなりのハードルとなり、最終的には言語を基盤としたロボットナビゲーションを制限する。 本研究では,言語を基盤としたロボットナビゲーションのための3次元シーングラフマッピング手法HOV-SGを提案する。 オープン・ボキャブラリ・ビジョン・ファンデーション・モデルを用いて,まず最先端のオープン・ボキャブラリ・セグメント・レベル・マップを3Dで取得し,その後,フロア,ルーム,オブジェクトの概念からなる3次元シーングラフ階層を構築し,それぞれにオープン・ボキャブラリ・フィーチャを付加する。 提案手法は多層建物を表現でき, クロスフロアのボロノイグラフを用いてロボットの移動を可能にする。 HOV-SGは3つの異なるデータセットで評価され、オブジェクト、部屋、フロアレベルでのオープン語彙のセマンティックな精度で以前のベースラインを超えながら、密接なオープン語彙マップと比較して75%の表現サイズを縮小する。 HOV-SGの有効性と一般化性を証明するため,実世界のマルチストレージ環境において,長期の言語条件付きロボットナビゲーションが成功していることを示す。 コードとトライアルのビデオデータはhttp://hovsg.github.io/で公開しています。

Recent open-vocabulary robot mapping methods enrich dense geometric maps with pre-trained visual-language features. While these maps allow for the prediction of point-wise saliency maps when queried for a certain language concept, large-scale environments and abstract queries beyond the object level still pose a considerable hurdle, ultimately limiting language-grounded robotic navigation. In this work, we present HOV-SG, a hierarchical open-vocabulary 3D scene graph mapping approach for language-grounded robot navigation. Leveraging open-vocabulary vision foundation models, we first obtain state-of-the-art open-vocabulary segment-level maps in 3D and subsequently construct a 3D scene graph hierarchy consisting of floor, room, and object concepts, each enriched with open-vocabulary features. Our approach is able to represent multi-story buildings and allows robotic traversal of those using a cross-floor Voronoi graph. HOV-SG is evaluated on three distinct datasets and surpasses previous baselines in open-vocabulary semantic accuracy on the object, room, and floor level while producing a 75% reduction in representation size compared to dense open-vocabulary maps. In order to prove the efficacy and generalization capabilities of HOV-SG, we showcase successful long-horizon language-conditioned robot navigation within real-world multi-storage environments. We provide code and trial video data at http://hovsg.github.io/.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-03
# 限定監督下での揚力モデリング

Uplift Modeling Under Limited Supervision ( http://arxiv.org/abs/2403.19289v2 )

ライセンス: Link先を確認
George Panagopoulos, Daniele Malitesta, Fragkiskos D. Malliaros, Jun Pang, (参考訳) 電子商取引における因果効果の推定には、大規模な環境では実用的でないような費用がかかる傾向がある。 このような治療効果を実際の介入なしに予測するために機械学習を活用することは、リスクを減らすための標準的なプラクティスである。 しかし、既存の治療効果予測法は、実際の実験から構築され、本質的にはリスクが伴う、相当な大きさの訓練セットに依存する傾向にある。 本研究では,電子商取引データに共通するグラフに依存して,必要なトレーニングセットのサイズを小さくするグラフニューラルネットワークを提案する。 具体的には、ラベル付きインスタンスが制限されたノード回帰として問題を認識し、従来の因果効果推定器に似た2モデルニューラルアーキテクチャを開発し、符号化のための様々なメッセージパス層をテストする。 さらに、追加的なステップとして、モデルと取得関数を組み合わせることで、極めて低い実験予算で設定したトレーニングセットの作成をガイドする。 各ステップは他のモデルや治療ポリシーと別々に使用できるので、フレームワークは柔軟です。 実大規模ネットワークにおける実験は、実験リスクを減らすために限られた監督で一般化できるモデルの必要性を浮き彫りにし、多くの場合、ランダムに近い動作を行う、最先端技術に対する我々の方法論の明確な優位性を示している。

Estimating causal effects in e-commerce tends to involve costly treatment assignments which can be impractical in large-scale settings. Leveraging machine learning to predict such treatment effects without actual intervention is a standard practice to diminish the risk. However, existing methods for treatment effect prediction tend to rely on training sets of substantial size, which are built from real experiments and are thus inherently risky to create. In this work we propose a graph neural network to diminish the required training set size, relying on graphs that are common in e-commerce data. Specifically, we view the problem as node regression with a restricted number of labeled instances, develop a two-model neural architecture akin to previous causal effect estimators, and test varying message-passing layers for encoding. Furthermore, as an extra step, we combine the model with an acquisition function to guide the creation of the training set in settings with extremely low experimental budget. The framework is flexible since each step can be used separately with other models or treatment policies. The experiments on real large-scale networks indicate a clear advantage of our methodology over the state of the art, which in many cases performs close to random, underlining the need for models that can generalize with limited supervision to reduce experimental risks.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-03
# 事象とフレームを伴うニューラルラジアンス場における運動ブラジャーの緩和

Mitigating Motion Blur in Neural Radiance Fields with Events and Frames ( http://arxiv.org/abs/2403.19780v2 )

ライセンス: Link先を確認
Marco Cannici, Davide Scaramuzza, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成において大きな可能性を示している。 しかし、トレーニングに使用されるデータが動きのぼけの影響を受ければ、シャープな画像のレンダリングに苦労する。 一方、イベントカメラは、マイクロ秒の解像度で明るさの変化を測定するため、ダイナミックなシーンで優れており、ぼやけの影響はわずかである。 フレームとイベントを融合させることにより, カメラ動作下でのNeRF再構成を向上する手法が最近提案されている。 しかし、彼らは、正確な色内容の回復や、NeRFを予め定義されたカメラのポーズに拘束するという課題に直面しており、困難な状況下での再現品質を損なう。 本稿では,モデルベースモジュールと学習ベースモジュールの両方を活用することで,これらの問題に対処する新しい定式化を提案する。 我々は、イベント二重積分を追加のモデルベースとして利用して、ぼやけた生成プロセスを明示的にモデル化する。 さらに、エンド・ツー・エンドの学習可能な応答関数を用いてイベント・ピクセル・レスポンスをモデル化し、実際のイベント・カメラ・センサにおける非理想に適応できるようにする。 合成データと実データから,提案手法は,フレームとイベントを+6.13dBと+2.48dBで組み合わせた場合と同様に,フレームのみを使用する既成の遅延NeRFよりも優れていることを示す。

Neural Radiance Fields (NeRFs) have shown great potential in novel view synthesis. However, they struggle to render sharp images when the data used for training is affected by motion blur. On the other hand, event cameras excel in dynamic scenes as they measure brightness changes with microsecond resolution and are thus only marginally affected by blur. Recent methods attempt to enhance NeRF reconstructions under camera motion by fusing frames and events. However, they face challenges in recovering accurate color content or constrain the NeRF to a set of predefined camera poses, harming reconstruction quality in challenging conditions. This paper proposes a novel formulation addressing these issues by leveraging both model- and learning-based modules. We explicitly model the blur formation process, exploiting the event double integral as an additional model-based prior. Additionally, we model the event-pixel response using an end-to-end learnable response function, allowing our method to adapt to non-idealities in the real event-camera sensor. We show, on synthetic and real data, that the proposed approach outperforms existing deblur NeRFs that use only frames as well as those that combine frames and events by +6.13dB and +2.48dB, respectively.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-03
# 機械学習のための機能バイレベル最適化

Functional Bilevel Optimization for Machine Learning ( http://arxiv.org/abs/2403.20233v2 )

ライセンス: Link先を確認
Ieva Petrulionyte, Julien Mairal, Michael Arbel, (参考訳) 本稿では,関数空間上での内的目的を最小化する機械学習における二段階最適化問題に対する新たな機能的視点を提案する。 これらの問題は、パラメータ関数のパラメータに関して内的目的が強く凸であるパラメトリック設定で開発された手法を用いることで、最もよく解決される。 機能的な視点は、この仮定に頼らず、特に内部予測関数として過度にパラメータ化されたニューラルネットワークを使用できる。 本稿では,機能的二段階最適化問題に対するスケーラブルで効率的なアルゴリズムを提案し,インストゥルメンタル回帰と強化学習タスクに対するアプローチの利点を解説する。

In this paper, we introduce a new functional point of view on bilevel optimization problems for machine learning, where the inner objective is minimized over a function space. These types of problems are most often solved by using methods developed in the parametric setting, where the inner objective is strongly convex with respect to the parameters of the prediction function. The functional point of view does not rely on this assumption and notably allows using over-parameterized neural networks as the inner prediction function. We propose scalable and efficient algorithms for the functional bilevel optimization problem and illustrate the benefits of our approach on instrumental regression and reinforcement learning tasks.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-03
# 有限演算子学習によるミクロ組織の弾性特性と機械的変形のマッピング

A finite operator learning technique for mapping the elastic properties of microstructures to their mechanical deformations ( http://arxiv.org/abs/2404.00074v2 )

ライセンス: Link先を確認
Shahed Rezaei, Reza Najian Asl, Shirko Faroughi, Mahdi Asgharzadeh, Ali Harandi, Rasoul Najafi Koopas, Gottfried Laschet, Stefanie Reese, Markus Apel, (参考訳) 固体力学における物理方程式の高速解を得るために,有限要素法と物理インフォームドニューラルネットワークのコアアイデアと,ニューラル演算子の概念を統合する手法を提案する。 このアプローチは、他のリソース(例えば、数値解法)のデータに頼ることなく、機械的問題に対するパラメトリック解を一般化し、拡張する。 本稿では,有限要素パッケージにおける可微分弱形式を直接利用して損失関数を代数的に構築し,鋭い不連続性が存在する場合でも解を見つける能力を示す。 我々の焦点はマイクロメカニクス(マイクロメカニクス)であり、与えられた不均一なミクロ構造に対する変形や応力場の知識がさらなる設計に不可欠である。 調査中の主パラメータは、不均一固体系のヤング率分布である。 我々の研究は、物理に基づくトレーニングが純粋にデータ駆動型アプローチよりも精度が高いことを明らかにしている。 さらに,高分解能解を得る過程を直接改善する2つの方法を提案し,基本補間技術の使用を回避した。 第一に、高分解能グリッド点の計算効率を高めるためのオートエンコーダアプローチに基づいている。 次に、フーリエに基づくパラメトリゼーションを用いて、マイクロメカニクスにおける複雑な2次元および3次元問題に対処する。 後者の考え方は、フーリエ係数を用いて複雑なミクロ構造を効率的に表現することを目的としている。 他のよく知られた演算子学習アルゴリズムと比較して、新たに提案した手法の利点をさらに強調する。

To obtain fast solutions for governing physical equations in solid mechanics, we introduce a method that integrates the core ideas of the finite element method with physics-informed neural networks and concept of neural operators. This approach generalizes and enhances each method, learning the parametric solution for mechanical problems without relying on data from other resources (e.g. other numerical solvers). We propose directly utilizing the available discretized weak form in finite element packages to construct the loss functions algebraically, thereby demonstrating the ability to find solutions even in the presence of sharp discontinuities. Our focus is on micromechanics as an example, where knowledge of deformation and stress fields for a given heterogeneous microstructure is crucial for further design applications. The primary parameter under investigation is the Young's modulus distribution within the heterogeneous solid system. Our investigations reveal that physics-based training yields higher accuracy compared to purely data-driven approaches for unseen microstructures. Additionally, we offer two methods to directly improve the process of obtaining high-resolution solutions, avoiding the need to use basic interpolation techniques. First is based on an autoencoder approach to enhance the efficiency for calculation on high resolution grid point. Next, Fourier-based parametrization is utilized to address complex 2D and 3D problems in micromechanics. The latter idea aims to represent complex microstructures efficiently using Fourier coefficients. Comparisons with other well-known operator learning algorithms, further emphasize the advantages of the newly proposed method.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-03
# Hessian-free Recollection Approach

Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach ( http://arxiv.org/abs/2404.01712v3 )

ライセンス: Link先を確認
Xinbao Qiao, Meng Zhang, Ming Tang, Ermin Wei, (参考訳) 機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。 最近の進歩は、二階情報から抽出された統計を事前計算し保存し、ニュートンスタイルの更新を通じてアンラーニングを実装することを示唆している。 しかし、これらの作品の理論解析は、しばしば凸性や滑らか性の制限的な仮定に依存し、ヘッセン行列上のこれらの操作は非常にコストがかかる。 その結果、これらの作品を高次元モデルに適用することは困難である。 本稿では,効率の良いヘッセン自由認定アンラーニングを提案する。 本稿では,学習モデルと学習モデルの違いを確率的再帰近似を用いて計算し,各データに対する統計的ベクトルを維持することを提案する。 我々の分析はヘッセンの逆転を伴わないので、非凸な非滑らかな目的に拡張することができる。 同じ仮定の下で,提案手法は, 一般化, 未学習保証, 削除能力, 計算/記憶の複雑さの観点から, 最先端の理論研究を超えて, 提案手法の進歩を示すとともに, 提案手法の未学習モデルは, 再学習モデルとほぼ等しくなることを示す。 データを忘れるための統計を復号する戦略に基づいて,ベクトル加算操作のみを必要とするため,ほぼ瞬時に未学習を実現するアルゴリズムを開発する。 実験により,提案手法は時間・保存コストの面で,既存の結果よりも桁違いに上回り,精度も向上することが示された。

Machine unlearning strives to uphold the data owners' right to be forgotten by enabling models to selectively forget specific data. Recent advances suggest precomputing and storing statistics extracted from second-order information and implementing unlearning through Newton-style updates. However, the theoretical analysis of these works often depends on restrictive assumptions of convexity and smoothness, and those mentioned operations on Hessian matrix are extremely costly. As a result, applying these works to high-dimensional models becomes challenging. In this paper, we propose an efficient Hessian-free certified unlearning. We propose to maintain a statistical vector for each data, computed through affine stochastic recursion approximation of the difference between retrained and learned models. Our analysis does not involve inverting Hessian and thus can be extended to non-convex non-smooth objectives. Under same assumptions, we demonstrate advancements of proposed method beyond the state-of-the-art theoretical studies, in terms of generalization, unlearning guarantee, deletion capacity, and computation/storage complexity, and we show that the unlearned model of our proposed approach is close to or same as the retrained model. Based on the strategy of recollecting statistics for forgetting data, we develop an algorithm that achieves near-instantaneous unlearning as it only requires a vector addition operation. Experiments demonstrate that the proposed scheme surpasses existing results by orders of magnitude in terms of time/storage costs, while also enhancing accuracy.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-03
# EGTR:Scene Graph 生成のための Transformer からのグラフ抽出

EGTR: Extracting Graph from Transformer for Scene Graph Generation ( http://arxiv.org/abs/2404.02072v4 )

ライセンス: Link先を確認
Jinbae Im, JeongYeon Nam, Nokyung Park, Hyungmin Lee, Seunghyun Park, (参考訳) SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。 DETRの開発後、一段物体検出器に基づく一段SGGモデルが活発に研究されている。 しかし、オブジェクト間の関係を予測するために複雑なモデリングが使用され、オブジェクト検出器のマルチヘッド自己アテンションで学習したオブジェクトクエリー間の固有の関係は無視されている。 本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。 自己注意副産物を十分に活用することにより、浅い関係抽出ヘッドで関係グラフを効果的に抽出することができる。 対象検出タスクにおける関係抽出タスクの依存性を考慮して,検出対象の品質に応じて関係ラベルを適応的に調整する新しい関係平滑化手法を提案する。 関係の平滑化により、モデルは訓練開始時の対象検出タスクに焦点を当てた連続カリキュラムに従って訓練され、対象検出性能が徐々に向上するにつれてマルチタスク学習を行う。 さらに,関係抽出の補助タスクとして,オブジェクトペア間に関係が存在するかどうかを予測する接続予測タスクを提案する。 本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。 私たちのコードはhttps://github.com/naver-ai/egtr.comで公開されています。

Scene Graph Generation (SGG) is a challenging task of detecting objects and predicting relationships between objects. After DETR was developed, one-stage SGG models based on a one-stage object detector have been actively studied. However, complex modeling is used to predict the relationship between objects, and the inherent relationship between object queries learned in the multi-head self-attention of the object detector has been neglected. We propose a lightweight one-stage SGG model that extracts the relation graph from the various relationships learned in the multi-head self-attention layers of the DETR decoder. By fully utilizing the self-attention by-products, the relation graph can be extracted effectively with a shallow relation extraction head. Considering the dependency of the relation extraction task on the object detection task, we propose a novel relation smoothing technique that adjusts the relation label adaptively according to the quality of the detected objects. By the relation smoothing, the model is trained according to the continuous curriculum that focuses on object detection task at the beginning of training and performs multi-task learning as the object detection performance gradually improves. Furthermore, we propose a connectivity prediction task that predicts whether a relation exists between object pairs as an auxiliary task of the relation extraction. We demonstrate the effectiveness and efficiency of our method for the Visual Genome and Open Image V6 datasets. Our code is publicly available at https://github.com/naver-ai/egtr.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-03
# 非ローレンツ場理論における対称性分解能

Symmetry Resolution in non-Lorentzian Field Theories ( http://arxiv.org/abs/2404.02206v2 )

ライセンス: Link先を確認
Aritra Banerjee, Rudranil Basu, Arpan Bhattacharyya, Nilachal Chakrabarti, (参考訳) 2次元の共形場理論における増分間隔に対する対称性分解エントロピー(SREE)の計算から始め、同じ次元の様々な非ローレンツ的極限、ヴィズ、ガリレオおよびキャロル的共形場理論でも同様に計算する。 我々は、極限の観点からも、各非ローレンツ的共形代数の内在対称性を用いても、この問題にアプローチする。 特に、先行順序項、対数項、および$\mathcal{O}(1)$項を計算し、非ローレンツ系においても$\textit{equipartition of entanglement}$との正確なコンプライアンスを明示的に示す。 キャロル極限の SREE のホログラフィック原点を念頭に置いて、さらに BMS$_{3}$-Kac-Moody に対して SREE を計算する。

Starting from the computation of Symmetry Resolved Entanglement Entropy (SREE) for boosted intervals in a two dimensional Conformal Field Theory, we compute the same in various non-Lorentzian limits, viz, Galilean and Carrollian Conformal Field Theory in same number of dimensions. We approach the problem both from a limiting perspective and by using intrinsic symmetries of respective non-Lorentzian conformal algebras. In particular, we calculate the leading order terms, logarithmic terms, and the $\mathcal{O}(1)$ terms and explicitly show exact compliance with $\textit{equipartition of entanglement}$, even in the non-Lorentzian system. Keeping in mind the holographic origin of SREE for the Carrollian limit, we further compute SREE for BMS$_{3}$-Kac-Moody, which couples a $U(1)\times U(1)$ theory with bulk gravity.
翻訳日:2024-06-04 15:37:39 公開日:2024-06-03
# CoMat: 画像-テキスト概念マッチングによるテキスト-画像拡散モデルの調整

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching ( http://arxiv.org/abs/2404.03653v2 )

ライセンス: Link先を確認
Dongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li, (参考訳) 拡散モデルはテキスト・画像生成の分野で大きな成功を収めている。 しかし,テキストプロンプトと画像の不一致を緩和することは依然として困難である。 この不一致の根本原因については、広くは調査されていない。 誤認識はトークン注意のアクティベーションが不十分なことに起因することが観察された。 さらに、この現象は、その訓練パラダイムによって引き起こされる拡散モデルの条件利用の不十分さに起因している。 この問題に対処するために,画像からテキストまでの概念マッチング機構を備えたエンドツーエンド拡散モデル微調整戦略であるCoMatを提案する。 画像キャプションモデルを利用して画像とテキストのアライメントを測定し、拡散モデルを導いて無視トークンを再検討する。 属性結合問題に対処するために、新しい属性集中モジュールも提案されている。 画像や人間の好みのデータがなければ、20KテキストプロンプトだけでSDXLを微調整し、CoMat-SDXLを得る。 大規模な実験により、CoMat-SDXLは2つのテキスト・画像アライメントベンチマークにおいてベースラインモデルSDXLを著しく上回り、最先端のパフォーマンスを達成することが示された。

Diffusion models have demonstrated great success in the field of text-to-image generation. However, alleviating the misalignment between the text prompts and images is still challenging. The root reason behind the misalignment has not been extensively investigated. We observe that the misalignment is caused by inadequate token attention activation. We further attribute this phenomenon to the diffusion model's insufficient condition utilization, which is caused by its training paradigm. To address the issue, we propose CoMat, an end-to-end diffusion model fine-tuning strategy with an image-to-text concept matching mechanism. We leverage an image captioning model to measure image-to-text alignment and guide the diffusion model to revisit ignored tokens. A novel attribute concentration module is also proposed to address the attribute binding problem. Without any image or human preference data, we use only 20K text prompts to fine-tune SDXL to obtain CoMat-SDXL. Extensive experiments show that CoMat-SDXL significantly outperforms the baseline model SDXL in two text-to-image alignment benchmarks and achieves start-of-the-art performance.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-03
# マルチアスペクト制御可能なテキスト生成のベンチマークと構成一般化の改善

Benchmarking and Improving Compositional Generalization of Multi-aspect Controllable Text Generation ( http://arxiv.org/abs/2404.04232v2 )

ライセンス: Link先を確認
Tianqi Zhong, Zhaoyi Li, Quan Wang, Linqi Song, Ying Wei, Defu Lian, Zhendong Mao, (参考訳) 構成一般化は、トレーニングデータから単一属性を再結合することによって得られる新しい属性の組み合わせで、モデルがテキストを生成する能力を表すものであり、マルチアスペクト制御可能なテキスト生成(MCTG)メソッドにとって重要な特性である。 それにもかかわらず、MCTGの総合的な構成一般化評価ベンチマークはいまだに欠落している。 多様なマルチアスペクトラベル付きデータセットと3次元評価プロトコルを含むベンチマークであるCompMCTGを提案する。 MCTGの既存の作業は、一般的に、構成的テストにおいて顕著なパフォーマンス低下に直面している。 そこで,メタラーニングを取り入れたトレーニングフレームワークであるMeta-MCTGを導入し,トレーニングフェーズにおける構成一般化シナリオをシミュレートすることで,モデルによる一般化の方法の学習を可能にする。 94.4%の症例において,Meta-MCTGの作曲試験性能に対する明らかな改善(少なくとも3.64%)を達成し,Meta-MCTGの有効性を実証した。

Compositional generalization, representing the model's ability to generate text with new attribute combinations obtained by recombining single attributes from the training data, is a crucial property for multi-aspect controllable text generation (MCTG) methods. Nonetheless, a comprehensive compositional generalization evaluation benchmark of MCTG is still lacking. We propose CompMCTG, a benchmark encompassing diverse multi-aspect labeled datasets and a crafted three-dimensional evaluation protocol, to holistically evaluate the compositional generalization of MCTG approaches. We observe that existing MCTG works generally confront a noticeable performance drop in compositional testing. To mitigate this issue, we introduce Meta-MCTG, a training framework incorporating meta-learning, where we enable models to learn how to generalize by simulating compositional generalization scenarios in the training phase. We demonstrate the effectiveness of Meta-MCTG through achieving obvious improvement (by at most 3.64%) for compositional testing performance in 94.4% cases.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-03
# 情報処理の起源

The Origin of Information Handling ( http://arxiv.org/abs/2404.04374v2 )

ライセンス: Link先を確認
Amahury Jafet López-Díaz, Hiroki Sayama, Carlos Gershenson, (参考訳) 生命の起源を説明する上での大きな課題は、単に分子動力学から自然と自然に情報制御系がどのように出現するかを説明することである。 これまでのところ、情報制御がいかに開始したのか、そして生命における原始的な制御機構がどのように進化し、ますます洗練されていくのかは、誰も明らかにしていない。 化学計算が生命関連化学の存在を必要としないことを示す最近の実験結果に基づいて,情報処理(計算)から情報記憶(記憶),情報伝達(通信)まで,化学オートマトンによる情報処理の起源と初期進化を解明する。 初期の複雑な構造の存在を前提とする他の理論とは対照的に、私たちの物語は、相互作用がより強力な分子機械の出現につながる自複製子から始まる。 化学計算における原始遷移を正確に記述することにより、上記のギャップを説明でき、他の計算モデルに変換できるので、複数の空間的・時間的スケールで生物現象を探索することができる。 原稿の最後には、我々の理論(in vitroとsilicoの両方)を実験的に検証するなど、アイデアを拡張するいくつかの方法を提案する。

A major challenge when describing the origin of life is to explain how instructional information control systems emerge naturally and spontaneously from mere molecular dynamics. So far, no one has clarified how information control emerged ab initio and how primitive control mechanisms in life might have evolved, becoming increasingly refined. Based on recent experimental results showing that chemical computation does not require the presence of life-related chemistry, we elucidate the origin and early evolution of information handling by chemical automata, from information processing (computation) to information storage (memory) and information transmission (communication). In contrast to other theories that assume the existence of initial complex structures, our narrative starts from trivial self-replicators whose interaction leads to the arising of more powerful molecular machines. By describing precisely the primordial transitions in chemistry-based computation, our metaphor is capable of explaining the above-mentioned gaps and can be translated to other models of computation, which allow us to explore biological phenomena at multiple spatial and temporal scales. At the end of our manuscript, we propose some ways to extend our ideas, including experimental validation of our theory (both in vitro and in silico).
翻訳日:2024-06-04 15:27:55 公開日:2024-06-03
# MiniCPM: スケーラブルなトレーニング戦略で小さな言語モデルの可能性を明らかにする

MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies ( http://arxiv.org/abs/2404.06395v3 )

ライセンス: Link先を確認
Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun, (参考訳) 最大1兆のパラメータを持つLarge Language Models (LLMs) の開発への関心は、特に実験の膨大なコストを考慮すると、資源効率と実践的費用に関する懸念に直面している。 このシナリオは、リソース効率の代替手段としてのSLM(Small Language Models)の可能性を探ることの重要性を浮き彫りにしている。 この文脈では、MiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を導入し、それぞれのカテゴリに優れるだけでなく、7B-13B LLMと同等の機能を示す。 SLMに着目しながら,本手法は将来のLSM研究におけるモデル次元およびデータ次元のスケーラビリティを示す。 モデルスケーリングについては、安定かつ最適なスケーリングのために、広範囲なモデル風洞実験を採用する。 データスケーリングには、継続的トレーニングとドメイン適応に寄与するWarmup-Stable-Decay(WSD)学習率スケジューラ(LRS)を導入する。 本稿では,WSD LRSで発生した興味深いトレーニングダイナミクスを詳細に分析する。 WSD LRSにより、モデル軸とデータ軸の広範な再トレーニング実験をすることなく、データモデルのスケーリング法則を効率的に研究することが可能となり、そこから、Chinchilla Optimalよりもはるかに高い計算最適データモデル比が導出されます。 さらに、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーを導入し、多様なSLMアプリケーションにおけるMiniCPMの基盤をさらに強化した。 MiniCPMモデルはhttps://github.com/OpenBMB/MiniCPMで公開されている。

The burgeoning interest in developing Large Language Models (LLMs) with up to trillion parameters has been met with concerns regarding resource efficiency and practical expense, particularly given the immense cost of experimentation. This scenario underscores the importance of exploring the potential of Small Language Models (SLMs) as a resource-efficient alternative. In this context, we introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter variants, not only excel in their respective categories but also demonstrate capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach exhibits scalability in both model and data dimensions for future LLM research. Regarding model scaling, we employ extensive model wind tunnel experiments for stable and optimal scaling. For data scaling, we introduce a Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to continuous training and domain adaptation. We present an in-depth analysis of the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we are now able to efficiently study data-model scaling law without extensive retraining experiments on both axes of model and data, from which we derive the much higher compute optimal data-model ratio than Chinchilla Optimal. Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE and MiniCPM-128K, whose excellent performance further cementing MiniCPM's foundation in diverse SLM applications. MiniCPM models are available publicly at https://github.com/OpenBMB/MiniCPM .
翻訳日:2024-06-04 15:27:55 公開日:2024-06-03
# ランダム行列を用いた貯留層状態記述の生成

Generating Reservoir State Descriptions with Random Matrices ( http://arxiv.org/abs/2404.07278v2 )

ライセンス: Link先を確認
Samuel Tovey, Tobias Fellner, Christian Holm, Michael Spannowsky, (参考訳) ランダム行列を用いた計算機計測のための新しい手法を示す。 私たちは、原子スケールのデバイスが現実世界のコンピューティングアプリケーションにどのように使われるのかを動機付けています。 提案手法では, ランダム行列を用いて貯水池の測定を行い, 状態記述を生成するためのシンプルでスケーラブルな方法を提案する。 本研究では,2つの貯水池,5原子ハイゼンベルクスピンチェーン,および5量子ビット量子回路を用いて時系列予測とデータ補間を行う。 測定手法の性能と現状の限界について, ランダムな行列による測定の多様性の探索とともに詳細に考察した。 さらに, 貯水池のパラメータの役割について検討し, 結合強度と測定次元を調整し, 異なる問題に対してこれらの学習機械を自動調整する方法の洞察を得る。 本研究は, ランダム行列を用いて自然学習装置の簡単な量子貯水池を計測し, その性能向上と実験的実現に向けての道のりを概説する。

We demonstrate a novel approach to reservoir computer measurements using random matrices. We do so to motivate how atomic-scale devices might be used for real-world computing applications. Our approach uses random matrices to construct reservoir measurements, introducing a simple, scalable means for producing state descriptions. In our studies, two reservoirs, a five-atom Heisenberg spin chain, and a five-qubit quantum circuit, perform time series prediction and data interpolation. The performance of the measurement technique and current limitations are discussed in detail alongside an exploration of the diversity of measurements yielded by the random matrices. Additionally, we explore the role of the parameters of the reservoirs, adjusting coupling strength and the measurement dimension, yielding insights into how these learning machines might be automatically tuned for different problems. This research highlights using random matrices to measure simple quantum reservoirs for natural learning devices and outlines a path forward for improving their performance and experimental realization.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-03
# Twitterでの不正プロモーション

Illicit Promotion on Twitter ( http://arxiv.org/abs/2404.07797v2 )

ライセンス: Link先を確認
Hongyu Wang, Ying Li, Ronghong Huang, Xianghang Mi, (参考訳) 本稿では、人気のあるオンラインソーシャルネットワーク(OSN)であるTwitter上で、不正商品・サービスの促進に関する広範な研究について述べる。 本研究は,不正なプロモーション活動の検出と分析を行う複数の新しいツールの設計と実装,およびその基盤となるキャンペーンを通じて実現されている。 その結果、Twitter上では違法なプロモーションが一般的であり、Youtube、Facebook、TikTokなど、他の3つの人気OSNにも顕著に存在していることが判明した。 特に、Twitterプラットフォーム上では、不正プロモーション(PIP)の投稿が1200万件報告されている。この投稿は5つの主要な自然言語と、10種類の違法商品やサービス、例えば薬物、データ漏洩、ギャンブル、武器販売に広く分布している。 また、PIPを発行する580万のTwitterアカウントと、PIPに埋め込まれ、次の通信のホップとして機能する37万のインスタントメッセージング(IM)アカウントも観察されている。 また、Twitterと不正なプロモーションオペレーターとの武器競争も観察されている。 一方、Twitterはコンテンツモデレーションを継続的に行うことが観察されており、投稿から6ヶ月以内にほぼ80%のPIPが徐々に公開されなくなる。 しかし、その間、ミスクリートは様々な回避戦術を駆使し、9割以上のPIPを検知レーダーから2ヶ月以上隠蔽する。

In this paper, we present an extensive study of the promotion of illicit goods and services on Twitter, a popular online social network(OSN). This study is made possible through the design and implementation of multiple novel tools for detecting and analyzing illicit promotion activities as well as their underlying campaigns. As the results, we observe that illicit promotion is prevalent on Twitter, along with noticeable existence on other three popular OSNs including Youtube, Facebook, and TikTok. Particularly, 12 million distinct posts of illicit promotion (PIPs) have been observed on the Twitter platform, which are widely distributed in 5 major natural languages and 10 categories of illicit goods and services, e.g., drugs, data leakage, gambling, and weapon sales. What are also observed are 580K Twitter accounts publishing PIPs as well as 37K distinct instant messaging (IM) accounts that are embedded in PIPs and serve as next hops of communication, which strongly indicates that the campaigns underpinning PIPs are also of a large scale. Also, an arms race between Twitter and illicit promotion operators is also observed. On one hand, Twitter is observed to conduct content moderation in a continuous manner and almost 80% PIPs will get gradually unpublished within six months since posted. However, in the meantime, miscreants adopt various evasion tactics to masquerade their PIPs, which renders more than 90% PIPs keeping hidden from the detection radar for two months or longer.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-03
# 群衆計数における簡易モデル構造の有効性

The Effectiveness of a Simplified Model Structure for Crowd Counting ( http://arxiv.org/abs/2404.07847v2 )

ライセンス: Link先を確認
Lei Chen, Xinghang Gao, Fei Chao, Chih Min Lin, Xingen Gao, Hongyi Zhang, Juqiang Lin, (参考訳) 群集カウント研究の分野では,近年の深層学習に基づく手法の多くが,群集サイズを正確に推定する頑健な能力を実証している。 しかし、それらの性能の向上は、しばしばモデル構造の複雑さの増大から生じる。 本稿では,単純な構造のみを用いて,高性能なクラウドカウントモデルを構築する方法について論じる。 本稿では,バックボーンネットワークとマルチスケール機能融合構造のみからなる,そのシンプルで効率的な構造を特徴とするFuss-Free Network(FFNet)を提案する。 マルチスケールの特徴融合構造は3つの分岐からなる単純な構造であり、それぞれに焦点遷移モジュールのみを備えており、結合操作によってこれらの分岐の特徴を組み合わせる。 提案するクラウドカウントモデルは,広く使用されている4つの公開データセットに対してトレーニングおよび評価を行い,既存の複雑なモデルに匹敵する精度を実現する。 さらに, FFNet や CCTrans などの既存のバックボーンを MobileNet-v3, ConvNeXt-Tiny, Swin-Transformer-Small など様々なネットワークに置き換えることで, 包括的評価を行う。 さらに, 提案した簡易構造を用いて, 優れた群集カウント性能を達成できることが実験的に示唆された。

In the field of crowd counting research, many recent deep learning based methods have demonstrated robust capabilities for accurately estimating crowd sizes. However, the enhancement in their performance often arises from an increase in the complexity of the model structure. This paper discusses how to construct high-performance crowd counting models using only simple structures. We proposes the Fuss-Free Network (FFNet) that is characterized by its simple and efficieny structure, consisting of only a backbone network and a multi-scale feature fusion structure. The multi-scale feature fusion structure is a simple structure consisting of three branches, each only equipped with a focus transition module, and combines the features from these branches through the concatenation operation. Our proposed crowd counting model is trained and evaluated on four widely used public datasets, and it achieves accuracy that is comparable to that of existing complex models. Furthermore, we conduct a comprehensive evaluation by replacing the existing backbones of various models such as FFNet and CCTrans with different networks, including MobileNet-v3, ConvNeXt-Tiny, and Swin-Transformer-Small. The experimental results further indicate that excellent crowd counting performance can be achieved with the simplied structure proposed by us.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-03
# 抽象構文木編集距離を用いたコード類似性評価の再検討

Revisiting Code Similarity Evaluation with Abstract Syntax Tree Edit Distance ( http://arxiv.org/abs/2404.08817v2 )

ライセンス: Link先を確認
Yewei Song, Cedric Lothritz, Daniel Tang, Tegawendé F. Bissyandé, Jacques Klein, (参考訳) 本稿では,近年のコード類似度評価指標を再検討し,特に多様なプログラミング言語における抽象構文木 (AST) 編集距離の適用に焦点を当てた。 特に、これらの指標の有用性を探求し、従来のシーケンス類似度指標と比較する。 実験では、複雑なコード構造をキャプチャする際のAST編集距離の有効性を示し、既存のメトリクスと高い相関関係を示した。 さらに,AST編集距離とプロンプトに基づくGPT類似度スコアの長所と短所をBLEUスコア,実行マッチ,ジャカード類似度と比較し検討した。 本稿では,TSED(Tree similarity of Edit Distance)の拡張版を代表として,すべてのテスト言語で有効性を示す適応可能なメトリクスを提案し,最適化し,公開する。

This paper revisits recent code similarity evaluation metrics, particularly focusing on the application of Abstract Syntax Tree (AST) editing distance in diverse programming languages. In particular, we explore the usefulness of these metrics and compare them to traditional sequence similarity metrics. Our experiments showcase the effectiveness of AST editing distance in capturing intricate code structures, revealing a high correlation with established metrics. Furthermore, we explore the strengths and weaknesses of AST editing distance and prompt-based GPT similarity scores in comparison to BLEU score, execution match, and Jaccard Similarity. We propose, optimize, and publish an adaptable metric that demonstrates effectiveness across all tested languages, representing an enhanced version of Tree Similarity of Edit Distance (TSED).
翻訳日:2024-06-04 15:27:55 公開日:2024-06-03
# インセンティブ・セキュリティによる学習の証明

Proof-of-Learning with Incentive Security ( http://arxiv.org/abs/2404.09005v4 )

ライセンス: Link先を確認
Zishuo Zhao, Zhixuan Fang, Xuechao Wang, Xi Chen, Yuan Zhou, (参考訳) ほとんどの並行ブロックチェーンシステムは、分散コンセンサスとセキュリティ保証のためのProof-of-Work(PoW)あるいはProof-of-Stake(PoS)メカニズムに大きく依存しています。 しかし、計算集約的かつ無意味なタスクから生じる実質的なエネルギー支出は、従来のPoWアプローチにまつわるかなりの懸念を引き起こしている。 これらの問題に対処するために、PoUW(Proof-of-Useful-Work)のパラダイムは、PoWとして実践的な重要性の課題を取り入れ、具体的な価値でエネルギー消費を付与することを目指している。 従来のPoL(Proof of Learning)では,PuUW課題としての深層学習モデルトレーニングSGDタスクの利用が検討されているが,近年の研究では,敵対的攻撃に対する脆弱性と,ビザンチンセキュアなPoL機構の構築における理論的難しさが明らかにされている。 本稿では、計算効率、証明可能なインセンティブ-セキュリティ保証、制御容易な難易度を有するPoL機構を設計するための既存の難しさを回避し、合理的なプローバーに率直に行動を促すインセンティブ-セキュリティの概念を紹介する。 特に、我々の仕事は、Jia et al [2021]の最近の研究に対する2つの攻撃に対して安全であり、計算オーバーヘッドを$\Theta(1)$から$O(\frac{\log E}{E})$に改善する。 さらに、最近の研究では、信頼性のある問題提供者と検証者が想定されているが、我々の設計では、問題提供者が信頼されていない場合でも、フロントエンドのインセンティブ・セキュリティを保証し、検証者のジレンマを回避できるインセンティブ・セキュリティも保証している。 MLトレーニングを証明可能な保証付きブロックチェーンコンセンサスメカニズムに組み込むことで、私たちの研究は、ブロックチェーンシステムに対するエコフレンドリなソリューションを提案するだけでなく、新たなAI時代における、完全に分散化されたコンピューティングパワー市場の提案も提供します。

Most concurrent blockchain systems rely heavily on the Proof-of-Work (PoW) or Proof-of-Stake (PoS) mechanisms for decentralized consensus and security assurance. However, the substantial energy expenditure stemming from computationally intensive yet meaningless tasks has raised considerable concerns surrounding traditional PoW approaches, The PoS mechanism, while free of energy consumption, is subject to security and economic issues. Addressing these issues, the paradigm of Proof-of-Useful-Work (PoUW) seeks to employ challenges of practical significance as PoW, thereby imbuing energy consumption with tangible value. While previous efforts in Proof of Learning (PoL) explored the utilization of deep learning model training SGD tasks as PoUW challenges, recent research has revealed its vulnerabilities to adversarial attacks and the theoretical hardness in crafting a byzantine-secure PoL mechanism. In this paper, we introduce the concept of incentive-security that incentivizes rational provers to behave honestly for their best interest, bypassing the existing hardness to design a PoL mechanism with computational efficiency, a provable incentive-security guarantee and controllable difficulty. Particularly, our work is secure against two attacks to the recent work of Jia et al. [2021], and also improves the computational overhead from $\Theta(1)$ to $O(\frac{\log E}{E})$. Furthermore, while most recent research assumes trusted problem providers and verifiers, our design also guarantees frontend incentive-security even when problem providers are untrusted, and verifier incentive-security that bypasses the Verifier's Dilemma. By incorporating ML training into blockchain consensus mechanisms with provable guarantees, our research not only proposes an eco-friendly solution to blockchain systems, but also provides a proposal for a completely decentralized computing power market in the new AI age.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-03
# スペシャリティとVersatilityのバランスをとる - 教師付き微調整大言語モデルのための粗いフレームワーク

Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model ( http://arxiv.org/abs/2404.10306v4 )

ライセンス: Link先を確認
Hengyuan Zhang, Yanru Wu, Dawei Li, Sak Yang, Rui Zhao, Yong Jiang, Fei Tan, (参考訳) Aligned Large Language Models (LLMs) は、様々な現実世界のタスクを処理できる優れた汎用性を示す。 一方、アライメントLDMは特殊性を示し、特定の用途に優れると予想されている。 しかし、専門性を得るための一般的な慣習である余分なデータによる微調整は、しばしば以前に獲得された多目的性の破滅的な忘れ(CF)を招き、様々なタスクにおけるモデルの性能を阻害する。 この課題に対応するために,我々は,特殊性と多目的性のバランスを打つために,粗粒度フレームワークであるCoFiTuneを提案する。 粗粒度レベルでは、経験的木探索アルゴリズムを用いて、特殊性に不可欠な特定のモジュールをピンポイントし更新し、他のパラメータを凍結し続ける。 専門性と汎用性の両方の総合評価において、CoFiTuneは、さまざまなタスクとモデルスケールのベースラインメソッドを一貫して上回ります。 フルパラメータのSFTと比較すると、CoFiTuneは約14%の汎用性向上と13Bモデルでの限界特殊性損失をもたらす。 最後に,LLMにおける情報転送プロセスの投機的考察を行い,提案手法の有効性について解説する。 コードはhttps://github.com/rattlesnakey/CoFiTune.comで入手できる。

Aligned Large Language Models (LLMs) showcase remarkable versatility, capable of handling diverse real-world tasks. Meanwhile, aligned LLMs are also expected to exhibit speciality, excelling in specific applications. However, fine-tuning with extra data, a common practice to gain speciality, often leads to catastrophic forgetting (CF) of previously acquired versatility, hindering the model's performance across diverse tasks. In response to this challenge, we propose CoFiTune, a coarse to fine framework in an attempt to strike the balance between speciality and versatility. At the coarse-grained level, an empirical tree-search algorithm is utilized to pinpoint and update specific modules that are crucial for speciality, while keeping other parameters frozen; at the fine-grained level, a soft-masking mechanism regulates the update to the LLMs, mitigating the CF issue without harming speciality. In an overall evaluation of both speciality and versatility, CoFiTune consistently outperforms baseline methods across diverse tasks and model scales. Compared to the full-parameter SFT, CoFiTune leads to about 14% versatility improvement and marginal speciality loss on a 13B model. Lastly, based on further analysis, we provide a speculative insight into the information forwarding process in LLMs, which helps explain the effectiveness of the proposed method. The code is available at https://github.com/rattlesnakey/CoFiTune.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-03
# 計算社会科学と人工知能研究におけるプライバシーの埋め込み

Embedding Privacy in Computational Social Science and Artificial Intelligence Research ( http://arxiv.org/abs/2404.11515v2 )

ライセンス: Link先を確認
Keenan Jones, Fatima Zahrah, Jason R. C. Nurse, (参考訳) プライバシーは人間の権利だ。 個人が自由に議論をし、グループに参加し、オンラインやオフラインで関係を形成できるようにします。 プライバシを保存することは、特に計算社会科学(CSS)、人工知能(AI)、データサイエンス領域において、新しい洞察のために個人のデータに依存することを考えると、研究において重要な要素として浮上している。 高度な計算モデルの使用の増加は、不適切に使用すれば、プライバシーの権利を急速に侵害し、個人、特に脆弱なグループ、社会に悪影響を及ぼす可能性があるため、プライバシーの懸念を悪化させる。 われわれは、ChatGPTのような大規模な言語モデル(LLM)の出現によって、多くのプライバシー問題が浮かび上がっているのをすでに目撃している。 この記事では、プライバシの役割と、CSS、AI、データサイエンス、および関連するドメインで働く研究者が直面する問題について議論することによって、この分野に貢献する。 そして、研究結果の設計、データ収集と使用、分析、普及において、参加者のプライバシが最善に保存されていることを保証するために、研究者にとって重要な考慮事項をいくつか提示する。

Privacy is a human right. It ensures that individuals are free to engage in discussions, participate in groups, and form relationships online or offline without fear of their data being inappropriately harvested, analyzed, or otherwise used to harm them. Preserving privacy has emerged as a critical factor in research, particularly in the computational social science (CSS), artificial intelligence (AI) and data science domains, given their reliance on individuals' data for novel insights. The increasing use of advanced computational models stands to exacerbate privacy concerns because, if inappropriately used, they can quickly infringe privacy rights and lead to adverse effects for individuals -- especially vulnerable groups -- and society. We have already witnessed a host of privacy issues emerge with the advent of large language models (LLMs), such as ChatGPT, which further demonstrate the importance of embedding privacy from the start. This article contributes to the field by discussing the role of privacy and the issues that researchers working in CSS, AI, data science and related domains are likely to face. It then presents several key considerations for researchers to ensure participant privacy is best preserved in their research design, data collection and use, analysis, and dissemination of research results.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-03
# 複合現実感における視線追跡による神経変性疾患の診断

Eye-tracking in Mixed Reality for Diagnosis of Neurodegenerative Diseases ( http://arxiv.org/abs/2404.12984v2 )

ライセンス: Link先を確認
Mateusz Daniol, Daria Hemmerling, Jakub Sikora, Pawel Jemiolo, Marek Wodzinski, Magdalena Wojcik-Pedziwiatr, (参考訳) パーキンソン病は世界で2番目に多い神経変性疾患である。 本研究の目的は、眼球運動の追跡・評価にMixed Reality機能を活用するシステムを開発することである。 本稿では、神経変性疾患評価のためのMixed Reality技術を用いて、視線追跡信号を捕捉するアプリケーションの開発について概説する。 さらに,眼球分析から臨床的に関連性のある特徴を抽出するパイプラインを導入し,医療的な観点から提案システムの有用性について述べる。 この研究は、パーキンソン病に苦しむ健常者や患者のコホートを巻き込み、神経変性疾患の診断のための眼球運動パターンの非侵襲的モニタリング技術の可能性と可能性を示した。 臨床関連性 - パーキンソン病の発症を正確に検出するためには、パーキンソン病の非侵襲的バイオマーカーの開発が急務である。 これにより、早期に神経保護治療をタイムリーに導入し、介入結果の継続的なモニタリングが可能になる。 眼球運動の微妙な変化を検出する能力は早期診断を可能にし、より顕著な症状が現れる前に介入のための重要な窓を提供する。 視線追跡は客観的かつ定量なバイオマーカーを提供し、疾患の進行と認知機能の信頼性を保証する。 Mixed Reality メガネを用いた視線分析は,家庭と病院の両方で便利な評価を行う上で有用である。 このアプローチは、追加の特別なアタッチメントを必要としないハードウェアを活用する利点を提供し、個人用アイウェアによる検査を可能にする。

Parkinson's disease ranks as the second most prevalent neurodegenerative disorder globally. This research aims to develop a system leveraging Mixed Reality capabilities for tracking and assessing eye movements. In this paper, we present a medical scenario and outline the development of an application designed to capture eye-tracking signals through Mixed Reality technology for the evaluation of neurodegenerative diseases. Additionally, we introduce a pipeline for extracting clinically relevant features from eye-gaze analysis, describing the capabilities of the proposed system from a medical perspective. The study involved a cohort of healthy control individuals and patients suffering from Parkinson's disease, showcasing the feasibility and potential of the proposed technology for non-intrusive monitoring of eye movement patterns for the diagnosis of neurodegenerative diseases. Clinical relevance - Developing a non-invasive biomarker for Parkinson's disease is urgently needed to accurately detect the disease's onset. This would allow for the timely introduction of neuroprotective treatment at the earliest stage and enable the continuous monitoring of intervention outcomes. The ability to detect subtle changes in eye movements allows for early diagnosis, offering a critical window for intervention before more pronounced symptoms emerge. Eye tracking provides objective and quantifiable biomarkers, ensuring reliable assessments of disease progression and cognitive function. The eye gaze analysis using Mixed Reality glasses is wireless, facilitating convenient assessments in both home and hospital settings. The approach offers the advantage of utilizing hardware that requires no additional specialized attachments, enabling examinations through personal eyewear.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-03
# 自己監督型Deep Deformable Masked Autoencodersを用いた頭蓋欠損自動再建

Automatic Cranial Defect Reconstruction with Self-Supervised Deep Deformable Masked Autoencoders ( http://arxiv.org/abs/2404.13106v2 )

ライセンス: Link先を確認
Marek Wodzinski, Daria Hemmerling, Mateusz Daniol, (参考訳) 毎年何千人もの人が頭蓋骨の怪我を負っている。 再建手術前に設計・製造する必要があるパーソナライズされたインプラントが必要である。 手動設計は高価で時間を要するため、プロセスの自動化を目標とするアルゴリズムの検索に繋がる。 この問題は容積形状の完備化として定式化することができ、教師付きイメージセグメンテーション専用のディープニューラルネットワークによって解決される。 しかし、このようなアプローチには、コストと時間を要する地道的な欠陥に注釈を付ける必要がある。 通常、プロセスは合成欠陥生成に置き換えられる。 しかし、合成地下構造生成でさえ時間がかかり、データの不均一性を制限しているため、深層モデルの一般化性は低下する。 本研究では,この問題を解決するために自己教師付きマスク付きオートエンコーダを用いる方法を提案する。 このアプローチはトレーニングセットの不均一性を高め、データ拡張の一形態と見なすことができる。 提案手法を最先端の深層ニューラルネットワークと比較し,SkullBreakデータセットとSkullFixデータセットの定量的および定性的な改善点を示す。 提案手法は,脳の欠陥をリアルタイムに再現するために有効である。

Thousands of people suffer from cranial injuries every year. They require personalized implants that need to be designed and manufactured before the reconstruction surgery. The manual design is expensive and time-consuming leading to searching for algorithms whose goal is to automatize the process. The problem can be formulated as volumetric shape completion and solved by deep neural networks dedicated to supervised image segmentation. However, such an approach requires annotating the ground-truth defects which is costly and time-consuming. Usually, the process is replaced with synthetic defect generation. However, even the synthetic ground-truth generation is time-consuming and limits the data heterogeneity, thus the deep models' generalizability. In our work, we propose an alternative and simple approach to use a self-supervised masked autoencoder to solve the problem. This approach by design increases the heterogeneity of the training set and can be seen as a form of data augmentation. We compare the proposed method with several state-of-the-art deep neural networks and show both the quantitative and qualitative improvement on the SkullBreak and SkullFix datasets. The proposed method can be used to efficiently reconstruct the cranial defects in real time.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-03
# 大規模言語モデルの自己進化に関する調査

A Survey on Self-Evolution of Large Language Models ( http://arxiv.org/abs/2404.14387v2 )

ライセンス: Link先を確認
Zhengwei Tao, Ting-En Lin, Xiancai Chen, Hangyu Li, Yuchuan Wu, Yongbin Li, Zhi Jin, Fei Huang, Dacheng Tao, Jingren Zhou, (参考訳) 大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。 しかしながら、人間や外部モデルから学習する現在のLLMはコストがかかり、タスクの複雑さと多様性が増大するにつれてパフォーマンスの天井に直面する可能性がある。 この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。 人間の経験的学習プロセスにインスパイアされたこの新しいトレーニングパラダイムは、LLMを超知能に拡張する可能性を提供します。 本研究では,LLMにおける自己進化的アプローチの包括的調査を行う。 まず, 自己進化のための概念的枠組みを提案し, 経験獲得, 経験改善, 更新, 評価の4段階からなる反復サイクルとして, 進化過程を概説する。 次に, LLM と LLM をベースとしたエージェントの進化目標を分類し, 文献を要約し, 各モジュールの分類と知見を提供する。 最後に、既存の課題を指摘し、自己進化の枠組みを改善するための今後の方向性を提案し、研究者に重要な洞察を与え、自己進化型LCMの開発を迅速に追跡する。 対応するGitHubリポジトリはhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/Awesome-Self-Evolution-of-LLMで公開しています。

Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs. Our corresponding GitHub repository is available at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/Awesome-Self-Evolution-of-LLM
翻訳日:2024-06-04 15:08:25 公開日:2024-06-03
# 量子ネットワークのための連続冷却イオンの高速光子による絡み合い

Fast photon-mediated entanglement of continuously-cooled trapped ions for quantum networking ( http://arxiv.org/abs/2404.16167v2 )

ライセンス: Link先を確認
Jameson O'Reilly, George Toh, Isabella Goetting, Sagnik Saha, Mikhail Shalaev, Allison Carter, Andrew Risinger, Ashish Kalakuntla, Tingguang Li, Ashrit Verma, Christopher Monroe, (参考訳) 我々は2つのコトラップされた原子バリウムイオンの量子ビットを、各イオンから真空0.8NAの目的物を通して1つの可視光子を集め、それらを集積ファイバービームスプリッターを介して干渉し、偶然に検出することで絡み合わせる。 これにより、クォービットは、観測された忠実度が F > 94% 以下の絡み合ったベル状態に投影される。 また, 同調冷却用イッテルビウムイオンを導入し, 中断除去の必要性を除去し, 連続的絡み合い速度2501/sを実現した。

We entangle two co-trapped atomic barium ion qubits by collecting single visible photons from each ion through in-vacuo 0.8 NA objectives, interfering them through an integrated fiber-beamsplitter and detecting them in coincidence. This projects the qubits into an entangled Bell state with an observed fidelity lower bound of F > 94%. We also introduce an ytterbium ion for sympathetic cooling to remove the need for recooling interruptions and achieve a continuous entanglement rate of 250 1/s.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-03
# PhyRecon: 物理的に可塑性のニューラルシーン再構築

PhyRecon: Physically Plausible Neural Scene Reconstruction ( http://arxiv.org/abs/2404.16666v3 )

ライセンス: Link先を確認
Junfeng Ni, Yixin Chen, Bohan Jing, Nan Jiang, Bin Wang, Bo Dai, Puhao Li, Yixin Zhu, Song-Chun Zhu, Siyuan Huang, (参考訳) ニューラルな暗黙の表現は多視点3D再構成で人気を博している。 しかし、これまでのほとんどの作業は物理的に妥当な結果を得るのに苦労し、具体化されたAIやロボット工学のような厳密な物理的精度を必要とする領域において、その実用性を制限した。 この妥当性の欠如は、既存の方法における物理モデリングの欠如と、複雑な幾何学的構造を回復できないことに起因する。 本稿では、微分可能なレンダリングと微分可能な物理シミュレーションを併用して暗黙的な表面表現を学習する最初のアプローチであるPhyReconを紹介する。 PhyReconは、ニューラルな暗黙の表現に基づいて構築された、新しい微分可能な粒子ベースの物理シミュレータを備えている。 この設計の中心は、SDFに基づく暗黙の表現と、提案したSurface Points Marching Cubes (SP-MC)による明示的な表面点との効率的な変換であり、レンダリングと物理的損失の両方で微分可能な学習を可能にする。 さらに、PhyReconはレンダリングと物理的不確実性の両方をモデル化し、矛盾と不正確な単色幾何学的先行を識別し補う。 この物理的不確実性により、新しい物理誘導画素サンプリングが促進され、細い構造の学習が促進される。 これらの手法を統合することで、我々のモデルは外観、幾何学、物理学の異なる関節モデリングをサポートする。 大規模な実験により、PhyReconはすべての最先端手法を著しく上回っていることが示された。 また,物理シミュレータの物理的安定性も向上し,全データセットに対して少なくとも40%の改善が達成され,将来的な物理ベースアプリケーションへの道が開かれた。

Neural implicit representations have gained popularity in multi-view 3D reconstruction. However, most previous work struggles to yield physically plausible results, limiting their utility in domains requiring rigorous physical accuracy, such as embodied AI and robotics. This lack of plausibility stems from the absence of physics modeling in existing methods and their inability to recover intricate geometrical structures. In this paper, we introduce PhyRecon, the first approach to leverage both differentiable rendering and differentiable physics simulation to learn implicit surface representations. PhyRecon features a novel differentiable particle-based physical simulator built on neural implicit representations. Central to this design is an efficient transformation between SDF-based implicit representations and explicit surface points via our proposed Surface Points Marching Cubes (SP-MC), enabling differentiable learning with both rendering and physical losses. Additionally, PhyRecon models both rendering and physical uncertainty to identify and compensate for inconsistent and inaccurate monocular geometric priors. This physical uncertainty further facilitates a novel physics-guided pixel sampling to enhance the learning of slender structures. By integrating these techniques, our model supports differentiable joint modeling of appearance, geometry, and physics. Extensive experiments demonstrate that PhyRecon significantly outperforms all state-of-the-art methods. Our results also exhibit superior physical stability in physical simulators, with at least a 40% improvement across all datasets, paving the way for future physics-based applications.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-03
# SOUL:LLMアンラーニングのための2階最適化のパワーを解き放つ

SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning ( http://arxiv.org/abs/2404.18239v3 )

ライセンス: Link先を確認
Jinghan Jia, Yihua Zhang, Yimeng Zhang, Jiancheng Liu, Bharat Runwal, James Diffenderfer, Bhavya Kailkhura, Sijia Liu, (参考訳) 大規模言語モデル(LLM)は、データ規則や倫理的AIプラクティスに従うための効果的な非学習メカニズムの必要性を強調している。 LLMアンラーニングは、望ましくないデータの影響と関連するモデル機能を取り除くことを目的としており、アンラーニングの範囲からユーティリティを妥協させることはない。 LLMアンラーニングの研究への関心は高まっているが、LLMアンラーニングにおけるオプティマイザ選択の影響はいまだに未調査である。 本研究では,LLMアンラーニングにおけるオプティマイザ選択の重要性を初めて明らかにし,<2次最適化>とアンラーニング(データ影響除去のためのモデル更新にインフルエンス関数を用いた古典的アプローチ)との明確な関係を確立した。 この知見は,2次クリッピング確率最適化(Sophia)に基づくLLM学習法に基づいて,SOULと呼ばれる2次アンラーニングフレームワークを開発することを示唆している。 SOULは、動的で反復的なアンラーニングプロセスにインフルエンスアンラーニングを使用して、静的でワンショットのモデル更新を拡張する。 我々の広範な実験により、SOULは様々な未学習タスク、モデル、メトリクスにまたがる従来の一階法よりも一貫して優れており、LLMアンラーニングのためのスケーラブルで実装が容易なソリューションを提供することで、二階最適化の可能性を示唆している。

Large Language Models (LLMs) have highlighted the necessity of effective unlearning mechanisms to comply with data regulations and ethical AI practices. LLM unlearning aims at removing undesired data influences and associated model capabilities without compromising utility out of the scope of unlearning. While interest in studying LLM unlearning is growing,the impact of the optimizer choice for LLM unlearning remains under-explored. In this work, we shed light on the significance of optimizer selection in LLM unlearning for the first time, establishing a clear connection between {second-order optimization} and influence unlearning (a classical approach using influence functions to update the model for data influence removal). This insight propels us to develop a second-order unlearning framework, termed SOUL, built upon the second-order clipped stochastic optimization (Sophia)-based LLM training method. SOUL extends the static, one-shot model update using influence unlearning to a dynamic, iterative unlearning process. Our extensive experiments show that SOUL consistently outperforms conventional first-order methods across various unlearning tasks, models, and metrics, suggesting the promise of second-order optimization in providing a scalable and easily implementable solution for LLM unlearning.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-03
# The Socface Project: 1世紀のフランスの国勢調査の大規模収集・処理・分析

The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses ( http://arxiv.org/abs/2404.18706v2 )

ライセンス: Link先を確認
Mélodie Boillet, Solène Tarride, Manon Blanco, Valentin Rigal, Yoann Schneider, Bastien Abadie, Lionel Kesztenbaum, Christopher Kermorvant, (参考訳) 本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。 これらのリストには、フランスとその家庭に住む個人に関する情報が含まれている。 自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。 私たちの仕事が行われているSocfaceプロジェクトの終わりに、抽出された情報は、部局のアーカイブに再配布され、指名リストは無料で公開され、誰でも数億のレコードを閲覧できます。 抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。 本プロジェクトでは,フランスの部局アーカイブからの大規模データ収集,文書の協調アノテーション,手書き表テキストと構造認識モデルのトレーニング,数百万の画像の大量処理など,完全な処理ワークフローを構築した。 数百万ページの収集と処理を容易にするために開発したツールを紹介します。 また、ページ全体の画像を用いて個人に関する情報を認識し、分類し、自動的に家庭に分類する単一のテーブル認識モデルを用いて、このような多種多様なテーブルを処理できることも示している。 全プロセスは、45万枚以上の画像を表す部門文書の処理に成功している。

This paper presents a complete processing workflow for extracting information from French census lists from 1836 to 1936. These lists contain information about individuals living in France and their households. We aim at extracting all the information contained in these tables using automatic handwritten table recognition. At the end of the Socface project, in which our work is taking place, the extracted information will be redistributed to the departmental archives, and the nominative lists will be freely available to the public, allowing anyone to browse hundreds of millions of records. The extracted data will be used by demographers to analyze social change over time, significantly improving our understanding of French economic and social structures. For this project, we developed a complete processing workflow: large-scale data collection from French departmental archives, collaborative annotation of documents, training of handwritten table text and structure recognition models, and mass processing of millions of images. We present the tools we have developed to easily collect and process millions of pages. We also show that it is possible to process such a wide variety of tables with a single table recognition model that uses the image of the entire page to recognize information about individuals, categorize them and automatically group them into households. The entire process has been successfully used to process the documents of a departmental archive, representing more than 450,000 images.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-03
# 量子ネットワークにおけるGHZ状態分布のための簡易損失耐性プロトコル

Simple loss-tolerant protocol for GHZ-state distribution in a quantum network ( http://arxiv.org/abs/2404.19458v2 )

ライセンス: Link先を確認
Hikaru Shimizu, Wojciech Roga, David Elkouss, Masahiro Takeoka, (参考訳) 分散量子絡み合いは、量子デバイスを接続するネットワークの実現において重要な役割を果たす。 しかし、光子による遠方のノード間の絡み合いの共有は、リンクチャネルの避けられない損失のため、第一に難しいプロセスである。 本稿ではGreenberger-Horne-Zeilinger状態分布に対する単純な損失耐性プロトコルを提案する。 本研究では, 実測可能な実験条件下での分布速度を解析し, 直接伝送に対する速度損失スケーリングの利点を実証する。 我々のプロトコルは量子リピータを使用しず、現在の量子光学技術で実現可能である。 その結果、カンファレンスキーの合意や分散センシングといったタスクに直接適用できます。 さらに、表面符号のような分散量子誤り訂正符号の実装の要件を小さくする。

Distributed quantum entanglement plays a crucial role in realizing networks that connect quantum devices. However, sharing entanglement between distant nodes by means of photons is a challenging process primary due to unavoidable losses in the linking channels. In this paper, we propose a simple loss-tolerant protocol for the Greenberger-Horne-Zeilinger state distribution. We analyze the distribution rate under feasible experimental conditions and demonstrate the advantages of rate-loss scaling with respect to direct transmission. Our protocol does not use quantum repeaters and is achievable with current quantum optics technology. The result has direct application to tasks such as conference key agreement or distributed sensing. Moreover, it reduces the requirements for implementing distributed quantum error correction codes such as the surface code.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-03
# 一般化等角的タイトフレームからの情報過完全測定

Informationally overcomplete measurements from generalized equiangular tight frames ( http://arxiv.org/abs/2405.00560v3 )

ライセンス: Link先を確認
Katarzyna Siudzińska, (参考訳) 情報の過剰な測定は、量子トモグラフィーと量子状態推定に重要な応用を見出す。 最も一般的なのは相互に偏りのない基底の最大集合であり、測定作用素間のトレース関係はよく知られている。 本稿では、任意のランクの等角的タイトフレームによって生成される情報的にオーバーコンプリートなPOVMのより一般的なクラスを紹介する。 このクラスは、互いに偏りのない測度と基底の再スケールを含む非射影POVMへの等角測度を一般化する。 本稿では, それらの構成法, 対称性特性の解析, 高対称性の場合の例について述べる。 特に、円錐型2-設計である一般化された等角測定の幅広いクラスを見つけ、偶然の指数を導出することができる。 以上の結果から,POVM の情報完全コレクションに対して,情報の過剰な測定を単一で行うことのメリットが示唆された。

Informationally overcomplete measurements find important applications in quantum tomography and quantum state estimation. The most popular are maximal sets of mutually unbiased bases, for which trace relations between measurement operators are well known. In this paper, we introduce a more general class of informationally overcomplete POVMs that are generated by equiangular tight frames of arbitrary rank. This class provides a generalization of equiangular measurements to non-projective POVMs, which include rescaled mutually unbiased measurements and bases. We provide a method of their construction, analyze their symmetry properties, and provide examples for highly symmetric cases. In particular, we find a wide class of generalized equiangular measurements that are conical 2-designs, which allows us to derive the index of coincidence. Our results show benefits of considering a single informationally overcomplete measurement over informationally complete collections of POVMs.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-03
# SparseTSF: 1kパラメータによる長期時系列予測のモデル化

SparseTSF: Modeling Long-term Time Series Forecasting with 1k Parameters ( http://arxiv.org/abs/2405.00946v2 )

ライセンス: Link先を確認
Shengsheng Lin, Weiwei Lin, Wentai Wu, Haojun Chen, Junjie Yang, (参考訳) 本稿では,SparseTSFについて紹介する。SparseTSFは,最小限の計算資源を持つ拡張地平線上での複雑な時間的依存関係をモデル化する際の課題を解決するために設計された,長期時系列予測(LTSF)のための新しい,非常に軽量なモデルである。 SparseTSFの中心にはCross-Period Sparse Forecasting技術があり、時系列データの周期性と傾向を分離することで予測タスクを単純化する。 この手法は、モデルの複雑さとパラメータ数を最小限に抑えながら、周期的な特徴を効果的に抽出する。 この手法に基づいて、SparseTSFモデルは*1k*未満のパラメータを使用して、最先端モデルと比較して、競争力や優れたパフォーマンスを達成する。 さらに、SparseTSFは目覚ましい一般化機能を示し、限られた計算資源、小さなサンプル、低品質のデータを扱うシナリオに適している。 コードは、このリポジトリで公開されている。 https://github.com/lss-1138/SparseTSF。

This paper introduces SparseTSF, a novel, extremely lightweight model for Long-term Time Series Forecasting (LTSF), designed to address the challenges of modeling complex temporal dependencies over extended horizons with minimal computational resources. At the heart of SparseTSF lies the Cross-Period Sparse Forecasting technique, which simplifies the forecasting task by decoupling the periodicity and trend in time series data. This technique involves downsampling the original sequences to focus on cross-period trend prediction, effectively extracting periodic features while minimizing the model's complexity and parameter count. Based on this technique, the SparseTSF model uses fewer than *1k* parameters to achieve competitive or superior performance compared to state-of-the-art models. Furthermore, SparseTSF showcases remarkable generalization capabilities, making it well-suited for scenarios with limited computational resources, small samples, or low-quality data. The code is publicly available at this repository: https://github.com/lss-1138/SparseTSF.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-03
# 精密視線マップ構築のための局所的修復による分岐訓練コストの対応

Addressing Diverging Training Costs using Local Restoration for Precise Bird's Eye View Map Construction ( http://arxiv.org/abs/2405.01016v2 )

ライセンス: Link先を確認
Minsu Kim, Giseop Kim, Sunwook Choi, (参考訳) 地図構築のためのBird's Eye View(BEV)融合の最近の進歩は、都市環境の顕著なマッピングを示している。 しかし、その深くて粗いアーキテクチャは、かなりの量のバックプロパゲーションメモリとコンピューティングのレイテンシを引き起こす。 結果として、この問題は高解像度(HR)のBEVマップの構築において必然的にボトルネックとなる。 この問題の影響で、既存のほとんどの手法は低解像度のBEVを採用し、道路車線や歩道などの都市景観の正確な位置を推定するのに苦労している。 インプレクシションがリスクの高い自動運転につながるため、多様化するトレーニングコストの問題は解決されなければならない。 本稿では,新しいTrumpet Neural Network(TNN)機構でこの問題に対処する。 このフレームワークはLR BEV空間を利用し、メモリ効率のよいパイプラインを作成するために、アップサンプルのセマンティックBEVマップを出力する。 そこで本稿では,BEV表現の局所的復元について紹介する。 具体的には、アップサンプリングされたBEV表現は、深刻なエイリアス、ブロッキー信号、そして厚いセマンティックラベルを持っている。 提案したローカル復元は,信号の復元とラベルの幅の縮小(あるいは縮小)を行う。 我々の広範な実験により、TNN機構は、プラグアンドプレイのメモリ効率の高いパイプラインを提供し、BEVマップ構築のための実サイズ(または正確な)セマンティックラベルを効果的に推定できることが示されている。

Recent advancements in Bird's Eye View (BEV) fusion for map construction have demonstrated remarkable mapping of urban environments. However, their deep and bulky architecture incurs substantial amounts of backpropagation memory and computing latency. Consequently, the problem poses an unavoidable bottleneck in constructing high-resolution (HR) BEV maps, as their large-sized features cause significant increases in costs including GPU memory consumption and computing latency, named diverging training costs issue. Affected by the problem, most existing methods adopt low-resolution (LR) BEV and struggle to estimate the precise locations of urban scene components like road lanes, and sidewalks. As the imprecision leads to risky self-driving, the diverging training costs issue has to be resolved. In this paper, we address the issue with our novel Trumpet Neural Network (TNN) mechanism. The framework utilizes LR BEV space and outputs an up-sampled semantic BEV map to create a memory-efficient pipeline. To this end, we introduce Local Restoration of BEV representation. Specifically, the up-sampled BEV representation has severely aliased, blocky signals, and thick semantic labels. Our proposed Local Restoration restores the signals and thins (or narrows down) the width of the labels. Our extensive experiments show that the TNN mechanism provides a plug-and-play memory-efficient pipeline, thereby enabling the effective estimation of real-sized (or precise) semantic labels for BEV map construction.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-03
# マルチスケール因果学習

Multiscale Causal Learning ( http://arxiv.org/abs/2405.02325v2 )

ライセンス: Link先を確認
Michael Timothy Bennett, (参考訳) 生物学的知能は、より少ない例から学ぶ人工知能(AI)よりもサンプリング効率が高い。 ここでは理由を答える。 データを考えると、データに完全に適合しているため、多くのポリシーが“正しい”ように思える。 しかし、実際にデータを発生させたのは、正しいポリシーの1つだけだった。 サンプル効率は、どれを識別する手段を必要とする。 以前の研究では、サンプル効率は弱政治最適化(WPO)によって最大化され、有限資源から見て、正しいと考えられるものをより弱く制限する政策が好まれていた。 生物学のサンプル効率は、WPOが優れていることを示している。 そこで我々は,生物系で観察される「マルチスケール・コンピテンシー・アーキテクチャ(MCA)」を,ネストした「老化促進層」の配列として定式化する。 低レベルのWPOは、より弱いポリシーを高いレベルで合成できることを示す。 私たちはこれを"マルチスケール因果学習(multiscale-causal-learning)"と呼び、これを、よりスケール可能でサンプル効率のよい、信頼性の高いAIを構築する方法として論じています。 さらに、低レベルの十分弱い政策は、より高いレベルの集団政策の前提条件である。 集団の「アイデンティティ」の上位レベルは、低レベルが不十分に弱いポリシーを使用すると失われる(例えば、g細胞は集団の情報構造から分離され、原始的な行動に戻る)。 これは生物学、機械学習、AI安全性、哲学に影響を及ぼす。

Biological intelligence is more sample-efficient than artificial intelligence (AI), learning from fewer examples. Here we answer why. Given data, there can be many policies which seem "correct" because they perfectly fit the data. However, only one correct policy could have actually caused the data. Sample-efficiency requires a means of discerning which. Previous work showed sample efficiency is maximised by weak-policy-optimisation (WPO); preferring policies that more weakly constrain what is considered to be correct, given finite resources. Biology's sample-efficiency demonstrates it is better at WPO. To understand how, we formalise the "multiscale-competency-architecture" (MCA) observed in biological systems, as a sequence of nested "agentic-abstraction-layers". We show that WPO at low levels enables synthesis of weaker policies at high. We call this "multiscale-causal-learning", and argue this is how we might construct more scale-able, sample-efficient and reliable AI. Furthermore, a sufficiently weak policy at low levels is a precondition of collective policy at higher levels. The higher level "identity" of the collective is lost if lower levels use an insufficiently weak policy (e.g. cells may become isolated from the collective informational structure and revert to primitive behaviour). This has implications for biology, machine learning, AI-safety, and philosophy.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-03
# U-DiT:U形拡散変圧器におけるダウンサンプルトークン

U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers ( http://arxiv.org/abs/2405.02730v2 )

ライセンス: Link先を確認
Yuchuan Tian, Zhijun Tu, Hanting Chen, Jie Hu, Chao Xu, Yunhe Wang, (参考訳) DiT(Diffusion Transformer)は、遅延空間画像生成のための拡散タスクにトランスフォーマーアーキテクチャを導入する。 一連の変圧器ブロックをチェーンする等方的アーキテクチャでは、DiTは競争性能と優れたスケーラビリティを示しているが、一方で、DiTによるU-Netの放棄とその次の改善は再考する価値がある。 この目的のために、U-NetアーキテクチャのDiTと等方的なDiTを比較することで、簡単な玩具実験を行う。 U-Netアーキテクチャは、U-Netインダクティブバイアスの中でわずかに有利にしかならず、U-NetスタイルのDiT内の潜在的な冗長性を示している。 U-Netのバックボーン機能が低周波に支配されているという発見に触発されて、クエリキー値タプルのトークンダウンサンプリングを行い、計算量を大幅に削減したにもかかわらず、さらなる改善をもたらす。 ダウンサンプルトークンによる自己注意に基づいて,本論文では,U字型DiT(U-DiT)のシリーズを提案し,U-DiTモデルの異常な性能を示すための広範な実験を行う。 提案されたU-DiTは、計算コストのわずか1/6でDiT-XL/2を上回った。 コードはhttps://github.com/YuchuanTian/U-DiT.comで入手できる。

Diffusion Transformers (DiTs) introduce the transformer architecture to diffusion tasks for latent-space image generation. With an isotropic architecture that chains a series of transformer blocks, DiTs demonstrate competitive performance and good scalability; but meanwhile, the abandonment of U-Net by DiTs and their following improvements is worth rethinking. To this end, we conduct a simple toy experiment by comparing a U-Net architectured DiT with an isotropic one. It turns out that the U-Net architecture only gain a slight advantage amid the U-Net inductive bias, indicating potential redundancies within the U-Net-style DiT. Inspired by the discovery that U-Net backbone features are low-frequency-dominated, we perform token downsampling on the query-key-value tuple for self-attention that bring further improvements despite a considerable amount of reduction in computation. Based on self-attention with downsampled tokens, we propose a series of U-shaped DiTs (U-DiTs) in the paper and conduct extensive experiments to demonstrate the extraordinary performance of U-DiT models. The proposed U-DiT could outperform DiT-XL/2 with only 1/6 of its computation cost. Codes are available at https://github.com/YuchuanTian/U-DiT.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-03
# Sachdev-Ye-Kitaev相互作用のための電池の量子優位性

Quantum advantage in batteries for Sachdev-Ye-Kitaev interactions ( http://arxiv.org/abs/2405.03306v6 )

ライセンス: Link先を確認
Gianluca Francica, (参考訳) セルが相互作用している場合、量子電池のユニタリ充電において量子アドバンテージが達成される。 ここでは、この量子優位性がスパース Sachdev-Ye-Kitaev (SYK) 相互作用に対してどのように達成されるのかを解析計算により明らかにする。 簡単なモデル化を行うことで、$q$-point rescaled sparse SYK 相互作用に対して、量子優位性は$\Gamma\sim N^{\frac{\alpha-q}{2}+\frac{1}{2}}$ for $\alpha\geq q/2$ and $\Gamma\sim N^{\frac{1}{2}-\frac{\alpha}{2}}$ for $q/2>\alpha\geq 0$ となる。

A quantum advantage can be achieved in the unitary charging of quantum batteries if their cells are interacting. Here, we try to clarify with some analytical calculations whether and how this quantum advantage is achieved for sparse Sachdev-Ye-Kitaev (SYK) interactions. By performing a simple modelization, we find that for $q$-point rescaled sparse SYK interactions the quantum advantage goes as $\Gamma\sim N^{\frac{\alpha-q}{2}+\frac{1}{2}}$ for $\alpha\geq q/2$ and $\Gamma\sim N^{\frac{1}{2}-\frac{\alpha}{2}}$ for $q/2>\alpha\geq 0$, where $\alpha$ is related to the connectivity and $N$ is the number of cells.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-03
# SevenLLM:サイバー脅威インテリジェンスにおける大規模言語モデルのベンチマーク、緩和、強化

SEvenLLM: Benchmarking, Eliciting, and Enhancing Abilities of Large Language Models in Cyber Threat Intelligence ( http://arxiv.org/abs/2405.03446v2 )

ライセンス: Link先を確認
Hangyuan Ji, Jian Yang, Linzheng Chai, Chaoren Wei, Liqun Yang, Yunlong Duan, Yunli Wang, Tianzhen Sun, Hongcheng Guo, Tongliang Li, Changyu Ren, Zhoujun Li, (参考訳) 最近の100億件以上のサイバーセキュリティ脅威レポートで強調されているサイバーセキュリティインシデントの増加と頻度に対処するため、サイバー脅威インテリジェンス(CTI)は、サイバー脅威の絶えず進化する性質を理解し、対処するために必要な洞察を提供することによって、現代のサイバーセキュリティの状況において重要な役割を果たす。 本稿では,LLM for Security Events(SEvenLLM)において,大規模言語モデル(LLM)の複雑なタスク処理能力に着想を得て,サイバーセキュリティインシデント分析と応答能力のベンチマーク,評価,改善を行うフレームワークを提案する。 具体的には、サイバーセキュリティウェブサイトからサイバーセキュリティの原文をクロールすることで、情報抽出に有効なデータがないことを克服し、高品質なバイリンガル命令コーパスを作成する。 そして,タスクプールからタスクを自動的に選択し,質問応答からなる教師付きコーパスに変換するパイプラインを設計する。 命令データセットSEvenLLM-Instructは、サイバーセキュリティイベントの分析を強化するために、マルチタスク学習目標(27のよく設計されたタスク)でサイバーセキュリティLLMをトレーニングするために使用される。 得られたベンチマーク(SEvenLLM-bench)では、SEvenLLMはより高度な脅威分析を行い、サイバー脅威の進化する状況に対する防御を固めている。

To address the increasing complexity and frequency of cybersecurity incidents emphasized by the recent cybersecurity threat reports with over 10 billion instances, cyber threat intelligence (CTI) plays a critical role in the modern cybersecurity landscape by offering the insights required to understand and combat the constantly evolving nature of cyber threats. Inspired by the powerful capability of large language models (LLMs) in handling complex tasks, in this paper, we introduce a framework to benchmark, elicit, and improve cybersecurity incident analysis and response abilities in LLMs for Security Events (SEvenLLM). Specifically, we create a high-quality bilingual instruction corpus by crawling cybersecurity raw text from cybersecurity websites to overcome the lack of effective data for information extraction. Then, we design a pipeline to auto-select tasks from the tasks pool and convert the raw text into supervised corpora comprised of question and response. The instruction dataset SEvenLLM-Instruct is used to train cybersecurity LLMs with the multi-task learning objective (27 well-designed tasks) for augmenting the analysis of cybersecurity events. Extensive experiments in our curated benchmark (SEvenLLM-bench) demonstrate that SEvenLLM performs more sophisticated threat analysis and fortifies defenses against the evolving landscape of cyber threats.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-03
# 分布比較のための新しいロバスト部分$p$-Wasserstein-based Metric

A New Robust Partial $p$-Wasserstein-Based Metric for Comparing Distributions ( http://arxiv.org/abs/2405.03664v2 )

ライセンス: Link先を確認
Sharath Raghvendra, Pouyan Shirzadian, Kaiyi Zhang, (参考訳) 2ドルのワッサーシュタイン距離は、分布間の微妙な幾何学的差異に敏感であり、非常に強力な相似性計量である。 しかし、この感度のため、小さな外れ値の質量は、2つの類似した分布の間の2ドル=ワッサーシュタイン距離を著しく増加させる。 同様に、サンプリング誤差は、$\mathbb{R}^2$の$n$のサンプルに対して2ドル=ワッサーシュタイン距離を$n^{-1/4}$のレートで真の距離に収束させる。 我々は,部分的な2ドルワッサーシュタイン距離の計算に基づく$k$-RPWと呼ばれる,$k \ge 0$でパラメータ化された新しい距離の族を導入する。 1)$k$-RPW が計量特性を満たすこと、(2)$k$-RPW が小さな外れ値質量に対して頑健であること、(3)$k$ が定数であるとき、$k$-RPW は$\mathbb{R}^2$ のサンプル上の経験的分布の間の距離が$n^{-1/3}$ の速度で真の距離に収束することを示し、これは$n^{-1/4} の収束速度よりも速い。 部分的な$p$-ワッサーシュタイン距離を用いて、我々の距離を任意の$p \in [1,\infty]$に拡張する。 パラメータ $k$ または $p$ を適切に設定することで、総変量、$p$-ワッサーシュタイン、L'evy-Prokhorov 距離までの距離を減らすことができる。 実験により,ノイズの多い実世界のデータセットにおける画像検索タスクにおいて,1ドル=ワッサースタイン,2ドル=ワッサースタイン,TV距離と比較して高い精度が得られることが示された。

The $2$-Wasserstein distance is sensitive to minor geometric differences between distributions, making it a very powerful dissimilarity metric. However, due to this sensitivity, a small outlier mass can also cause a significant increase in the $2$-Wasserstein distance between two similar distributions. Similarly, sampling discrepancy can cause the empirical $2$-Wasserstein distance on $n$ samples in $\mathbb{R}^2$ to converge to the true distance at a rate of $n^{-1/4}$, which is significantly slower than the rate of $n^{-1/2}$ for $1$-Wasserstein distance. We introduce a new family of distances parameterized by $k \ge 0$, called $k$-RPW that is based on computing the partial $2$-Wasserstein distance. We show that (1) $k$-RPW satisfies the metric properties, (2) $k$-RPW is robust to small outlier mass while retaining the sensitivity of $2$-Wasserstein distance to minor geometric differences, and (3) when $k$ is a constant, $k$-RPW distance between empirical distributions on $n$ samples in $\mathbb{R}^2$ converges to the true distance at a rate of $n^{-1/3}$, which is faster than the convergence rate of $n^{-1/4}$ for the $2$-Wasserstein distance. Using the partial $p$-Wasserstein distance, we extend our distance to any $p \in [1,\infty]$. By setting parameters $k$ or $p$ appropriately, we can reduce our distance to the total variation, $p$-Wasserstein, and the L\'evy-Prokhorov distances. Experiments show that our distance function achieves higher accuracy in comparison to the $1$-Wasserstein, $2$-Wasserstein, and TV distances for image retrieval tasks on noisy real-world data sets.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-03
# ACEGEN:医薬品発見のための生成化学物質の強化学習

ACEGEN: Reinforcement learning of generative chemical agents for drug discovery ( http://arxiv.org/abs/2405.04657v2 )

ライセンス: Link先を確認
Albert Bou, Morgan Thomas, Sebastian Dittert, Carles Navarro Ramírez, Maciej Majewski, Ye Wang, Shivam Patel, Gary Tresadern, Mazen Ahmad, Vincent Moens, Woody Sherman, Simone Sciabola, Gianni De Fabritiis, (参考訳) 近年、強化学習(RL)は医薬品設計において重要なツールとして登場し、望ましい性質を持つ分子の提案と最適化の可能性を秘めている。 しかし、高度なRLアルゴリズムの複雑さと特殊コードへのかなりの依存のため、能力、柔軟性、信頼性、効率のバランスを崩すことは依然として困難である。 そこで本研究では,既存のRLライブラリであるTorchRLを用いて構築した,創薬設計に適した包括的で合理化されたツールキットであるACEGENを紹介する。 我々は、ACEGENを他の生成的モデリングアルゴリズムと比較して検証し、同等または改善された性能を示す。 複数の薬物発見症例に応用されたACEGENの例も紹介する。 ACEGENは \url{https://github.com/acellera/acegen-open} でアクセスでき、MITライセンス下で利用できる。

In recent years, reinforcement learning (RL) has emerged as a valuable tool in drug design, offering the potential to propose and optimize molecules with desired properties. However, striking a balance between capabilities, flexibility, reliability, and efficiency remains challenging due to the complexity of advanced RL algorithms and the significant reliance on specialized code. In this work, we introduce ACEGEN, a comprehensive and streamlined toolkit tailored for generative drug design, built using TorchRL, a modern RL library that offers thoroughly tested reusable components. We validate ACEGEN by benchmarking against other published generative modeling algorithms and show comparable or improved performance. We also show examples of ACEGEN applied in multiple drug discovery case studies. ACEGEN is accessible at \url{https://github.com/acellera/acegen-open} and available for use under the MIT license.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-03
# 変分シュレーディンガー拡散モデル

Variational Schrödinger Diffusion Models ( http://arxiv.org/abs/2405.04795v2 )

ライセンス: Link先を確認
Wei Deng, Weijian Luo, Yixin Tan, Marin Biloš, Yu Chen, Yuriy Nevmyvaka, Ricky T. Q. Chen, (参考訳) Schr\"odinger Bridge (SB) は拡散モデルにおける輸送計画の最適化手法として登場した。 しかし、SBは難解なフォワードスコア関数を推定する必要があるため、必然的にシミュレートされた軌道に基づいて、暗黙のトレーニング損失を発生させる。 効率的な輸送計画を維持しながらスケーラビリティを向上させるため,SBの前方スコア関数(変分スコア)を線形化し,後方スコアのトレーニングにおいてシミュレーション不要な特性を復元するために変分推論を利用する。 本稿では,多変量拡散過程と変分スコアを適応的に最適化し,効率的な輸送を実現するための変分Schr\"odinger拡散モデル(VSDM)を提案する。 理論的には、確率近似を用いて変動スコアの収束を証明し、最適な変動スコアに基づいて適応的に生成されたサンプルの収束を示す。 実験により, このアルゴリズムを模擬例で検証し, 異方性形状の世代でVSDMが有効であること, 単変量拡散よりもストレートな試料軌道が得られることを観察した。 また、実世界のデータにおけるアルゴリズムのスケーラビリティを検証するとともに、CIFAR10における競合的非条件生成性能と時系列モデリングにおける条件生成を実現する。 特に、VSDMはもはやウォームアップ初期化に依存しておらず、大規模な実験のトレーニングにおいてチューニングに親しみやすいものになっている。

Schr\"odinger bridge (SB) has emerged as the go-to method for optimizing transportation plans in diffusion models. However, SB requires estimating the intractable forward score functions, inevitably resulting in the costly implicit training loss based on simulated trajectories. To improve the scalability while preserving efficient transportation plans, we leverage variational inference to linearize the forward score functions (variational scores) of SB and restore simulation-free properties in training backward scores. We propose the variational Schr\"odinger diffusion model (VSDM), where the forward process is a multivariate diffusion and the variational scores are adaptively optimized for efficient transport. Theoretically, we use stochastic approximation to prove the convergence of the variational scores and show the convergence of the adaptively generated samples based on the optimal variational scores. Empirically, we test the algorithm in simulated examples and observe that VSDM is efficient in generations of anisotropic shapes and yields straighter sample trajectories compared to the single-variate diffusion. We also verify the scalability of the algorithm in real-world data and achieve competitive unconditional generation performance in CIFAR10 and conditional generation in time series modeling. Notably, VSDM no longer depends on warm-up initializations and has become tuning-friendly in training large-scale experiments.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-03
# イベントカメラ分類と回帰のための効率的かつ効果的なポイントベースネットワークの再考:EventMamba

Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba ( http://arxiv.org/abs/2405.06116v2 )

ライセンス: Link先を確認
Hongwei Ren, Yue Zhou, Jiadong Zhu, Haotian Fu, Yulong Huang, Xiaopeng Lin, Yuetong Fang, Fei Ma, Hao Yu, Bojun Cheng, (参考訳) 生物学的システムからインスピレーションを得たイベントカメラは、低レイテンシと高ダイナミックレンジで環境光の変化を効率よく検出し、最小限の電力を消費する。 イベントデータを処理する最も最近のアプローチは、しばしばそれをフレームベースの表現に変換することである。 しかし、この手法はイベントデータの空間性を無視し、変換過程における微粒な時間情報をなくし、計算負担を増大させ、イベントカメラ特性のキャラクタリゼーションに有効でない。 対照的に、Point Cloudは3D処理の一般的な表現であり、イベントカメラのスパースと非同期性に適合するのに適している。 それにもかかわらず、ポイントベース法とイベントカメラとの理論的互換性にもかかわらず、この結果はフレームベース法と比較してまだ不十分な性能差を示している。 性能ギャップを埋めるために,我々は,最先端(SOTA)のフレームベース手法と比較しても,効率よく,かつ効果的に競合的な結果が得られるEventMambaを提案する。 この顕著な成果は、Event CloudとPoint Cloudの区別を再考することで促進され、最適化されたネットワーク構造による効果的な時間情報抽出を強調します。 具体的には、EventMambaは時間的アグリゲーションとステートスペースモデル(SSM)ベースのMambaを利用して、時間的情報抽出機能を強化している。 階層構造を通じて、EventMambaは局所的・グローバルな空間的特徴と暗黙的・明示的な時間的特徴を抽象化する能力を持っている。 EventMambaは軽量な設計原則に固執することにより、計算リソースの利用を最小限に抑え、その効率性と有効性を示す印象的な結果を提供する。

Event cameras, drawing inspiration from biological systems, efficiently detect changes in ambient light with low latency and high dynamic range while consuming minimal power. The most current approach to processing event data often involves converting it into frame-based representations, which is well-established in traditional vision. However, this approach neglects the sparsity of event data, loses fine-grained temporal information during the transformation process, and increases the computational burden, making it ineffective for characterizing event camera properties. In contrast, Point Cloud is a popular representation for 3D processing and is better suited to match the sparse and asynchronous nature of the event camera. Nevertheless, despite the theoretical compatibility of point-based methods with event cameras, the results show a performance gap that is not yet satisfactory compared to frame-based methods. In order to bridge the performance gap, we propose EventMamba, an efficient and effective Point Cloud framework that achieves competitive results even compared to the state-of-the-art (SOTA) frame-based method in both classification and regression tasks. This notable accomplishment is facilitated by our rethinking of the distinction between Event Cloud and Point Cloud, emphasizing effective temporal information extraction through optimized network structures. Specifically, EventMamba leverages temporal aggregation and State Space Model (SSM) based Mamba boasting enhanced temporal information extraction capabilities. Through a hierarchical structure, EventMamba is adept at abstracting local and global spatial features and implicit and explicit temporal features. By adhering to the lightweight design principle, EventMamba delivers impressive results with minimal computational resource utilization, demonstrating its efficiency and effectiveness.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-03
# XAI4LLM. 医療におけるインコンテキスト学習強化のための機械学習モデルとLLMの連携

XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare ( http://arxiv.org/abs/2405.06270v3 )

ライセンス: Link先を確認
Fatemeh Nazary, Yashar Deldjoo, Tommaso Di Noia, Eugenio di Sciascio, (参考訳) LLM(Large Language Models)の医療診断への統合は、臨床的な意思決定に有望な道筋を提供する。 本研究は,多層構造プロンプトを用いた医用ドメイン知識の統合による,ゼロショット/ファウショットインコンテキスト学習(ICL)の新しい手法の開発について概説する。 また,データ処理を段階的に行う数値会話型 (NC) スタイルと,長いナラティブプロンプトを用いる自然言語単文型 (NL-ST) スタイルの2つの通信方式の有効性についても検討する。 本研究は, 性別バイアス, 偽陰性率などの診断精度とリスク要因を, 様々な場面で920人の患者記録のデータセットを用いて体系的に評価した。 その結果、従来の臨床機械学習(ML)モデルは、ゼロショットと少数ショットの設定でLLMよりも優れていたことが示唆された。 しかし、ドメイン知識の源泉として効果的な説明可能なAI(XAI)メソッドとともに、少数ショットの例を用いる場合、パフォーマンスギャップは大幅に狭まる。 さらに、十分な時間とサンプル数の増加により、会話スタイル(NC)はMLモデルの性能とほぼ一致している。 LLMはMLモデルと比較して、同等または優れたコスト感受性の精度を示す。 本研究は、適切なドメイン知識と適切な通信戦略により、LLMは診断プロセスを大幅に向上させることができることを確認した。 本研究は,LLMアプリケーションの精度向上とバイアス低減のために,トレーニング例数とコミュニケーションスタイルの最適化の重要性を強調した。

The integration of Large Language Models (LLMs) into healthcare diagnostics offers a promising avenue for clinical decision-making. This study outlines the development of a novel method for zero-shot/few-shot in-context learning (ICL) by integrating medical domain knowledge using a multi-layered structured prompt. We also explore the efficacy of two communication styles between the user and LLMs: the Numerical Conversational (NC) style, which processes data incrementally, and the Natural Language Single-Turn (NL-ST) style, which employs long narrative prompts. Our study systematically evaluates the diagnostic accuracy and risk factors, including gender bias and false negative rates, using a dataset of 920 patient records in various few-shot scenarios. Results indicate that traditional clinical machine learning (ML) models generally outperform LLMs in zero-shot and few-shot settings. However, the performance gap narrows significantly when employing few-shot examples alongside effective explainable AI (XAI) methods as sources of domain knowledge. Moreover, with sufficient time and an increased number of examples, the conversational style (NC) nearly matches the performance of ML models. Most notably, LLMs demonstrate comparable or superior cost-sensitive accuracy relative to ML models. This research confirms that, with appropriate domain knowledge and tailored communication strategies, LLMs can significantly enhance diagnostic processes. The findings highlight the importance of optimizing the number of training examples and communication styles to improve accuracy and reduce biases in LLM applications.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-03
# 知識グラフ表現学習のためのPAC-Bayesian一般化境界

PAC-Bayesian Generalization Bounds for Knowledge Graph Representation Learning ( http://arxiv.org/abs/2405.06418v2 )

ライセンス: Link先を確認
Jaejun Lee, Minsung Hwang, Joyce Jiyoung Whang, (参考訳) 知識グラフ表現学習(KGRL)法は過去10年間にいくつか提案されてきたが、理論的な分析はほとんど行われていない。 本稿では,KGRL法に対する最初のPAC-Bayesian一般化境界について述べる。 KGRLモデルの幅広いクラスを分析するために、関係対応メッセージパッシングエンコーダと三重項分類デコーダからなるReED(Relation-aware Encoder-Decoder)という汎用フレームワークを提案する。 我々のReEDフレームワークは、R-GCNやCompGCNといったグラフニューラルネットワークモデルだけでなく、RotatEやANALOGYといった浅層構造モデルを含む、少なくとも15種類の既存のKGRLモデルを表現できます。 我々のReEDフレームワークの一般化境界は、KGRL、例えばパラメータ共有および重み正規化スキームにおいてよく使われるトリックの理論的根拠を提供し、実用的なKGRL法において望ましい設計選択を導出する。 実世界の3つの知識グラフ上で、一般化境界の臨界要素が実際の一般化誤差を説明できることを実証的に示す。

While a number of knowledge graph representation learning (KGRL) methods have been proposed over the past decade, very few theoretical analyses have been conducted on them. In this paper, we present the first PAC-Bayesian generalization bounds for KGRL methods. To analyze a broad class of KGRL models, we propose a generic framework named ReED (Relation-aware Encoder-Decoder), which consists of a relation-aware message passing encoder and a triplet classification decoder. Our ReED framework can express at least 15 different existing KGRL models, including not only graph neural network-based models such as R-GCN and CompGCN but also shallow-architecture models such as RotatE and ANALOGY. Our generalization bounds for the ReED framework provide theoretical grounds for the commonly used tricks in KGRL, e.g., parameter-sharing and weight normalization schemes, and guide desirable design choices for practical KGRL methods. We empirically show that the critical factors in our generalization bounds can explain actual generalization errors on three real-world knowledge graphs.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-03
# 集団行動における学習アルゴリズムの役割

The Role of Learning Algorithms in Collective Action ( http://arxiv.org/abs/2405.06582v2 )

ライセンス: Link先を確認
Omri Ben-Dov, Jake Fawkes, Samira Samadi, Amartya Sanyal, (参考訳) 機械学習における集合的行動(英: Collective action)とは、協調したグループが機械学習アルゴリズムよりも持つことができる制御の研究である。 これまでの研究は、ベイズ〜(サブ)最適分類器に対する集団の影響を評価することに集中してきたが、この視点は学習アルゴリズムの選択を考慮しないという点で限られていた。 分類器はベイズ分類器のように振る舞うことは滅多になく、学習アルゴリズムの選択とその固有のバイアスの影響を受けている。 本研究では,学習アルゴリズムの選択が,実践的な環境での集団の成功にどのように貢献するかを研究する。 具体的には、最悪のグループエラーを改善するために人気がある分散ロバスト最適化(DRO)と、"simpler"関数の帰納バイアスのため、ユビキタス確率勾配降下(SGD)に焦点を当てる。 理論的基礎によって支持された実験結果から,学習アルゴリズムの特性に有効サイズと成功度が強く依存していることが示唆された。 このことは、機械学習における集団行動の影響を研究する際に、学習アルゴリズムを考慮に入れる必要性を強調している。

Collective action in machine learning is the study of the control that a coordinated group can have over machine learning algorithms. While previous research has concentrated on assessing the impact of collectives against Bayes~(sub)-optimal classifiers, this perspective is limited in that it does not account for the choice of learning algorithm. Classifiers seldom behave like Bayes classifiers and are influenced by the choice of learning algorithms along with their inherent biases. In this work, we initiate the study of how the choice of the learning algorithm plays a role in the success of a collective in practical settings. Specifically, we focus on distributionally robust optimization (DRO), popular for improving a worst group error, and on the ubiquitous stochastic gradient descent (SGD), due to its inductive bias for "simpler" functions. Our empirical results, supported by a theoretical foundation, show that the effective size and success of the collective are highly dependent on properties of the learning algorithm. This highlights the necessity of taking the learning algorithm into account when studying the impact of collective action in machine learning.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-03
# 多体キックローターにおける量子共鳴による高速絡み合い

Faster entanglement driven by quantum resonance in many-body kicked rotors ( http://arxiv.org/abs/2405.06622v2 )

ライセンス: Link先を確認
Sanku Paul, J. Bharathi Kannan, M. S. Santhanam, (参考訳) 量子共鳴は、古典的カオスの根底にある状態を無視する純粋に量子効果である。 この研究では、量子共鳴が超線型絡み合いの生成につながることが示されている。 量子共鳴で設定された$N$の相互作用したキックローターでは、絡み合いの増大は超直線的であり、クロスオーバー時間スケールの$t^*$が成立するまでは成長は重畳された振動を伴う対数形式に減速する。 位置的相互作用を運動量空間にマッピングし、線形エントロピーを解析的に評価することにより、これらの2つの異なる成長プロファイルを駆動するメカニズムを解明する。 解析結果は,2段および3段のキックローターの数値シミュレーションと一致した。 遅延時間絡み合い振動は、高精度な測定に適した高品質な因子を持つプランク定数のスケール変化に敏感である。 これらの結果は、原子光学装置の実験的な実現に寄与する。

Quantum resonance in the paradigmatic kicked rotor system is a purely quantum effect that ignores the state of underlying classical chaos. In this work, it is shown that quantum resonance leads to superlinear entanglement production. In $N$-interacting kicked rotors set to be at quantum resonance, entanglement growth is super-linear until a crossover timescale $t^*$, beyond which growth slows down to a logarithmic form with superimposed oscillations. By mapping positional interaction to momentum space and analytically assessing the linear entropy, we unravel the mechanism driving these two distinct growth profiles. The analytical results agree with the numerical simulations performed for two- and three-interacting kicked rotors. The late time entanglement oscillation is sensitive to changes in scaled Planck's constant with a high quality factor suitable for high precision measurements. These results are amenable to an experimental realization on atom optics setup.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-03
# コンフォーマル化サバイバル分布:キャリブレーション向上のためのジェネリックポストプロシース

Conformalized Survival Distributions: A Generic Post-Process to Increase Calibration ( http://arxiv.org/abs/2405.07374v2 )

ライセンス: Link先を確認
Shi-ang Qi, Yakun Yu, Russell Greiner, (参考訳) 判別と校正は生存分析の重要な2つの特性を表しており、前者は被験者を正確にランク付けするモデルの能力、後者は予測結果と実際の事象のアライメントを評価する。 特に, キャリブレーションの改善により識別性能が低下する傾向にあるため, 生存モデルでは両者を同時に最適化することは困難である。 本稿では, モデルキャリブレーションを劣化させることなく, モデルキャリブレーションを改善するためのコンフォメーションレグレッションを利用した新しい手法を提案する。 上記の主張に対する理論的保証を提供し、11の現実世界のデータセットにまたがるアプローチの効率を厳格に検証し、その実践的適用性と多様なシナリオにおける堅牢性を示す。

Discrimination and calibration represent two important properties of survival analysis, with the former assessing the model's ability to accurately rank subjects and the latter evaluating the alignment of predicted outcomes with actual events. With their distinct nature, it is hard for survival models to simultaneously optimize both of them especially as many previous results found improving calibration tends to diminish discrimination performance. This paper introduces a novel approach utilizing conformal regression that can improve a model's calibration without degrading discrimination. We provide theoretical guarantees for the above claim, and rigorously validate the efficiency of our approach across 11 real-world datasets, showcasing its practical applicability and robustness in diverse scenarios.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-03
# リフレクテッドレプリカ交換確率勾配ランゲバンダイナミクスによる制約付き探査

Constrained Exploration via Reflected Replica Exchange Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2405.07839v2 )

ライセンス: Link先を確認
Haoyang Zheng, Hengrong Du, Qi Feng, Wei Deng, Guang Lin, (参考訳) Replica exchange stochastic gradient Langevin dynamics (reSGLD)は、大規模データセットにおける非凸学習に有効なサンプルである。 しかし、高温チェーンが分布尾に深く入り込むと、シミュレーションは停滞する問題に遭遇する可能性がある。 この問題を解決するために,制約付き非凸探索に適したreSGLD(r2SGLD)を提案する。 理論的には、領域の直径を減らすことは混合率を高め、$\textit{quadratic}$振舞いを示す。 実験では,物理制約による動的システム同定,制約付きマルチモーダル分布のシミュレーション,画像分類タスクなど,広範囲な実験によってその性能を検証した。 理論的および実証的な知見は、シミュレーション効率を改善する上での制約された探索の重要な役割を浮き彫りにした。

Replica exchange stochastic gradient Langevin dynamics (reSGLD) is an effective sampler for non-convex learning in large-scale datasets. However, the simulation may encounter stagnation issues when the high-temperature chain delves too deeply into the distribution tails. To tackle this issue, we propose reflected reSGLD (r2SGLD): an algorithm tailored for constrained non-convex exploration by utilizing reflection steps within a bounded domain. Theoretically, we observe that reducing the diameter of the domain enhances mixing rates, exhibiting a $\textit{quadratic}$ behavior. Empirically, we test its performance through extensive experiments, including identifying dynamical systems with physical constraints, simulations of constrained multi-modal distributions, and image classification tasks. The theoretical and empirical findings highlight the crucial role of constrained exploration in improving the simulation efficiency.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-03
# 位相制御型空間光変調器を用いた量子センシング用超高分解能量子分光器

A quantum spectrometer using a pair of phase-controlled spatial light modulators for superresolution in quantum sensing ( http://arxiv.org/abs/2405.08456v2 )

ライセンス: Link先を確認
Byoung S. Ham, (参考訳) 超解像は、マッハ・ツェンダー干渉計(MZI)の射影測定によってN00N状態または位相制御コヒーレント光子によって生成されるユニークな量子特徴である。 超解像は量子センシングにおける超感度と直接関係がなく、未知の信号周波数の精度測定に応用できる可能性がある。 近年、位相制御型量子消去器は、古典物理学における回折限界を克服し、N00N状態に基づく量子センシングの限られたスケーラビリティを解決するために、連続波レーザーの古典的な光を用いて超解像のために実証されている。 ここでは、MZIの位相制御空間光変調器(SLM)を用いたマクロ超解像に対して量子分光計を提示する。 有効性については、超解像の一般解はSLMに基づく投影測定から導き、未知の光周波数に対して前例のない解像が数値的に確認される。

Superresolution is a unique quantum feature generated by N00N states or phase-controlled coherent photons via projection measurements in a Mach-Zehnder interferometer (MZI). Superresolution has no direct relation with supersensitivity in quantum sensing and has a potential application for the precision measurement of an unknown signal frequency. Recently, phase-controlled quantum erasers have been demonstrated for superresolution using classical light of a continuous-wave laser to overcome the diffraction limit in classical physics and to solve the limited scalability in N00N state-based quantum sensing. Here, a quantum spectrometer is presented for the macroscopic superresolution using phase-controlled spatial light modulators (SLMs) in MZI. For validity, a general solution of the superresolution is derived from the SLM-based projection measurements and an unprecedented resolution is numerically confirmed for an unknown frequency of light.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-03
# 特徴適応型・データスケーラブルなインコンテキスト学習

Feature-Adaptive and Data-Scalable In-Context Learning ( http://arxiv.org/abs/2405.10738v2 )

ライセンス: Link先を確認
Jiahao Li, Quan Wang, Licheng Zhang, Guoqing Jin, Zhendong Mao, (参考訳) いくつかのデモンストレーションで推論を促進するインコンテキスト学習(ICL)は、下流タスクのLLM能力を刺激する広範なパラダイムとなっている。 文脈長制約のため、より多くのトレーニングデータにもかかわらず、さらに改善することはできず、ICLのLLMから直接の一般的な機能は、特定の下流タスクに適応しない。 本稿では,タスク適応型機能を活用して下流タスクの推論を促進する,機能適応型データスケーリング型インコンテキスト学習フレームワーク(FADS-ICL)を提案する。 具体的には、まずILC入力形式を1つずつ導入し、特定の下流タスクに適合した後に特徴改善と予測を行うタスク固有変調器を導入する。 FADS-ICLの様々なデータ設定 (4$\sim$128 ショット) と LLM スケール (0.8$\sim$70B) で広範な実験を行う。 実験結果から, FADS-ICLは, 従来の最先端手法よりも, 全設定で有意差を保ち, FADS-ICLの有効性と優位性を検証した。 例えば、1.5Bと32ショット設定の下では、FADS-ICLは10データセット上のバニラICLに対する特徴適応から、以前の最先端法よりも平均精度で、さらにトレーニングデータを増やして、パフォーマンスを向上させることができる。 コードとデータは \url{https://github.com/jiahaozhenbang/FADS-ICL} で公開されている。

In-context learning (ICL), which promotes inference with several demonstrations, has become a widespread paradigm to stimulate LLM capabilities for downstream tasks. Due to context length constraints, it cannot be further improved in spite of more training data, and general features directly from LLMs in ICL are not adaptive to the specific downstream task. In this paper, we propose a feature-adaptive and data-scalable in-context learning framework (FADS-ICL), which can leverage task-adaptive features to promote inference on the downstream task, with the supervision of beyond-context samples. Specifically, it first extracts general features of beyond-context samples via the LLM with ICL input form one by one, and introduces a task-specific modulator to perform feature refinement and prediction after fitting a specific downstream task. We conduct extensive experiments on FADS-ICL under varying data settings (4$\sim$128 shots) and LLM scale (0.8$\sim$70B) settings. Experimental results show that FADS-ICL consistently outperforms previous state-of-the-art methods by a significant margin under all settings, verifying the effectiveness and superiority of FADS-ICL. For example, under the 1.5B and 32 shots setting, FADS-ICL can achieve \textbf{+14.3} average accuracy from feature adaptation over vanilla ICL on 10 datasets, with \textbf{+6.2} average accuracy over the previous state-of-the-art method, and the performance can further improve with increasing training data. Code and data are publicly available at \url{https://github.com/jiahaozhenbang/FADS-ICL}.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-03
# OpenRLHF: 使いやすくスケーラブルで高性能なRLHFフレームワーク

OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework ( http://arxiv.org/abs/2405.11143v2 )

ライセンス: Link先を確認
Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao, (参考訳) 大規模言語モデル(LLM)は法則のスケーリングによって成長し続けており、人間のフィードバックからの強化学習(RLHF)はその卓越した性能のために大きな注目を集めている。 しかし、1つのモデルの事前訓練や微調整とは異なり、人間のフィードバック(RLHF)からの強化学習を拡大して、大きな言語モデルをトレーニングすることは、4つのモデル間で協調的な課題を引き起こす。 提案するOpenRLHFは,効率的なRLHFスケーリングを実現するオープンソースフレームワークである。 同じGPU上で4つのモデルを同時に配置する既存のRLHFフレームワークとは異なり、OpenRLHFは、Ray、vLLM、DeepSpeedを使用して70Bパラメータを超えるモデルのスケジューリングを再設計し、リソース利用の改善と多様なトレーニングアプローチを活用する。 Hugging Faceとシームレスに統合されたOpenRLHFは、最適化されたアルゴリズムとローンチスクリプトを備えたアウト・オブ・ボックスソリューションを提供する。 OpenRLHFはRLHF、DPO、拒絶サンプリング、その他のアライメント技術を実装している。 OpenRLHF のコードは https://github.com/OpenLLMAI/OpenRLHF で公開されている。

As large language models (LLMs) continue to grow by scaling laws, reinforcement learning from human feedback (RLHF) has gained significant attention due to its outstanding performance. However, unlike pretraining or fine-tuning a single model, scaling reinforcement learning from human feedback (RLHF) for training large language models poses coordination challenges across four models. We present OpenRLHF, an open-source framework enabling efficient RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF provides an out-of-the-box solution with optimized algorithms and launch scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO, rejection sampling, and other alignment techniques. Empowering state-of-the-art LLM development, OpenRLHF's code is available at https://github.com/OpenLLMAI/OpenRLHF.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-03
# 量子スピン鎖の拡散とスペクトル複雑性:積分性からカオスへ

Spread and Spectral Complexity in Quantum Spin Chains: from Integrability to Chaos ( http://arxiv.org/abs/2405.11254v2 )

ライセンス: Link先を確認
Hugo A. Camargo, Kyoung-Bum Huh, Viktor Jahnke, Hyun-Sik Jeong, Keun-Young Kim, Mitsuhiro Nishida, (参考訳) 積分可能性からカオスへの遷移を示す量子系における拡散とスペクトルの複雑さ、すなわちハイゼンベルクXXZスピン鎖の混合場イジングモデルと隣り合う次の変形について検討する。 飽和前における拡散複雑性のピークの存在はカオスシステムの特徴である,という観察を裏付ける。 一般に、拡散複雑性の飽和値は、ハミルトニアンのスペクトル統計だけでなく、特定の状態にも依存する。 しかし、ハミルトニアンの対称性と次元によって決定される最大普遍境界が存在し、無限の温度で熱場二重状態(TFD)によって実現される。 また、拡散複雑性とスペクトル形状因子が変化する時間スケールが互いに一致し、システムのカオス的性質とは無関係であることも見出した。 スペクトル複雑性の場合、カオス系における飽和値と時間スケールを決定する鍵因子は、理論のスペクトルにおける最小エネルギー差によって与えられる。 これは、カオスシステムにおける初期の飽和に関する文献で得られた観察を、可積分性と比較したものである。 我々は、量子多体系におけるカオスのシグネチャの探索に適したTFDの特性について論じる。

We explore spread and spectral complexity in quantum systems that exhibit a transition from integrability to chaos, namely the mixed-field Ising model and the next-to-nearest-neighbor deformation of the Heisenberg XXZ spin chain. We corroborate the observation that the presence of a peak in spread complexity before its saturation, is a characteristic feature in chaotic systems. We find that, in general, the saturation value of spread complexity post-peak depends not only on the spectral statistics of the Hamiltonian, but also on the specific state. However, there appears to be a maximal universal bound determined by the symmetries and dimension of the Hamiltonian, which is realized by the thermofield double state (TFD) at infinite temperature. We also find that the time scales at which the spread complexity and spectral form factor change their behaviour agree with each other and are independent of the chaotic properties of the systems. In the case of spectral complexity, we identify that the key factor determining its saturation value and timescale in chaotic systems is given by minimum energy difference in the theory's spectrum. This explains observations made in the literature regarding its earlier saturation in chaotic systems compared to their integrable counterparts. We conclude by discussing the properties of the TFD which, we conjecture, make it suitable for probing signatures of chaos in quantum many-body systems.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-03
# アルゴリズムの特徴を解き放つ:アルゴリズム選択のための一般化解析

Unlock the Power of Algorithm Features: A Generalization Analysis for Algorithm Selection ( http://arxiv.org/abs/2405.11349v2 )

ライセンス: Link先を確認
Xingyu Wu, Yan Zhong, Jibin Wu, Yuxiao Huang, Sheng-hao Wu, Kay Chen Tan, (参考訳) アルゴリズム選択研究において,アルゴリズムの特徴を取り巻く議論は,問題特徴の強調によって著しく過小評価されている。 アルゴリズム特徴の有効性に関する実証的研究はいくつかあるが、アルゴリズム選択モデルにアルゴリズム特徴を組み込むことの潜在的な利点は明らかでない。 本稿では,アルゴリズムの特徴に基づくアルゴリズム選択の証明可能な最初の保証を提案し,一般化の観点から,このギャップに対処する。 アルゴリズムの特徴に関連する利点とコストを分析し、一般化誤差が様々な要因にどのように影響するかを考察する。 具体的には、帰納的学習パラダイムと帰納的学習パラダイムに基づく適応的および事前定義されたアルゴリズム機能について検討し、モデルのRadecher複雑性に基づく一般化誤差の上限を導出する。 我々の理論的な知見は、厳密な上限を提供するだけでなく、問題インスタンスと候補アルゴリズムのトレーニングスケール、モデルパラメータ、特徴値、トレーニングデータとテストデータの分布差など、様々な要因の影響に関する分析的な洞察も提供する。 特に、多くのアルゴリズムを含む複雑なシナリオにおいて、モデルがアルゴリズムの特徴の恩恵を受けることを示し、一般化誤差境界と分布の$\chi^2$-divergenceとの正の相関を証明した。

In the algorithm selection research, the discussion surrounding algorithm features has been significantly overshadowed by the emphasis on problem features. Although a few empirical studies have yielded evidence regarding the effectiveness of algorithm features, the potential benefits of incorporating algorithm features into algorithm selection models and their suitability for different scenarios remain unclear. In this paper, we address this gap by proposing the first provable guarantee for algorithm selection based on algorithm features, taking a generalization perspective. We analyze the benefits and costs associated with algorithm features and investigate how the generalization error is affected by different factors. Specifically, we examine adaptive and predefined algorithm features under transductive and inductive learning paradigms, respectively, and derive upper bounds for the generalization error based on their model's Rademacher complexity. Our theoretical findings not only provide tight upper bounds, but also offer analytical insights into the impact of various factors, such as the training scale of problem instances and candidate algorithms, model parameters, feature values, and distributional differences between the training and test data. Notably, we demonstrate how models will benefit from algorithm features in complex scenarios involving many algorithms, and proves the positive correlation between generalization error bound and $\chi^2$-divergence of distributions.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-03
# FIFO拡散: トレーニングなしのテキストから無限のビデオを生成する

FIFO-Diffusion: Generating Infinite Videos from Text without Training ( http://arxiv.org/abs/2405.11473v2 )

ライセンス: Link先を確認
Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han, (参考訳) テキスト条件付きビデオ生成のための事前学習拡散モデルに基づく新しい推論手法を提案する。 FIFO拡散(FIFO-Diffusion)と呼ばれるこの手法は、無限に長いビデオを追加の訓練なしに生成できる。 この手法は,複数連続するフレームを同時に処理し,待ち行列のノイズレベルを増大させる対角的デノベーションを反復的に行うことで実現される。 しかし、尾部付近の枠は前方参照でより清潔なものを活用できるため、対角装飾は二重刃の剣であるが、そのような戦略は訓練と推論の相違を招きかねない。 したがって、トレーニングと推論のギャップを減らし、フォワード参照の利点を活かすために、遅延分割を導入する。 実際、FIFO-Diffusionはベースラインモデルが与えられたターゲットビデオ長に関わらず一定量のメモリを消費するが、複数のGPU上での並列推論には適している。 提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。 生成したビデオサンプルとソースコードは、プロジェクトページで公開されています。

We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without additional training. This is achieved by iteratively performing diagonal denoising, which concurrently processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner ones by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. Practically, FIFO-Diffusion consumes a constant amount of memory regardless of the target video length given a baseline model, while well-suited for parallel inference on multiple GPUs. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines. Generated video samples and source codes are available at our project page.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-03
# ブラックボックスLCMのデータ汚染校正

Data Contamination Calibration for Black-box LLMs ( http://arxiv.org/abs/2405.11930v2 )

ライセンス: Link先を確認
Wentao Ye, Jiaqi Hu, Liyao Li, Haobo Wang, Gang Chen, Junbo Zhao, (参考訳) LLM(Large Language Models)の急速な進歩は、トレーニングデータサイズの拡大と密接に関連している。 しかし、未確認の超大規模トレーニングセットは、データ汚染のような潜在的なリスク、すなわち、ベンチマークデータがトレーニングに使用される一連のリスクをもたらす。 本研究では, ポーラライズ・オーグメント・キャリブレーション(PAC, Polarized Augment Calibration) と題して, 汚染データを検出し, 汚染効果を低減させる新たなデータセットを提案する。 PACは、マシンラーニングコミュニティから人気のMIA(Membership Inference Attack)を拡張し、トレーニングデータの検出においてよりグローバルなターゲットを形成して、目に見えないトレーニングデータを明確にする。 先駆的な業績として、PACは非常に多くのプラグアンドプレイがあり、現在のほとんどの(すべてではないとしても)ホワイトボックスとブラックボックスのLCMと統合できる。 大規模な実験により、PACは既存の手法を少なくとも4.5%上回り、4つのデータセットフォーマットでデータ汚染を検出する。 さらに、実世界のシナリオにおける我々の応用は、汚染と関連する問題の顕著な存在を強調している。

The rapid advancements of Large Language Models (LLMs) tightly associate with the expansion of the training data size. However, the unchecked ultra-large-scale training sets introduce a series of potential risks like data contamination, i.e. the benchmark data is used for training. In this work, we propose a holistic method named Polarized Augment Calibration (PAC) along with a new to-be-released dataset to detect the contaminated data and diminish the contamination effect. PAC extends the popular MIA (Membership Inference Attack) -- from machine learning community -- by forming a more global target at detecting training data to Clarify invisible training data. As a pioneering work, PAC is very much plug-and-play that can be integrated with most (if not all) current white- and black-box LLMs. By extensive experiments, PAC outperforms existing methods by at least 4.5%, towards data contamination detection on more 4 dataset formats, with more than 10 base LLMs. Besides, our application in real-world scenarios highlights the prominent presence of contamination and related issues.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-03
# クロスドメインシーケンスレコメンデーションのための部分アライズされた項目表現の学習

Learning Partially Aligned Item Representation for Cross-Domain Sequential Recommendation ( http://arxiv.org/abs/2405.12473v2 )

ライセンス: Link先を確認
Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Zhi Li, Sirui Zhao, Defu Lian, Enhong Chen, (参考訳) クロスドメインシーケンシャルレコメンデーション(CDSR)は、複数のレコメンデーションドメインにわたるユーザのシーケンシャルレコメンデーションの発見と転送を目的としている。 重要な取り組みは行われているが、彼らは主に高度な転送モジュールの開発と、自己教師付き学習技術によるユーザ表現の整合に集中している。 しかし、アイテム表現の整合性の問題に注意が払われており、不整合性のあるアイテム表現は、サブ最適シーケンシャルなモデリングやユーザ表現の整合性につながる可能性がある。 そこで,本論文では,課題表現のシーケンス認識と適応的部分的アライメントを実現するための,モデル非依存のフレームワークである \textbf{C}ross-\textbf{A}lignment for \textbf{C}ross-\textbf{D}omain \textbf{S}equential \textbf{R}ecommendation (\textbf{CA-CDSR})を提案する。 具体的には、まず、協調的な項目相関とシーケンシャルな項目相関を捕捉し、総合的な項目表現生成を容易にするシーケンス認識機能拡張戦略を開発する。 次に、スペクトルの観点から部分表現アライメント問題を調べるための実証的研究を行う。 適応スペクトルフィルタを考案し、部分アライメントを適応的に達成する。 さらに、アライメントされたアイテム表現を異なるシーケンシャルエンコーダに入力してユーザ表現を得ることもできる。 フレームワーク全体は、アニーリング戦略を備えたマルチタスク学習パラダイムで最適化されている。 大規模な実験により、CA-CDSRは最先端のベースラインをかなり上回り、表現空間内のアイテムを効果的に整列させて性能を向上させることができることが示された。

Cross-domain sequential recommendation (CDSR) aims to uncover and transfer users' sequential preferences across multiple recommendation domains. While significant endeavors have been made, they primarily concentrated on developing advanced transfer modules and aligning user representations using self-supervised learning techniques. However, the problem of aligning item representations has received limited attention, and misaligned item representations can potentially lead to sub-optimal sequential modeling and user representation alignment. To this end, we propose a model-agnostic framework called \textbf{C}ross-domain item representation \textbf{A}lignment for \textbf{C}ross-\textbf{D}omain \textbf{S}equential \textbf{R}ecommendation (\textbf{CA-CDSR}), which achieves sequence-aware generation and adaptively partial alignment for item representations. Specifically, we first develop a sequence-aware feature augmentation strategy, which captures both collaborative and sequential item correlations, thus facilitating holistic item representation generation. Next, we conduct an empirical study to investigate the partial representation alignment problem from a spectrum perspective. It motivates us to devise an adaptive spectrum filter, achieving partial alignment adaptively. Furthermore, the aligned item representations can be fed into different sequential encoders to obtain user representations. The entire framework is optimized in a multi-task learning paradigm with an annealing strategy. Extensive experiments have demonstrated that CA-CDSR can surpass state-of-the-art baselines by a significant margin and can effectively align items in representation spaces to enhance performance.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-03
# ディープニューラルネットワークの非対称な谷の探索と爆発

Exploring and Exploiting the Asymmetric Valley of Deep Neural Networks ( http://arxiv.org/abs/2405.12489v2 )

ライセンス: Link先を確認
Xin-Chun Li, Jin-Lin Tang, Bo Zhang, Lan Li, De-Chuan Zhan, (参考訳) ロスランドスケープの探索は、ディープニューラルネットワーク(DNN)の本質的な原則に関する洞察を提供する。 最近の研究は、平らな谷と鋭い谷の向こうの谷の非対称性を示唆しているが、その原因や意味を徹底的に調べることはなかった。 本研究は,(1)収束点に影響を与えるデータセット,ネットワークアーキテクチャ,初期化,ハイパーパラメータ,(2)1次元可視化のためのノイズの大きさと方向など,DNN谷の対称性に影響を与える要因を定量的に検討する。 我々の主要な観測は、ノイズと収束点の間の符号整合度が谷対称性の臨界指標であることを示している。 ReLUの活性化とソフトマックス関数の側面からの理論的な洞察は、興味深い現象を説明できるかもしれない。 我々は,モデル融合のシナリオにおける新しい理解と応用を提唱する:(1) 分離モデルの補間の有効性は,その符号整合率と著しく相関し,(2) フェデレート学習における符号整合がモデルパラメータ整合の革新的なアプローチとして出現する。

Exploring the loss landscape offers insights into the inherent principles of deep neural networks (DNNs). Recent work suggests an additional asymmetry of the valley beyond the flat and sharp ones, yet without thoroughly examining its causes or implications. Our study methodically explores the factors affecting the symmetry of DNN valleys, encompassing (1) the dataset, network architecture, initialization, and hyperparameters that influence the convergence point; and (2) the magnitude and direction of the noise for 1D visualization. Our major observation shows that the {\it degree of sign consistency} between the noise and the convergence point is a critical indicator of valley symmetry. Theoretical insights from the aspects of ReLU activation and softmax function could explain the interesting phenomenon. Our discovery propels novel understanding and applications in the scenario of Model Fusion: (1) the efficacy of interpolating separate models significantly correlates with their sign consistency ratio, and (2) imposing sign alignment during federated learning emerges as an innovative approach for model parameter alignment.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-03
# FAdam:Adamは対角的な経験的フィッシャー情報を用いた自然な勾配最適化器です。

FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information ( http://arxiv.org/abs/2405.12807v5 )

ライセンス: Link先を確認
Dongseong Hwang, (参考訳) 本稿では、Adam Optimizationrの数学的基礎を確立し、リーマン的および情報幾何学による自然勾配降下との関係を解明する。 本研究では,Adam の対角的経験的フィッシャー情報行列 (FIM) を厳密に解析し,実験的 FIM の限界のため,離散分布に基づいたログ確率関数の損失としての利用を推奨する。 解析によって元のAdamアルゴリズムの欠陥が明らかとなり、運動量計算の強化、バイアス補正の調整、適応エプシロン、勾配クリッピングなどの修正が提案された。 我々は、我々の理論的枠組みに基づいて重量減衰項を洗練する。 我々の修正アルゴリズムであるFisher Adam (FAdam) は、LLM、ASR、VQ-VAEを含む様々な領域で優れた性能を示し、ASRにおける最先端の結果を達成する。

This paper establishes a mathematical foundation for the Adam optimizer, elucidating its connection to natural gradient descent through Riemannian and information geometry. We rigorously analyze the diagonal empirical Fisher information matrix (FIM) in Adam, clarifying all detailed approximations and advocating for the use of log probability functions as loss, which should be based on discrete distributions, due to the limitations of empirical FIM. Our analysis uncovers flaws in the original Adam algorithm, leading to proposed corrections such as enhanced momentum calculations, adjusted bias corrections, adaptive epsilon, and gradient clipping. We refine the weight decay term based on our theoretical framework. Our modified algorithm, Fisher Adam (FAdam), demonstrates superior performance across diverse domains including LLM, ASR, and VQ-VAE, achieving state-of-the-art results in ASR.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-03
# 一般化確率論における絡み合いスワッピングと繰り返しCHSHゲーム

Entanglement-swapping in generalised probabilistic theories, and iterated CHSH games ( http://arxiv.org/abs/2405.13819v2 )

ライセンス: Link先を確認
Lionel J. Dmello, Laurens T. Ligthart, David Gross, (参考訳) 量子論よりも「より強い絡み合い」を持つ理論があるが、それらがツィレルソンの有界より上のCHSH値を示すという意味では、そのような理論の既知のすべての例は、厳密に小さな測定セットを持っている。 したがって、二分項状態と測定の両方を必要とするタスクでは、QMよりもパフォーマンスが良くない。 両分割状態と測定の両方を含む最も単純な情報処理タスクの1つは、絡み合いの交換である。 本稿では,一般化確率論(GPT)における絡み合いのスワッピングについて検討する。 特に, GPT のパワーを計測して非古典的相関を保ち, 絡み合いのラウンド数$n$の後に得られる最大のCHSH値を用いて, 繰り返しCHSHゲームを導入する。 我々の主な成果は、任意のラウンド数でCHSH値が4ドルに達するGPTの構築である。 このことは、最近文献で提起されたそのようなゲームに対する量子論の最適性に関する問題に対処する。 この問題に対処する上で直面する課題は、絡み合いスワッピングが適切に定義された操作であるGPTを構築するための一般的な枠組みが存在しないことである。 そこで本研究では,両部GPTを多部GPTに変換するアルゴリズム構成を導入する。

While there exist theories that have states "more strongly entangled" than quantum theory, in the sense that they show CHSH values above Tsirelson's bound, all known examples of such theories have a strictly smaller set of measurements. Therefore, in tasks which require both bipartite states and measurements, they do not perform better than QM. One of the simplest information processing tasks involving both bipartite states and measurements is that of entanglement swapping. In this paper, we study entanglement swapping in generalised probabilistic theories (GPTs). In particular, we introduce the iterated CHSH game, which measures the power of a GPT to preserve non-classical correlations, in terms of the largest CHSH value obtainable after $n$ rounds of entanglement swapping. Our main result is the construction of a GPT that achieves a CHSH value of $4$ after an arbitrary number of rounds. This addresses a question about the optimality of quantum theory for such games recently raised in the literature. One challenge faced when treating this problem is that there seems to be no general framework for constructing GPTs in which entanglement swapping is a well-defined operation. Therefore, we introduce an algorithmic construction that turns a bipartite GPT into a multipartite GPT that supports entanglement swapping, if consistently possible.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-03
# サブストラクタ対策が必要なサブストラクタ:大規模言語モデルにおける代表的・親和性バイアスの評価のための2つの指標

Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models ( http://arxiv.org/abs/2405.14555v4 )

ライセンス: Link先を確認
Abhishek Kumar, Sarfaroz Yunusov, Ali Emami, (参考訳) LLM(Large Language Models)の研究は、しばしば微妙な偏見を無視している。 本研究は, LLM内の2つのバイアスに対処する: 代表バイアスは, LLMが特定のアイデンティティグループの経験を反映した出力を生成する傾向を示し, 特定の物語や視点に対するモデルの評価的嗜好を反映する親和性バイアスである。 本稿では,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を紹介した。 我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。 さらに,親和性バイアスを調べた結果,各モデルに特徴的な評価パターンがみられた。 この傾向は人間の評価にも見られ、人間と機械の偏見の複雑な相互作用を浮き彫りにしている。

Research on Large Language Models (LLMs) has often neglected subtle biases that, although less apparent, can significantly influence the models' outputs toward particular social narratives. This study addresses two such biases within LLMs: representative bias, which denotes a tendency of LLMs to generate outputs that mirror the experiences of certain identity groups, and affinity bias, reflecting the models' evaluative preferences for specific narratives or viewpoints. We introduce two novel metrics to measure these biases: the Representative Bias Score (RBS) and the Affinity Bias Score (ABS), and present the Creativity-Oriented Generation Suite (CoGS), a collection of open-ended tasks such as short story writing and poetry composition, designed with customized rubrics to detect these subtle biases. Our analysis uncovers marked representative biases in prominent LLMs, with a preference for identities associated with being white, straight, and men. Furthermore, our investigation of affinity bias reveals distinctive evaluative patterns within each model, akin to `bias fingerprints'. This trend is also seen in human evaluators, highlighting a complex interplay between human and machine bias perceptions.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-03
# EvGGS: イベントベースの一般化可能なガウススプレイティングのための協調学習フレームワーク

EvGGS: A Collaborative Learning Framework for Event-based Generalizable Gaussian Splatting ( http://arxiv.org/abs/2405.14959v2 )

ライセンス: Link先を確認
Jiaxu Wang, Junhao He, Ziyi Zhang, Mingyuan Sun, Jingkai Sun, Renjing Xu, (参考訳) イベントカメラは、高ダイナミックレンジや低レイテンシといった有望なメリットを提供する。 しかし、イベントデータが少なく、絶対的な色情報を持たないため、生のイベントストリームから3Dシーンを再構築することは困難である。 EvGGSは,3次元ガウシアンとしてシーンをフィードフォワード的にのみ入力することで,シーンを再構成することなく,見えないケースに一般化することができる。 このフレームワークは、深さ推定モジュール、強度再構成モジュール、ガウス回帰モジュールを含む。 これらの部分加群はカスケード方式で接続し、設計された共同損失で協調訓練し、相互に促進する。 関連研究を容易にするために,様々な材料オブジェクトとグレースケール画像,深度マップ,カメラポーズ,シルエットのキャリブレーションされたラベルを用いた,イベントベースの新しい3Dデータセットを構築した。 実験では、共同でトレーニングされたモデルは、個別にトレーニングされたモデルよりも大幅に優れています。 提案手法は, 再現性, 深度/強度の予測において, 良好なレンダリング速度で全てのベースラインより優れた性能を発揮する。

Event cameras offer promising advantages such as high dynamic range and low latency, making them well-suited for challenging lighting conditions and fast-moving scenarios. However, reconstructing 3D scenes from raw event streams is difficult because event data is sparse and does not carry absolute color information. To release its potential in 3D reconstruction, we propose the first event-based generalizable 3D reconstruction framework, called EvGGS, which reconstructs scenes as 3D Gaussians from only event input in a feedforward manner and can generalize to unseen cases without any retraining. This framework includes a depth estimation module, an intensity reconstruction module, and a Gaussian regression module. These submodules connect in a cascading manner, and we collaboratively train them with a designed joint loss to make them mutually promote. To facilitate related studies, we build a novel event-based 3D dataset with various material objects and calibrated labels of grayscale images, depth maps, camera poses, and silhouettes. Experiments show models that have jointly trained significantly outperform those trained individually. Our approach performs better than all baselines in reconstruction quality, and depth/intensity predictions with satisfactory rendering speed.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-03
# パウリチェックによる量子ネットワーク内のエラー検出

Detecting Errors in a Quantum Network with Pauli Checks ( http://arxiv.org/abs/2405.15236v3 )

ライセンス: Link先を確認
Alvin Gonzales, Daniel Dilley, Bikun Li, Liang Jiang, Zain H. Saleem, (参考訳) 量子エラー検出方式であるPauli check sandwiching (PCS) を分散マルチパーティプロトコルにすることで量子ネットワークに適用する。 PCSは距離1のコードであり、標準的な量子エラー補正や検出方法よりもリソースオーバーヘッドが少ない。 最終的な忠実度とポストセレクション率の分析式を提供する。 また,再帰数の関数として必要となる資源を多項式的に拡張するエンタングルメント浄化用PCSの再帰版も導入する。 再帰的PCSスキームは距離2量子符号の族を生成する。 解析結果はBBPSSWと同等のシナリオで比較される。 また, エンタングルメントスワップのためのノイズゲートを用いたシミュレーションを行い, 高精度な忠実度向上を実現した。 最後に,PCSの各種設定とグラフ状態特性について論じる。

We apply the quantum error detection scheme Pauli check sandwiching (PCS) to quantum networks by turning it into a distributed multiparty protocol. PCS is a distance 1 code and requires less resource overhead than standard quantum error correction and detection methods. We provide analytical equations for the final fidelity and postselection rate. We also introduce a recursive version of PCS for entanglement purification that only scales polynomially in the resources required as a function of the number of recursions. The recursive PCS scheme generates a family of distance 2 quantum codes. Our analytical results are benchmarked against BBPSSW in comparable scenarios. We also perform simulations with noisy gates for entanglement swapping and attain substantial fidelity improvements. Lastly, we discuss various setups and graph state properties of PCS.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-03
# 正規-逆-ウィッシュアート分布の推定

Estimating the normal-inverse-Wishart distribution ( http://arxiv.org/abs/2405.16088v2 )

ライセンス: Link先を確認
Jonathan So, (参考訳) 正規逆ウィッシュアート分布(NIW)は、多変量正規分布の平均と共分散パラメータの事前分布として一般的に用いられる。 NIW分布の族も最小指数族である。 本稿では、平均パラメータからNIWファミリーの自然パラメータに変換する収束手順について述べる。 これは例えば、期待伝搬にNIWベースファミリを使用する場合に必要である。

The normal-inverse-Wishart (NIW) distribution is commonly used as a prior distribution for the mean and covariance parameters of a multivariate normal distribution. The family of NIW distributions is also a minimal exponential family. In this short note we describe a convergent procedure for converting from mean parameters to natural parameters in the NIW family, or -- equivalently -- for performing maximum likelihood estimation of the natural parameters given observed sufficient statistics. This is needed, for example, when using a NIW base family in expectation propagation.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-03
# PLUG: 基盤モデルと階層的焦点によるアモーダルセグメンテーションの再検討

PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus ( http://arxiv.org/abs/2405.16094v2 )

ライセンス: Link先を確認
Zhaochen Liu, Limeng Qiao, Xiangxiang Chu, Tingting Jiang, (参考訳) アモーダルセグメンテーションは、部分的に隠された物体の完全な形状を予測するために、視覚知性への重要なステップである。 重要なこととして、実践的な事前知識は十分なトレーニングに由来するが、限定的なアモーダルアノテーションはより良いパフォーマンスを達成するための課題を提起する。 この問題に対処するため,基礎モデルに蓄積される強大な先行性を利用して,SAMに基づく最初のアモーダルセグメンテーション手法であるPLUGを提案する。 手法として,タスク特性をよりよく適応し,SAMの潜在能力を解き放つために,階層的な焦点を持つ新しいフレームワークを提案する。 地域レベルでは、可視・隠蔽領域の関連と区分により、相互の混乱を避けるため、別個の枝の焦点として、イモーダル領域とアモーダル領域が割り当てられる。 ポイントレベルでは、不確実性の概念を導入し、曖昧な点を特定し、焦点を合わせる際にモデルを明確に支援する。 不確実性マップによって導かれ、予測された境界の精度を向上させるために計算-経済的な点損失が適用される。 実験はいくつかの顕著なデータセットで実施され,提案手法は既存の手法よりも大きなマージンを持つことを示す。 総パラメータが少なくても,本手法は依然として顕著な優位性を示している。

Aiming to predict the complete shapes of partially occluded objects, amodal segmentation is an important step towards visual intelligence. With crucial significance, practical prior knowledge derives from sufficient training, while limited amodal annotations pose challenges to achieve better performance. To tackle this problem, utilizing the mighty priors accumulated in the foundation model, we propose the first SAM-based amodal segmentation approach, PLUG. Methodologically, a novel framework with hierarchical focus is presented to better adapt the task characteristics and unleash the potential capabilities of SAM. In the region level, due to the association and division in visible and occluded areas, inmodal and amodal regions are assigned as the focuses of distinct branches to avoid mutual disturbance. In the point level, we introduce the concept of uncertainty to explicitly assist the model in identifying and focusing on ambiguous points. Guided by the uncertainty map, a computation-economic point loss is applied to improve the accuracy of predicted boundaries. Experiments are conducted on several prominent datasets, and the results show that our proposed method outperforms existing methods with large margins. Even with fewer total parameters, our method still exhibits remarkable advantages.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-03
# あいまいさを画像化する - Winograd Schema Challengeの視覚的ツイスト

Picturing Ambiguity: A Visual Twist on the Winograd Schema Challenge ( http://arxiv.org/abs/2405.16277v3 )

ライセンス: Link先を確認
Brendan Park, Madeline Janecek, Naser Ezzati-Jivan, Yifeng Li, Ali Emami, (参考訳) 大規模言語モデル(LLM)は、Winograd Schema Challenge (WSC)のようなタスクで顕著な成功を収め、高度なテキストの常識推論を示している。 しかし、テキストと画像の理解が不可欠であるマルチモーダル領域にこの推論を適用することは、依然として大きな課題である。 この問題を解決するために,マルチモーダルコンテキストにおける代名詞の曖昧さに関するテキスト・ツー・イメージ・モデルを探索する新しいデータセットであるWinoVisを紹介した。 熱マップ解析にGPT-4と拡散注意属性マップ(DAAM)を用いて,他の視覚処理課題から曖昧さを発音するモデルの能力を分離する新しい評価フレームワークを提案する。 連続したモデルバージョンの評価では、段階的な進歩にもかかわらず、Stable Diffusion 2.0はWinoVisで56.7%の精度を達成し、ランダムな推測をわずかに上回っている。 さらなるエラー分析は、複雑な視覚の世界を解釈し、相互作用する能力において、テキスト・ツー・イメージ・モデルを進めることを目的とした将来の研究にとって重要な領域を特定する。

Large Language Models (LLMs) have demonstrated remarkable success in tasks like the Winograd Schema Challenge (WSC), showcasing advanced textual common-sense reasoning. However, applying this reasoning to multimodal domains, where understanding text and images together is essential, remains a substantial challenge. To address this, we introduce WinoVis, a novel dataset specifically designed to probe text-to-image models on pronoun disambiguation within multimodal contexts. Utilizing GPT-4 for prompt generation and Diffusion Attentive Attribution Maps (DAAM) for heatmap analysis, we propose a novel evaluation framework that isolates the models' ability in pronoun disambiguation from other visual processing challenges. Evaluation of successive model versions reveals that, despite incremental advancements, Stable Diffusion 2.0 achieves a precision of 56.7% on WinoVis, only marginally surpassing random guessing. Further error analysis identifies important areas for future research aimed at advancing text-to-image models in their ability to interpret and interact with the complex visual world.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-03
# フッド下の信頼:大規模言語モデルにおける信頼-確率アライメントの検討

Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models ( http://arxiv.org/abs/2405.16282v3 )

ライセンス: Link先を確認
Abhishek Kumar, Robert Morabito, Sanzhar Umbet, Jad Kabbara, Ali Emami, (参考訳) LLM(Large Language Models)の使用が広まるにつれて、これらのモデルの出力の信頼性に不可欠なので、生成した応答に対する自信の自己評価を理解することがますます重要になる。 本稿では, LLMの内部信頼度をトークン確率で定量化した信頼度と, その確実性を明示的に問う場合のモデル応答で伝達される信頼度を結合する信頼確率アライメントの概念を紹介する。 モデルイントロスペクションを促進する様々なデータセットとプロンプト技術を用いて、モデルの内部と表現された信頼の一致を探索する。 これらの手法は、信頼度を評価するために構造化された評価尺度を使用し、プロンプト時の回答オプションや、それ自身が認識していない出力に対してモデルの信頼レベルを引き出すことを含む。 特に、分析されたモデルの中で、OpenAIのGPT-4は、幅広いタスクにわたって、平均的なSpearmanの$\hat{\rho}$ 0.42の信頼性と確率のアライメントを示した。 我々の研究は、LCMの適用におけるリスクアセスメントの促進と、モデル信頼性のさらなる理解に寄与する。

As the use of Large Language Models (LLMs) becomes more widespread, understanding their self-evaluation of confidence in generated responses becomes increasingly important as it is integral to the reliability of the output of these models. We introduce the concept of Confidence-Probability Alignment, that connects an LLM's internal confidence, quantified by token probabilities, to the confidence conveyed in the model's response when explicitly asked about its certainty. Using various datasets and prompting techniques that encourage model introspection, we probe the alignment between models' internal and expressed confidence. These techniques encompass using structured evaluation scales to rate confidence, including answer options when prompting, and eliciting the model's confidence level for outputs it does not recognize as its own. Notably, among the models analyzed, OpenAI's GPT-4 showed the strongest confidence-probability alignment, with an average Spearman's $\hat{\rho}$ of 0.42, across a wide range of tasks. Our work contributes to the ongoing efforts to facilitate risk assessment in the application of LLMs and to further our understanding of model trustworthiness.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-03
# CacheBlend: キャッシュされた知識融合を備えたRAGのための高速な大規模言語モデル

CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion ( http://arxiv.org/abs/2405.16444v2 )

ライセンス: Link先を確認
Jiayi Yao, Hanchen Li, Yuhan Liu, Siddhant Ray, Yihua Cheng, Qizheng Zhang, Kuntai Du, Shan Lu, Junchen Jiang, (参考訳) 大規模な言語モデル(LLM)は、必要なコンテキストを提供するために、入力に複数のテキストチャンクを組み込むことが多い。 長いLLM入力のプリフィルを高速化するため、別のLLM入力のプレフィックスとしてコンテキストが再利用された場合、テキストのKVキャッシュをプリコンプリートし、KVキャッシュを再使用することができる。 しかし、再利用されたテキストチャンクは必ずしも入力プレフィックスではなく、もしそうでない場合、それらのプリ計算されたKVキャッシュは、LCM入力の前のテキストとの相互アテンションを無視しているため、直接使用できない。 したがって、KVキャッシュの再利用の利点は、ほとんど実現されていない。 LLM入力に複数のテキストチャンクが含まれている場合、高価なプリフィル(すなわち、KVキャッシュを再利用せずに)と同世代の品質を達成するために、事前に計算したKVキャッシュを迅速に組み合わせるにはどうすればよいか? 我々は,プリコンパイルされたKVキャッシュをプレフィックスの有無にかかわらず再利用し,トークンの小さなサブセットのKV値を選択的に再計算し,再利用されたKVキャッシュを部分的に更新する方式であるCacheBlendを提案する。 一方、いくつかのトークンを再計算するための小さな遅延は、同じジョブ内でKVキャッシュを検索することでパイプライン化され、CacheBlendはKVキャッシュをより多くのストレージ容量を持つ遅いデバイスに保存でき、推論遅延を増大させることなく取り出すことができる。 CacheBlendと、さまざまなサイズの3つのオープンソースLCMと4つの一般的なベンチマークデータセットのKVキャッシュ再利用スキームを比較して、CacheBlendは2.2-3.3Xのタイム・ツー・ファースト・トケン(TTFT)を削減し、推論スループットを2.8-5Xに向上することを示した。

Large language models (LLMs) often incorporate multiple text chunks in their inputs to provide the necessary contexts. To speed up the prefill of the long LLM inputs, one can pre-compute the KV cache of a text and re-use the KV cache when the context is reused as the prefix of another LLM input. However, the reused text chunks are not always the input prefix, and when they are not, their precomputed KV caches cannot be directly used since they ignore the text's cross-attention with the preceding text in the LLM input. Thus, the benefits of reusing KV caches remain largely unrealized. This paper tackles just one question: when an LLM input contains multiple text chunks, how to quickly combine their precomputed KV caches in order to achieve the same generation quality as the expensive full prefill (i.e., without reusing KV cache)? We present CacheBlend, a scheme that reuses the pre-computed KV caches, regardless prefix or not, and selectively recomputes the KV values of a small subset of tokens to partially update each reused KV cache. In the meantime,the small extra delay for recomputing some tokens can be pipelined with the retrieval of KV caches within the same job,allowing CacheBlend to store KV caches in slower devices with more storage capacity while retrieving them without increasing the inference delay. By comparing CacheBlend with the state-of-the-art KV cache reusing schemes on three open-source LLMs of various sizes and four popular benchmark datasets of different tasks, we show that CacheBlend reduces time-to-first-token (TTFT) by 2.2-3.3X and increases the inference throughput by 2.8-5X, compared with full KV recompute, without compromising generation quality or incurring more storage cost.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-03
# 科学計算パイプライン統合のためのPythonの機能プログラミングパラダイム

Functional Programming Paradigm of Python for Scientific Computation Pipeline Integration ( http://arxiv.org/abs/2405.16956v2 )

ライセンス: Link先を確認
Chen Zhang, Lecheng Jia, Wei Zhang, Ning Wen, (参考訳) 現代のデータ処理の出現は、異なる技術アプローチの輸入を伴う学際性への傾向を増している。 したがって、様々なライブラリの統合を容易にするために、統合されたデータ制御システムが必要である。 この統合は、プロトタイプ検証の高速化、アルゴリズム性能の最適化、メンテナンスコストの最小化において重要な意味を持つ。 本稿では,異なるデータマッピング操作のパイプラインの統合を目的とした,Pythonアーキテクチャとプログラミング実践における関連スイートに基づく,新しい関数型プログラミング(FP)パラダイムを提案する。 特に、このソリューションは、上記の課題に対して堅牢で柔軟なソリューションを提供する科学計算フローの統合を目的としている。

The advent of modern data processing has led to an increasing tendency towards interdisciplinarity, which frequently involves the importation of different technical approaches. Consequently, there is an urgent need for a unified data control system to facilitate the integration of varying libraries. This integration is of profound significance in accelerating prototype verification, optimising algorithm performance and minimising maintenance costs. This paper presents a novel functional programming (FP) paradigm based on the Python architecture and associated suites in programming practice, designed for the integration of pipelines of different data mapping operations. In particular, the solution is intended for the integration of scientific computation flows, which affords a robust yet flexible solution for the aforementioned challenges.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-03
# CLAQ:LDMの低ビット後量子化の限界を押し上げる

CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs ( http://arxiv.org/abs/2405.17233v2 )

ライセンス: Link先を確認
Haoyu Wang, Bei Liu, Hang Shao, Bo Xiao, Ke Zeng, Guanglu Wan, Yanmin Qian, (参考訳) 大規模言語モデル(LLM)のパラメータ量子化は近年,メモリコストの削減と計算効率の向上に注目が集まっている。 初期のアプローチは広く採用されている。 しかし、既存のメソッドは低ビット(例えば2ビットから3ビット)のシナリオではパフォーマンスが悪い。 本稿では,LLM量子化のための3種類の適応戦略を導入することで,カラムレベル適応量量子化(CLAQ)フレームワークを提案する。 まず、K-Meansクラスタリングに基づくアルゴリズムを提案し、パラメータ行列の各列に対する量子化セントロイドの動的生成を可能にする。 第2に、異なる列に異なるビット幅を動的に割り当てることのできる、外周誘導適応精度探索戦略を設計する。 最後に、強化モデル性能のトレードオフとして、元の浮動小数点精度にいくつかのパラメータを保持するために、動的外れ値予約方式を開発した。 LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM 実験により, 提案手法が様々なビット設定, 特に極低ビットシナリオにおいて, 最先端の成果を達成できることが実証された。 コードはhttps://github.com/fayuge/CLAQ.comで入手できる。

Parameter quantization for Large Language Models (LLMs) has attracted increasing attentions recently in reducing memory costs and improving computational efficiency. Early approaches have been widely adopted. However, the existing methods suffer from poor performance in low-bit (such as 2 to 3 bits) scenarios. In this paper, we present a novel and effective Column-Level Adaptive weight Quantization (CLAQ) framework by introducing three different types of adaptive strategies for LLM quantization. Firstly, a K-Means clustering based algorithm is proposed that allows dynamic generation of quantization centroids for each column of a parameter matrix. Secondly, we design an outlier-guided adaptive precision search strategy which can dynamically assign varying bit-widths to different columns. Finally, a dynamic outlier reservation scheme is developed to retain some parameters in their original float point precision, in trade off of boosted model performance. Experiments on various mainstream open source LLMs including LLaMA-1, LLaMA-2 and Yi demonstrate that our methods achieve the state-of-the-art results across different bit settings, especially in extremely low-bit scenarios. Code is available at https://github.com/fayuge/CLAQ.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-03
# ハイブリッドおよびリカレントニューラルネットワークアーキテクチャを用いたDeep Learning Calabi-Yau 4つのフォールド

Deep Learning Calabi-Yau four folds with hybrid and recurrent neural network architectures ( http://arxiv.org/abs/2405.17406v2 )

ライセンス: Link先を確認
H. L. Dao, (参考訳) 本研究では,ハイブリッド畳み込みと純粋に反復するニューラルネットワークアーキテクチャに基づくディープラーニングを,約100万の完全交点(CICY4)のデータセットに適用して,ホッジ数$h^{1,1},h^{2,1},h^{3,1},h^{2,2}$のマシン学習を行った。 特に,12種類のニューラルネットワークモデルを探索,実験した。そのうち9つは畳み込みリカレント(CNN-RNN)ハイブリッドであり,RNNユニットはGRU(Gated Recurrent Unit)またはLong Short Term Memory(LSTM)である。 残りの4つのモデルはLSTMに基づく純粋にリカレントなニューラルネットワークである。 h^{1,1}, h^{2,1}, h^{3,1}, h^{2,2}$ 予測精度 72% のトレーニング比で、我々の最高の個別モデルは CNN-LSTM-400, LSTM隠蔽サイズ 400 のハイブリッド CNN-LSTM, 99.74%, 98.07%, 95.19%, 81.01%, LSTM-448, 隠蔽サイズ 448, 99.74%, 97.51%, 94.24%, 78.63% である。 これらの結果はトップ2、3または4モデルのアンサンブルを形成することで改善された。 ベストアンサンブルは上位4モデルで構成され、99.84%、98.71%、96.26%、85.03%の精度を達成した。 80%のトレーニング比率で、LSTM-448とLSTM-424の上位2つはLSTMベースであり、隠されたサイズは448と424である。 72%のトレーニング比と比較して、精度は99.85%、98.66%、96.26%、84.77%、99.90%、99.03%、97.97%、87.34%に達した。

In this work, we report the results of applying deep learning based on hybrid convolutional-recurrent and purely recurrent neural network architectures to the dataset of almost one million complete intersection Calabi-Yau four-folds (CICY4) to machine-learn their four Hodge numbers $h^{1,1}, h^{2,1}, h^{3,1}, h^{2,2}$. In particular, we explored and experimented with twelve different neural network models, nine of which are convolutional-recurrent (CNN-RNN) hybrids with the RNN unit being either GRU (Gated Recurrent Unit) or Long Short Term Memory (LSTM). The remaining four models are purely recurrent neural networks based on LSTM. In terms of the $h^{1,1}, h^{2,1}, h^{3,1}, h^{2,2}$ prediction accuracies, at 72% training ratio, our best performing individual model is CNN-LSTM-400, a hybrid CNN-LSTM with the LSTM hidden size of 400, which obtained 99.74%, 98.07%, 95.19%, 81.01%, our second best performing individual model is LSTM-448, an LSTM-based model with the hidden size of 448, which obtained 99.74%, 97.51%, 94.24%, and 78.63%. These results were improved by forming ensembles of the top two, three or even four models. Our best ensemble, consisting of the top four models, achieved the accuracies of 99.84%, 98.71%, 96.26%, 85.03%. At 80% training ratio, the top two performing models LSTM-448 and LSTM-424 are both LSTM-based with the hidden sizes of 448 and 424. Compared with the 72% training ratio, there is a significant improvement of accuracies, which reached 99.85%, 98.66%, 96.26%, 84.77% for the best individual model and 99.90%, 99.03%, 97.97%, 87.34% for the best ensemble.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-03
# EgoNCE++: Egocentric Video-Language Modelsは手動オブジェクトのインタラクションを本当に理解しているか?

EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? ( http://arxiv.org/abs/2405.17719v2 )

ライセンス: Link先を確認
Boshen Xu, Ziheng Wang, Yang Du, Zhinan Song, Sipeng Zheng, Qin Jin, (参考訳) エゴセントリック・ビデオ言語事前学習は、エゴセントリック・ハンドオブジェクト・インタラクション(EgoHOI)の学習を促進する重要なパラダイムである。 既存のテストベッドで大きな成功を収めたにもかかわらず、これらのベンチマークはクローズドセットのビジュアルコンセプトや限られたシナリオに重点を置いている。 実世界における多様なEgoHOIの出現により,エゴ中心型ビデオ言語モデル(EgoVLM)の細粒度概念における性能の低下を明らかにするために,EgoHOIBenchというオープン語彙ベンチマークを提案する。 この性能ギャップは、現在の手法における時間的ダイナミクスよりも、オブジェクトの理解に強い偏見ときめ細かな監督が不十分なためである。 これらの問題に対処するために,EgoNCE++ という新しい非対称のコントラスト目的を導入した。 ビデオ・トゥ・テキスト・ロスでは,大言語モデルのテキスト内学習を活用し,HOI関連の単語置換を行うことにより,否定的なキャプションを生成することによってテキストの監督を強化する。 テキストとビデオの損失に対して、同じ名詞でビデオ表現を集約するオブジェクト中心のポジティブなビデオサンプリング戦略を提案する。 我々の広範な実験により、EgoNCE++は、オープン語彙HOI認識、マルチインスタンス検索、および様々なエゴセントリックモデルにおけるアクション認識タスクを大幅に向上し、最大+26.55%の改善が示されている。 私たちのコードはhttps://github.com/xuboshen/EgoNCEpp.comから入手可能です。

Egocentric video-language pretraining is a crucial paradigm to advance the learning of egocentric hand-object interactions (EgoHOI). Despite the great success on existing testbeds, these benchmarks focus more on closed-set visual concepts or limited scenarios. Due to the occurrence of diverse EgoHOIs in the real world, we propose an open-vocabulary benchmark named EgoHOIBench to reveal the diminished performance of current egocentric video-language models (EgoVLM) on fined-grained concepts, indicating that these models still lack a full spectrum of egocentric understanding. We attribute this performance gap to insufficient fine-grained supervision and strong bias towards understanding objects rather than temporal dynamics in current methods. To tackle these issues, we introduce a novel asymmetric contrastive objective for EgoHOI named EgoNCE++. For video-to-text loss, we enhance text supervision through the generation of negative captions by leveraging the in-context learning of large language models to perform HOI-related word substitution. For text-to-video loss, we propose an object-centric positive video sampling strategy that aggregates video representations by the same nouns. Our extensive experiments demonstrate that EgoNCE++ significantly boosts open-vocabulary HOI recognition, multi-instance retrieval, and action recognition tasks across various egocentric models, with improvements of up to +26.55%. Our code is available at https://github.com/xuboshen/EgoNCEpp.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-03
# 確率近似におけるステップサイズ推定の再検討

Revisiting Step-Size Assumptions in Stochastic Approximation ( http://arxiv.org/abs/2405.17834v2 )

ライセンス: Link先を確認
Caio Kalil Lauand, Sean Meyn, (参考訳) 多くの機械学習と最適化アルゴリズムは確率近似(SA)の枠組みに基づいて構築されており、ステップサイズ(または学習率)の選択は成功に不可欠である。 明確にするために、本稿では、特別なケースである $\alpha_n = \alpha_0 n^{-\rho}$ at iteration $n$, with $\rho \in [0,1]$ and $\alpha_0>0$ に焦点を当てる。 実際には$\rho=0$ (constant step-size)を取るのが一般的であるが、より理論的に指向した論文では、消滅する Step-size が好まれる。 特に、$\rho \in (1/2, 1)$の場合、平均二乗誤差(MSE)は$O(1/n)$の最適速度で収束し、中央極限定理(CLT)の共分散は正確な意味で最小となることが知られている。 この論文は、一般的なマルコフ的な設定でステップサイズの選択を再考する。 容易に検証可能な仮定の下で、以下の結論が得られる:$0<\rho<1$:$\bullet$パラメータ推定は確率1と収束し、任意の$p\ge 1$に対して$L_p$である。 $\bullet$ MSE は小さな $\rho$ に対して非常にゆっくりと収束し、平均化しても$O(\alpha_n^2)$ である。 任意の$\rho\in (0,1)$に対して、誤差 $\textit{covariance}$ が最適速度で消滅する推定結果の平均化結果、さらに CLT の共分散はポリアクとルパートの意味で最適である。 しかし、$\textit{bias}$が$O(\alpha_n)$で0に収束する必要十分条件が得られる。 これはそのような強い結論を得た最初の論文であり、$\rho \le 1/2$ を許容する。 大きな結論は、$\rho =0$ あるいは $\rho<1/2$ の選択は、選択した設定でのみ正当化されるということだ。

Many machine learning and optimization algorithms are built upon the framework of stochastic approximation (SA), for which the selection of step-size (or learning rate) is essential for success. For the sake of clarity, this paper focuses on the special case $\alpha_n = \alpha_0 n^{-\rho}$ at iteration $n$, with $\rho \in [0,1]$ and $\alpha_0>0$ design parameters. It is most common in practice to take $\rho=0$ (constant step-size), while in more theoretically oriented papers a vanishing step-size is preferred. In particular, with $\rho \in (1/2, 1)$ it is known that on applying the averaging technique of Polyak and Ruppert, the mean-squared error (MSE) converges at the optimal rate of $O(1/n)$ and the covariance in the central limit theorem (CLT) is minimal in a precise sense. The paper revisits step-size selection in a general Markovian setting. Under readily verifiable assumptions, the following conclusions are obtained provided $0<\rho<1$: $\bullet$ Parameter estimates converge with probability one, and also in $L_p$ for any $p\ge 1$. $\bullet$ The MSE may converge very slowly for small $\rho$, of order $O(\alpha_n^2)$ even with averaging. $\bullet$ For linear stochastic approximation the source of slow convergence is identified: for any $\rho\in (0,1)$, averaging results in estimates for which the error $\textit{covariance}$ vanishes at the optimal rate, and moreover the CLT covariance is optimal in the sense of Polyak and Ruppert. However, necessary and sufficient conditions are obtained under which the $\textit{bias}$ converges to zero at rate $O(\alpha_n)$. This is the first paper to obtain such strong conclusions while allowing for $\rho \le 1/2$. A major conclusion is that the choice of $\rho =0$ or even $\rho<1/2$ is justified only in select settings -- In general, bias may preclude fast convergence.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-03
# SE教育における新しいAIアプリケーションの統合に向けて

Towards Integrating Emerging AI Applications in SE Education ( http://arxiv.org/abs/2405.18062v2 )

ライセンス: Link先を確認
Michael Vierhauser, Iris Groher, Tobias Antensteiner, Clemens Sauerwein, (参考訳) 人工知能(AI)アプローチは、現代の学習環境やソフトウェア工学(SE)コースやカリキュラムに数年間組み込まれてきた。 しかし、大きな言語モデル(LLM)が一般的に普及し、特に昨年、OpenAIのLLMベースのチャットボットChatGPTが人気を博し、教育者は急速に変化する教室環境に直面し、教育の原則を乱した。 例えば、ChatGPT経由で完全に生成されるプログラミング代入ソリューションから、試験中のさまざまな形式の不正行為まで、さまざまです。 しかし、これらの否定的な側面と新たな課題にもかかわらず、一般のAIツール、特にLLMアプリケーションもまた、様々なSEコースにおいて重要な機会を与え、学生と教育者の両方を有意義な方法で支援することができる。 本稿では,AIの領域における現在の傾向の体系的分析と,大学レベルのSEカリキュラム,ガイドライン,そしてインストラクターと学習者の両方を支援するためのアプローチへの統合について,予備的な結果を示す。 ACM Computer Science Curriculum Guidelines CS2023を用いて,教科と研究論文の両方を収集し,SE教育におけるその可能性について分析した。 最初の結果として、AIアプリケーションとさらなる研究分野の一連の機会について論じる。

Artificial Intelligence (AI) approaches have been incorporated into modern learning environments and software engineering (SE) courses and curricula for several years. However, with the significant rise in popularity of large language models (LLMs) in general, and OpenAI's LLM-powered chatbot ChatGPT in particular in the last year, educators are faced with rapidly changing classroom environments and disrupted teaching principles. Examples range from programming assignment solutions that are fully generated via ChatGPT, to various forms of cheating during exams. However, despite these negative aspects and emerging challenges, AI tools in general, and LLM applications in particular, can also provide significant opportunities in a wide variety of SE courses, supporting both students and educators in meaningful ways. In this early research paper, we present preliminary results of a systematic analysis of current trends in the area of AI, and how they can be integrated into university-level SE curricula, guidelines, and approaches to support both instructors and learners. We collected both teaching and research papers and analyzed their potential usage in SE education, using the ACM Computer Science Curriculum Guidelines CS2023. As an initial outcome, we discuss a series of opportunities for AI applications and further research areas.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-03
# CF-OPT:構造予測のための非現実的説明

CF-OPT: Counterfactual Explanations for Structured Prediction ( http://arxiv.org/abs/2405.18293v2 )

ライセンス: Link先を確認
Germain Vivier-Ardisson, Alexandre Forel, Axel Parmentier, Thibaut Vidal, (参考訳) ディープニューラルネットワークの最適化レイヤは構造化学習で人気を博し、さまざまなアプリケーションにおける最先端技術を改善している。 しかし、これらのパイプラインは2つの不透明な層で構成されており、ディープニューラルネットワークのような非常に非線形な予測モデルと、通常複雑なブラックボックス解決器である最適化層であるため、解釈不可能である。 我々のゴールは、このような手法の透明性を向上させることであり、対実的な説明を提供することである。 我々は、変分自己エンコーダに基づいて、反事実を得るための原則化された方法を構築し、潜在空間で働くことは、説明の妥当性という自然な概念につながる。 最終的に、VAEトレーニングの古典的な損失の変種を導入し、特定の構造化コンテキストにおけるパフォーマンスを改善しました。 これらはCF-OPTの基礎を提供しており、これは一階最適化アルゴリズムであり、幅広い階層の構造化学習アーキテクチャの対実的な説明を見つけることができる。 以上の結果から,近年の文献の問題点に対して,近い説明と妥当な説明の両立が可能であることが示唆された。

Optimization layers in deep neural networks have enjoyed a growing popularity in structured learning, improving the state of the art on a variety of applications. Yet, these pipelines lack interpretability since they are made of two opaque layers: a highly non-linear prediction model, such as a deep neural network, and an optimization layer, which is typically a complex black-box solver. Our goal is to improve the transparency of such methods by providing counterfactual explanations. We build upon variational autoencoders a principled way of obtaining counterfactuals: working in the latent space leads to a natural notion of plausibility of explanations. We finally introduce a variant of the classic loss for VAE training that improves their performance in our specific structured context. These provide the foundations of CF-OPT, a first-order optimization algorithm that can find counterfactual explanations for a broad class of structured learning architectures. Our numerical results show that both close and plausible explanations can be obtained for problems from the recent literature.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-03
# MC-GTA:自己相関による適合性テストを用いたメトリック制約付きモデルベースクラスタリング

MC-GTA: Metric-Constrained Model-Based Clustering using Goodness-of-fit Tests with Autocorrelations ( http://arxiv.org/abs/2405.18395v2 )

ライセンス: Link先を確認
Zhangyu Wang, Gengchen Mai, Krzysztof Janowicz, Ni Lao, (参考訳) 車両センサトラジェクトリをグループ化するなど、幅広い時間(1D)および空間(2D)データ解析タスクを、所定の距離制約付きクラスタリングとして定式化することができる。 既存のメートル法制約クラスタリングアルゴリズムは、特徴類似性とメートル法距離のリッチな相関、すなわちメートル法自己相関を見落としている。 これらのクラスタリングアルゴリズムのモデルに基づくバリエーション(TICCやSTICCなど)は、SOTA性能を実現するが、メトリック制約された期待-最大化手順を用いることで、計算不安定性と複雑性に悩まされる。 これら2つの問題に対処するために, MC-GTA (Model-based Clustering via Goodness-of-fit Tests with Autocorrelations)を提案する。 その目的は、特徴類似項(二乗ワッサーシュタイン2距離)とメートル法自己相関項(古典半多様体の新しい多変量一般化)の対重み付き和からなる。 MC-GTAは、クラスタ内観測ペアが適合性試験をパスしない場合、すなわち、統計的に同じ分布から発生しない場合のヒンジ損失を効果的に最小化していることを示す。 1D/2D合成および実世界のデータセットの実験は、MC-GTAがメートル法自己相関をうまく組み込むことを示した。 ARIでは14.3%、NMIでは32.1%という大きなマージンで、より高速で安定した最適化(>10倍のスピードアップ)を達成している。

A wide range of (multivariate) temporal (1D) and spatial (2D) data analysis tasks, such as grouping vehicle sensor trajectories, can be formulated as clustering with given metric constraints. Existing metric-constrained clustering algorithms overlook the rich correlation between feature similarity and metric distance, i.e., metric autocorrelation. The model-based variations of these clustering algorithms (e.g. TICC and STICC) achieve SOTA performance, yet suffer from computational instability and complexity by using a metric-constrained Expectation-Maximization procedure. In order to address these two problems, we propose a novel clustering algorithm, MC-GTA (Model-based Clustering via Goodness-of-fit Tests with Autocorrelations). Its objective is only composed of pairwise weighted sums of feature similarity terms (square Wasserstein-2 distance) and metric autocorrelation terms (a novel multivariate generalization of classic semivariogram). We show that MC-GTA is effectively minimizing the total hinge loss for intra-cluster observation pairs not passing goodness-of-fit tests, i.e., statistically not originating from the same distribution. Experiments on 1D/2D synthetic and real-world datasets demonstrate that MC-GTA successfully incorporates metric autocorrelation. It outperforms strong baselines by large margins (up to 14.3% in ARI and 32.1% in NMI) with faster and stabler optimization (>10x speedup).
翻訳日:2024-06-04 13:59:47 公開日:2024-06-03
# SST-GCN:道路交通事故リスク予測のためのシーケンスベース時空間グラフ畳み込みネットワーク

SST-GCN: The Sequential based Spatio-Temporal Graph Convolutional networks for Minute-level and Road-level Traffic Accident Risk Prediction ( http://arxiv.org/abs/2405.18602v2 )

ライセンス: Link先を確認
Tae-wook Kim, Han-jin Lee, Hyeon-Jin Jung, Ji-Woong Yang, Ellen J. Hong, (参考訳) 交通事故は世界中で大きな社会問題として認識されており、毎年多くの負傷者や大きなコストがかかる。 その結果,交通事故の予測・防止方法が長年研究されてきた。 人工知能の分野での進歩に伴い、さまざまな研究が交通事故予測に機械学習とディープラーニング技術を適用している。 現代の交通状況は1分ごとに急速に変化し、道路によって大きく変化している。 言い換えれば、交通事故のリスクは各道路の様々なパターンで分単位で変化する。 そのため,ミニ・レベルとロード・レベルにおける交通事故のリスクを予測することが望ましい。 しかし、道路は隣接する道路と密接かつ複雑な関係にあるため、ミニット・レベルとロード・レベルでの交通事故の予測に関する研究は困難である。 したがって,交通事故予測のための道路の空間的・時間的特性を反映できるモデルの構築が不可欠である。 その結果,グラフ畳み込みネットワークを用いて道路の空間的特性を捉える手法や,交通事故のリスクを予測するための時間的特性を再現する手法が近年試みられている。 本稿では, 韓国の首都ソウルに構築された道路データセットを用いて, GCN と LSTM を組み合わせたシーケンスベース時空間グラフ畳み込みネットワーク(SST-GCN)を提案する。 実験により、SST-GCNは他の最先端モデルよりも小さなレベル予測の方が優れていることが示された。

Traffic accidents are recognized as a major social issue worldwide, causing numerous injuries and significant costs annually. Consequently, methods for predicting and preventing traffic accidents have been researched for many years. With advancements in the field of artificial intelligence, various studies have applied Machine Learning and Deep Learning techniques to traffic accident prediction. Modern traffic conditions change rapidly by the minute, and these changes vary significantly across different roads. In other words, the risk of traffic accidents changes minute by minute in various patterns for each road. Therefore, it is desirable to predict traffic accident risk at the Minute-Level and Road-Level. However, because roads have close and complex relationships with adjacent roads, research on predicting traffic accidents at the Minute-Level and Road-Level is challenging. Thus, it is essential to build a model that can reflect the spatial and temporal characteristics of roads for traffic accident prediction. Consequently, recent attempts have been made to use Graph Convolutional Networks to capture the spatial characteristics of roads and Recurrent Neural Networks to capture their temporal characteristics for predicting traffic accident risk. This paper proposes the Sequential based Spatio-Temporal Graph Convolutional Networks (SST-GCN), which combines GCN and LSTM, to predict traffic accidents at the Minute-Level and Road-Level using a road dataset constructed in Seoul, the capital of South Korea. Experiments have demonstrated that SST-GCN outperforms other state-of-the-art models in Minute-Level predictions.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-03
# Genshin: 大規模言語モデルによる自然言語処理のための汎用シールド

Genshin: General Shield for Natural Language Processing with Large Language Models ( http://arxiv.org/abs/2405.18741v2 )

ライセンス: Link先を確認
Xiao Peng, Tao Liu, Ying Wang, (参考訳) ChatGPT、Gemini、LLaMAのような大規模言語モデル(LLM)が最近流行し、無数のドメインでかなりの進歩と一般化能力を示している。 しかし、LSMはより大きなブラックボックスが不透明度を悪化させ、解釈可能性はほとんどない。 LLMの本質に埋め込まれた不確実性と不透明性は、金融詐欺やフィッシングなどの高額な領域への適用を制限する。 現在のアプローチは、主に後方解釈可能なアルゴリズムによる従来のテキスト分類に依存しており、システムの防御を壊すために多種多様な敵のサンプルを作成する攻撃者に悩まされ、ユーザーは効率と堅牢性の間のトレードオフを強制する。 この問題に対処するために,LLMを防御的なワンタイムプラグインとして活用する,Genshin(大規模言語モデル付き自然言語処理一般シールド)と呼ばれる新しいカスケーディングフレームワークを提案する。 テキストを新しい、あるいは構造的なものに変えようとするLLMのほとんどのアプリケーションとは異なり、源信はLLMを使ってテキストを元の状態に復元する。 玄信は、LLMの一般化可能性、中央モデルの識別、単純モデルの解釈可能性を組み合わせることを目的としている。 感傷的分析とスパム検出の課題に対する実験により,現在の中央値モデルに致命的な欠陥がみられ,LLMの回復能力が向上し,ゲンシンが効果的かつ効果的であることが確認された。 アブレーション研究では、いくつかの興味深い観察を発掘した。 第4パラダイムから派生したツールである LLM ディフェンダー を用いて, BERT の最適マスクレート 15% を NLP の第3パラダイムに再現した。 さらに、LLMを潜在的な敵ツールとして使用する場合、攻撃者は意味的にほとんど損失のない効果的な攻撃を実行することができる。

Large language models (LLMs) like ChatGPT, Gemini, or LLaMA have been trending recently, demonstrating considerable advancement and generalizability power in countless domains. However, LLMs create an even bigger black box exacerbating opacity, with interpretability limited to few approaches. The uncertainty and opacity embedded in LLMs' nature restrict their application in high-stakes domains like financial fraud, phishing, etc. Current approaches mainly rely on traditional textual classification with posterior interpretable algorithms, suffering from attackers who may create versatile adversarial samples to break the system's defense, forcing users to make trade-offs between efficiency and robustness. To address this issue, we propose a novel cascading framework called Genshin (General Shield for Natural Language Processing with Large Language Models), utilizing LLMs as defensive one-time plug-ins. Unlike most applications of LLMs that try to transform text into something new or structural, Genshin uses LLMs to recover text to its original state. Genshin aims to combine the generalizability of the LLM, the discrimination of the median model, and the interpretability of the simple model. Our experiments on the task of sentimental analysis and spam detection have shown fatal flaws of the current median models and exhilarating results on LLMs' recovery ability, demonstrating that Genshin is both effective and efficient. In our ablation study, we unearth several intriguing observations. Utilizing the LLM defender, a tool derived from the 4th paradigm, we have reproduced BERT's 15% optimal mask rate results in the 3rd paradigm of NLP. Additionally, when employing the LLM as a potential adversarial tool, attackers are capable of executing effective attacks that are nearly semantically lossless.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-03
# 抗体モデルのためのSARS-CoV-2相互作用データセットとVHH系列コーパス

A SARS-CoV-2 Interaction Dataset and VHH Sequence Corpus for Antibody Language Models ( http://arxiv.org/abs/2405.18749v2 )

ライセンス: Link先を確認
Hirofumi Tsuruta, Hiroyuki Yamazaki, Ryota Maeda, Ryotaro Tamura, Akihiro Imura, (参考訳) 抗体は、有害な異物を取り除くために免疫系によって生産される重要なタンパク質であり、ヒト疾患の治療において重要な治療薬となっている。 抗体治療の発見を加速するため, 抗体配列を用いた言語モデル構築への関心が高まっている。 しかし,ラベル付きデータセットの不足により,事前学習した言語モデルの抗体発見への適用性は十分に評価されていない。 AVIDa-SARS-CoV-2は重症急性呼吸器症候群ウイルス2(SARS-CoV-2)スパイクタンパク質に免疫された2つのアルパサから得られた重鎖抗体(VHH)相互作用の抗原可変ドメインを特徴とするデータセットである。 AVIDa-SARS-CoV-2は、デルタおよびOmicron変異体のような12のSARS-CoV-2変異体への多様なVHH配列の結合または非結合を示すバイナリラベルを含む。 さらに,VHHCorpus-2Mは,200万以上のVHH配列を含む,抗体言語モデルの事前学習データセットである。 VHHCorpus-2Mおよび既存の一般タンパク質および抗体特異的言語モデルを用いたVHHBERTを用いたSARS-CoV-2-VHH結合予測のためのベンチマーク結果を報告する。 これらの結果は,AVIDa-SARS-CoV-2が結合予測のための抗体言語モデルの表現能力を評価するための貴重なベンチマークを提供し,AI駆動型抗体発見の開発を容易にすることを確認する。 データセットはhttps://datasets.cognanous.comで公開されている。

Antibodies are crucial proteins produced by the immune system to eliminate harmful foreign substances and have become pivotal therapeutic agents for treating human diseases. To accelerate the discovery of antibody therapeutics, there is growing interest in constructing language models using antibody sequences. However, the applicability of pre-trained language models for antibody discovery has not been thoroughly evaluated due to the scarcity of labeled datasets. To overcome these limitations, we introduce AVIDa-SARS-CoV-2, a dataset featuring the antigen-variable domain of heavy chain of heavy chain antibody (VHH) interactions obtained from two alpacas immunized with severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) spike proteins. AVIDa-SARS-CoV-2 includes binary labels indicating the binding or non-binding of diverse VHH sequences to 12 SARS-CoV-2 mutants, such as the Delta and Omicron variants. Furthermore, we release VHHCorpus-2M, a pre-training dataset for antibody language models, containing over two million VHH sequences. We report benchmark results for predicting SARS-CoV-2-VHH binding using VHHBERT pre-trained on VHHCorpus-2M and existing general protein and antibody-specific pre-trained language models. These results confirm that AVIDa-SARS-CoV-2 provides valuable benchmarks for evaluating the representation capabilities of antibody language models for binding prediction, thereby facilitating the development of AI-driven antibody discovery. The datasets are available at https://datasets.cognanous.com.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-03
# マニフォールド変換による部分的クラス分割データに基づくフェデレーション学習

Federated Learning under Partially Class-Disjoint Data via Manifold Reshaping ( http://arxiv.org/abs/2405.18983v2 )

ライセンス: Link先を確認
Ziqing Fan, Jiangchao Yao, Ruipeng Zhang, Lingjuan Lyu, Ya Zhang, Yanfeng Wang, (参考訳) 統計的不均一性は、フェデレートラーニング(FL)の性能を著しく制限し、この問題を軽減するために、例えば、FedProx、MOON、FedDynといったいくつかの探索を動機付けている。 有効性にもかかわらず、それらのシナリオは一般的に、各クライアントのローカルトレーニング中に、ほとんどすべてのクラスからサンプルを必要とする。 実際、各クライアントがサンプルのいくつかのクラス(すべてのクラスの代わりに)をコントリビュートするPCDD(Partial class-disjoint data)の自然なケースは、実用的だが未解明である。 特に,PCDDの独自の崩壊・侵入特性は,局所学習において偏りのある最適化方向を誘導し,フェデレート学習の効率を損なう。 このジレンマに対処するため,FedMRと呼ばれる多様体再構成手法を提案し,局所学習の特徴空間を校正する。 我々のFedMRは2つの相互作用損失をバニラフェデレート学習に追加し、一方はクラス内損失であり、他方はクラス間損失であり、特徴拡張におけるカテゴリ間の適切なマージンを保証する。 我々は、FedMRがはるかに高い精度と通信効率を達成することを示すために、さまざまなデータセットに関する広範な実験を行います。 ソースコードはhttps://github.com/MediaBrain-SJTU/FedMR.git.comで入手できる。

Statistical heterogeneity severely limits the performance of federated learning (FL), motivating several explorations e.g., FedProx, MOON and FedDyn, to alleviate this problem. Despite effectiveness, their considered scenario generally requires samples from almost all classes during the local training of each client, although some covariate shifts may exist among clients. In fact, the natural case of partially class-disjoint data (PCDD), where each client contributes a few classes (instead of all classes) of samples, is practical yet underexplored. Specifically, the unique collapse and invasion characteristics of PCDD can induce the biased optimization direction in local training, which prevents the efficiency of federated learning. To address this dilemma, we propose a manifold reshaping approach called FedMR to calibrate the feature space of local training. Our FedMR adds two interplaying losses to the vanilla federated learning: one is intra-class loss to decorrelate feature dimensions for anti-collapse; and the other one is inter-class loss to guarantee the proper margin among categories in the feature expansion. We conduct extensive experiments on a range of datasets to demonstrate that our FedMR achieves much higher accuracy and better communication efficiency. Source code is available at: https://github.com/MediaBrain-SJTU/FedMR.git.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-03
# 小児科GPT:中国における小児科用医療アシスタントとしての大規模言語モデル

PediatricsGPT: Large Language Models as Chinese Medical Assistants for Pediatric Applications ( http://arxiv.org/abs/2405.19266v2 )

ライセンス: Link先を確認
Dingkang Yang, Jinjie Wei, Dongling Xiao, Shunli Wang, Tong Wu, Gang Li, Mingcheng Li, Shuaibing Wang, Jiawei Chen, Yue Jiang, Qingyao Xu, Ke Li, Peng Zhai, Lihua Zhang, (参考訳) インテリジェントな小児相談システムの開発は、特に医療資源が乏しい中国では、診断効率を改善するための有望な見通しを提供する。 漢方医学におけるLarge Language Models (LLMs) の最近の進歩にもかかわらず, 教育データ不足や訓練方法の脆弱さにより, 小児科領域での性能は準最適である。 以上の課題に対処するため,本論文では,小児科の教科書,ガイドライン,知識グラフリソースから得られた30,000以上のマルチタスク・インストラクションの高品質データセットであるPedCorpusを構築し,多様な診断要求を満たす。 PedCorpusを十分に設計した上で,系統的かつ堅牢なトレーニングパイプライン上に構築された,中国初の小児 LLM アシスタントであるPediatricsGPT を提案する。 医用領域適応のための LLM の内部注入型知識の不整合を緩和するためのハイブリッド・インストラクション・プレトレーニング・メカニズムを導入する。 即時、フルパラメータ・スーパービジョン・ファインチューニング(SFT)を使用して、一般的な医療知識スキーマをモデルに組み込む。 その後、小児科のような人文主義的反応の生成を促進するために、直接追従選好最適化を考案した。 パラメータ効率のよい二次SFTフェーズでは、医務総長と小児専門職との能力衝突を解決するために、普遍的な専門家戦略の混合が提示される。 測定値, GPT-4, 医師の評価結果から, ペディアトリスGPTは旧来の中国医学LLMより一貫して優れていたことが示唆された。 私たちのモデルとデータセットは、コミュニティ開発のためにオープンソースになります。

Developing intelligent pediatric consultation systems offers promising prospects for improving diagnostic efficiency, especially in China, where healthcare resources are scarce. Despite recent advances in Large Language Models (LLMs) for Chinese medicine, their performance is sub-optimal in pediatric applications due to inadequate instruction data and vulnerable training procedures. To address the above issues, this paper builds PedCorpus, a high-quality dataset of over 300,000 multi-task instructions from pediatric textbooks, guidelines, and knowledge graph resources to fulfil diverse diagnostic demands. Upon well-designed PedCorpus, we propose PediatricsGPT, the first Chinese pediatric LLM assistant built on a systematic and robust training pipeline. In the continuous pre-training phase, we introduce a hybrid instruction pre-training mechanism to mitigate the internal-injected knowledge inconsistency of LLMs for medical domain adaptation. Immediately, the full-parameter Supervised Fine-Tuning (SFT) is utilized to incorporate the general medical knowledge schema into the models. After that, we devise a direct following preference optimization to enhance the generation of pediatrician-like humanistic responses. In the parameter-efficient secondary SFT phase, a mixture of universal-specific experts strategy is presented to resolve the competency conflict between medical generalist and pediatric expertise mastery. Extensive results based on the metrics, GPT-4, and doctor evaluations on distinct doctor downstream tasks show that PediatricsGPT consistently outperforms previous Chinese medical LLMs. Our model and dataset will be open-source for community development.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-03
# ポイント・プロセス・ラーニングとTaccs-Fiksel 推定の特殊な場合の比較

Comparison of Point Process Learning and its special case Takacs-Fiksel estimation ( http://arxiv.org/abs/2405.19523v3 )

ライセンス: Link先を確認
Julia Jansson, Ottmar Cronie, (参考訳) 最近、Cronie et al (2024)はポイントプロセスのクロスバリデーションの概念と、ポイントプロセス学習(PPL)と呼ばれる新しい統計方法論を導入した。 PPLでは、ポイントプロセス/パターンをトレーニングと検証セットに分割し、パラメトリドのパパンガルー条件強度によって後者を前者から予測する。 モデルパラメータは点過程予測誤差を最小化することで推定され、この概念はPPLの2番目のビルディングブロックとして導入された。 PPLは、Gibsハードコアプロセスのカーネル強度推定とパラメータ推定の両方において、最先端技術よりも優れていることを示した。 後者の場合、最先端技術は擬似的類似度推定によって表される。 本稿では,PPLとTaccs-Fiksel推定の関係について検討する。 本稿では, 特定の損失関数を持つPLPが, クロスバリデーション体制を離脱する傾向にある場合, 特定の損失関数を持つPLPをTakacs-Fiksel推定に漸近的に還元するという意味では, PPLの特別な場合であることを示す。 さらに、PPLは重み関数によって与えられるある種のハイパーパラメータを伴い、予測誤差が期待値ゼロであることを保証する。 重み関数は一般ギブスモデルに対して明示的だが難解な形式をとることを示す。 そこで本研究では,実際の重量関数を推定するための異なる手法を提案する。 一般のPPLセットアップが特殊ケースであるTakacs-Fiksel推定と比較してどのように動作するかを評価するため、一般的なGibsモデルでは損失関数やハイパーパラメータが得られ、PPLは平均二乗誤差でTakacs-Fiksel推定を著しく上回る。 ここで、ハイパーパラメータは、クロスバリデーションパラメータと重み関数の推定値である。

Recently, Cronie et al. (2024) introduced the notion of cross-validation for point processes and a new statistical methodology called Point Process Learning (PPL). In PPL one splits a point process/pattern into a training and a validation set, and then predicts the latter from the former through a parametrised Papangelou conditional intensity. The model parameters are estimated by minimizing a point process prediction error; this notion was introduced as the second building block of PPL. It was shown that PPL outperforms the state-of-the-art in both kernel intensity estimation and estimation of the parameters of the Gibbs hard-core process. In the latter case, the state-of-the-art was represented by pseudolikelihood estimation. In this paper we study PPL in relation to Takacs-Fiksel estimation, of which pseudolikelihood is a special case. We show that Takacs-Fiksel estimation is a special case of PPL in the sense that PPL with a specific loss function asymptotically reduces to Takacs-Fiksel estimation if we let the cross-validation regime tend to leave-one-out cross-validation. Moreover, PPL involves a certain type of hyperparameter given by a weight function which ensures that the prediction errors have expectation zero if and only if we have the correct parametrisation. We show that the weight function takes an explicit but intractable form for general Gibbs models. Consequently, we propose different approaches to estimate the weight function in practice. In order to assess how the general PPL setup performs in relation to its special case Takacs-Fiksel estimation, we conduct a simulation study where we find that for common Gibbs models we can find loss functions and hyperparameters so that PPL typically outperforms Takacs-Fiksel estimation significantly in terms of mean square error. Here, the hyperparameters are the cross-validation parameters and the weight function estimate.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-03
# 英語・ドラビディア語機械翻訳におけるジェンダーバイアス緩和における思考の連鎖の意義

Significance of Chain of Thought in Gender Bias Mitigation for English-Dravidian Machine Translation ( http://arxiv.org/abs/2405.19701v2 )

ライセンス: Link先を確認
Lavanya Prahallad, Radhika Mamidi, (参考訳) 機械翻訳(MT)における性バイアスは、正確かつ包括的な翻訳を達成する上で重要な課題である。 本稿では,Dravidian family の Telugu や Kan-nada などの機械翻訳システムにおけるジェンダーバイアスについて検討し,Google Translate と Chat-GPT を用いて,ジェンダーのインフレクションが翻訳精度と中立性に与える影響を解析した。 複数の形式はバイアスを減らすことができるが、個人中心の文は多くの場合、歴史的ステレオタイプによるバイアスを主とする。 研究は思考過程の連鎖を評価し, テルグ語では80%から4%, カン・ナダでは40%から0%に有意なバイアス緩和が認められた。 また、TeluguとKannadaの翻訳を比較し、これらの課題に対処するための言語固有の戦略の必要性を強調し、データ準備と推論中のプロンプトの公平性を高めるための今後の研究の方向性を提案する。

Gender bias in machine translation (MT) sys- tems poses a significant challenge to achieving accurate and inclusive translations. This paper examines gender bias in machine translation systems for languages such as Telugu and Kan- nada from the Dravidian family, analyzing how gender inflections affect translation accuracy and neutrality using Google Translate and Chat- GPT. It finds that while plural forms can reduce bias, individual-centric sentences often main- tain the bias due to historical stereotypes. The study evaluates the Chain of Thought process- ing, noting significant bias mitigation from 80% to 4% in Telugu and from 40% to 0% in Kan- nada. It also compares Telugu and Kannada translations, emphasizing the need for language specific strategies to address these challenges and suggesting directions for future research to enhance fairness in both data preparation and prompts during inference.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-03
# 対話談話パーシングとトピックセグメンテーションの教師なし相互学習

Unsupervised Mutual Learning of Dialogue Discourse Parsing and Topic Segmentation ( http://arxiv.org/abs/2405.19799v2 )

ライセンス: Link先を確認
Jiahui Xu, Feng Jiang, Anningzhe Gao, Haizhou Li, (参考訳) 大規模言語モデル(LLM)の進歩は対話システムの発展を促している。 ユーザの好みのみを満たす一般的なChatGPTのようなアシスタントモデルとは異なり、タスク指向の対話システムは、幅広いビジネス分野において新たな要件と課題に直面している。 それらは、各対話ターンで正しい応答を提供すると同時に、タスクによって定義された全体的な目標を達成することが期待されている。 トピックセグメンテーションと談話パーシングを通じて、修辞構造やトピック構造を理解することで、対話システムは両方の目的を達成するためのより良い計画を立てることができる。 しかしながら、両方の構造は言語学における談話構造に属するが、修辞構造と話題構造は、主に別々にモデル化されるか、あるいは、以前の研究で他方を補助する。 これら2つの構造間の相互作用は、共同モデリングや相互学習には考慮されていない。 さらに,これらを実現するための教師なし学習手法も十分に検討されていない。 このギャップを埋めるために,グローバルおよびローカルな相互接続を利用した2つの構造の教師なし相互学習フレームワークを提案する。 我々は,非隣接談話単位間のトピックモデリングを拡張し,レトリック構造とのグローバルな構造的関連性を確保する。 また、局所コヒーレンス整合性を確保するために、グラフニューラルネットワークモデルを用いて、レトリック構造をトピック構造に組み込む。 最後に,2つの融合構造間の類似性を相互学習に活用する。 実験の結果,本手法は2つの対話修辞的データセット(STACとMolweni)と対話的トピック・データセット(Doc2DialとTIAGE)において,強いベースラインを達成できた。 私たちはhttps://github.com/Jeff-Sue/URT.comでコードを公開しています。

The advancement of large language models (LLMs) has propelled the development of dialogue systems. Unlike the popular ChatGPT-like assistant model, which only satisfies the user's preferences, task-oriented dialogue systems have also faced new requirements and challenges in the broader business field. They are expected to provide correct responses at each dialogue turn, at the same time, achieve the overall goal defined by the task. By understanding rhetorical structures and topic structures via topic segmentation and discourse parsing, a dialogue system may do a better planning to achieve both objectives. However, while both structures belong to discourse structure in linguistics, rhetorical structure and topic structure are mostly modeled separately or with one assisting the other in the prior work. The interaction between these two structures has not been considered for joint modeling and mutual learning. Furthermore, unsupervised learning techniques to achieve the above are not well explored. To fill this gap, we propose an unsupervised mutual learning framework of two structures leveraging the global and local connections between them. We extend the topic modeling between non-adjacent discourse units to ensure global structural relevance with rhetorical structures. We also incorporate rhetorical structures into the topic structure through a graph neural network model to ensure local coherence consistency. Finally, we utilize the similarity between the two fused structures for mutual learning. The experimental results demonstrate that our methods outperform all strong baselines on two dialogue rhetorical datasets (STAC and Molweni), as well as dialogue topic datasets (Doc2Dial and TIAGE). We provide our code at https://github.com/Jeff-Sue/URT.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-03
# DP-IQA:野生のブラインド画像品質評価に先立って拡散を利用する

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild ( http://arxiv.org/abs/2405.19996v3 )

ライセンス: Link先を確認
Honghao Fu, Yufei Wang, Wenhan Yang, Bihan Wen, (参考訳) 画像品質評価(IQA)は,高品質な画像の選択や,一連のアプリケーションにおける圧縮・拡張手法の指導において重要な役割を担っている。 ブラインドIQAは、参照画像のない複雑な真の歪みを含む、ワイヤ内画像の品質を評価することで、より大きな課題を提起する。 既存の手法は局所パッチを用いた均一分布のモデル化に限られており、低レベルのビジョンと高レベルのビジョンのギャップに悩まされている。 本稿では, 画像の視覚的品質の知覚において, セマンティックギャップを橋渡しする優れた能力で, 事前学習した拡散モデルからの事前知識を活用する, 拡散事前ベースIQA (DP-IQA) と呼ばれる新しいIQA手法を提案する。 具体的には、トレーニング済みの安定拡散をバックボーンとして使用し、所定のタイミングでアップサンプリング中のU-Netからマルチレベル特徴を抽出し、画像品質スコアをデコードして推定する。 テキストおよびイメージアダプタは、下流タスクの領域ギャップを緩和し、変分オートエンコーダボトルネックに起因する情報損失を補正するために採用される。 最後に、上記のモデルにおける知識をCNNベースの学生モデルに蒸留し、適用性を高めるためにパラメータを著しく削減し、学生モデルは驚くほど教師モデルと同じような、あるいはそれ以上に優れている。 実験の結果, DP-IQAは, 画像品質評価のための拡散の階層的特徴指標を用いて, 大域的モデリングにおける手法の優位性を示した。

Image quality assessment (IQA) plays a critical role in selecting high-quality images and guiding compression and enhancement methods in a series of applications. The blind IQA, which assesses the quality of in-the-wild images containing complex authentic distortions without reference images, poses greater challenges. Existing methods are limited to modeling a uniform distribution with local patches and are bothered by the gap between low and high-level visions (caused by widely adopted pre-trained classification networks). In this paper, we propose a novel IQA method called diffusion priors-based IQA (DP-IQA), which leverages the prior knowledge from the pre-trained diffusion model with its excellent powers to bridge semantic gaps in the perception of the visual quality of images. Specifically, we use pre-trained stable diffusion as the backbone, extract multi-level features from the denoising U-Net during the upsampling process at a specified timestep, and decode them to estimate the image quality score. The text and image adapters are adopted to mitigate the domain gap for downstream tasks and correct the information loss caused by the variational autoencoder bottleneck. Finally, we distill the knowledge in the above model into a CNN-based student model, significantly reducing the parameter to enhance applicability, with the student model performing similarly or even better than the teacher model surprisingly. Experimental results demonstrate that our DP-IQA achieves state-of-the-art results on various in-the-wild datasets with better generalization capability, which shows the superiority of our method in global modeling and utilizing the hierarchical feature clues of diffusion for evaluating image quality.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-03
# Few-Photon SUPER:2つの非共鳴光子モードによる量子エミッタインバージョン

Few-Photon SUPER: Quantum emitter inversion via two off-resonant photon modes ( http://arxiv.org/abs/2405.20095v2 )

ライセンス: Link先を確認
Quentin W. Richter, Jan M. Kaspari, Thomas K. Bracht, Leonid Yatsenko, Vollrath Martin Axt, Arno Rauschenbeutel, Doris E. Reiter, (参考訳) 制御量子系の実現により、共鳴の場合以外の励起の探索が新たな可能性を開く。 本研究では、2つの光子モードを量子エミッタに非共鳴的に結合する拡張Jaynes-Cummingsモデルについて検討する。 これにより、外部共鳴光子を1つのモードから別のモードに移動させながら、エミッタの完全な反転につながる少数の光子散乱機構を特定できる。 この挙動は、2レベルのエミッタが2つの非共鳴光子を同時に散乱する最近の測定と結びついている。 さらに、この結果は、最近開発された量子EmitteR(SUPER)のSwing-UPとして知られる非共鳴量子制御スキームの量子化アナログとして理解することができる。 我々の直感的な定式化は、2レベルエミッタと非共鳴光モードとの相互作用と新しいフォトニック応用の可能性について深い洞察を与える。

With the realization of controlled quantum systems, exploring excitations beyond the resonant case opens new possibilities. We investigate an extended Jaynes-Cummings model where two photon modes are coupled off-resonantly to a quantum emitter. This allows us to identify few-photon scattering mechanisms that lead to a full inversion of the emitter while transferring off-resonant photons from one mode to another. This behaviour connects to recent measurements of a two-level emitter scattering two off-resonant photons simultaneously. Furthermore, our results can be understood as quantized analogue of the recently developed off-resonant quantum control scheme known as Swing-UP of quantum EmitteR (SUPER). Our intuitive formalism gives a deeper insight into the interaction of a two-level emitter with off-resonant light modes with the prospect of novel photonic applications.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-03
# ビジョンのためのWhite-Box変換器のスケーリング

Scaling White-Box Transformers for Vision ( http://arxiv.org/abs/2405.20299v3 )

ライセンス: Link先を確認
Jinrui Yang, Xianhang Li, Druv Pai, Yuyin Zhou, Yi Ma, Yaodong Yu, Cihang Xie, (参考訳) 圧縮およびスパース表現を学習するために設計されたホワイトボックストランスフォーマーアーキテクチャであるCRATEは、その固有の数学的解釈性から、標準ビジョントランスフォーマー(ViT)に代わる興味深い代替手段を提供する。 言語と視覚変換器のスケーリング動作について広範な調査が行われたが、CRATEのスケーラビリティは未解決の問題である。 具体的には、CRATEアーキテクチャ設計におけるスパースコーディングブロックの戦略的かつ最小限の変更を特徴とするCRATE-$\alpha$と、CRATEのスケーラビリティ向上を目的としたライトトレーニングレシピを提案する。 大規模な実験を通じて、CRATE-$\alpha$は、より大きなモデルサイズとデータセットで効果的にスケールできることを実証する。 例えば、われわれの CRATE-$\alpha$-B は ImageNet の分類において、これまでで最高の CRATE-B モデルの精度を3.7%上回っており、精度は83.2% である。 一方、さらなるスケーリングを行う場合、CRATE-$\alpha$-L は ImageNet の分類精度85.1% を得る。 さらに、これらのモデルの性能改善は、学習されたCRATEモデルの解釈可能性を高めることさえ可能であり、より大きく訓練されたCRATE-$\alpha$モデルの学習トークン表現が、画像の高品質な教師なしオブジェクトセグメンテーションをもたらすことを示した。 プロジェクトページはhttps://rayjryang.github.io/CRATE-alpha/。

CRATE, a white-box transformer architecture designed to learn compressed and sparse representations, offers an intriguing alternative to standard vision transformers (ViTs) due to its inherent mathematical interpretability. Despite extensive investigations into the scaling behaviors of language and vision transformers, the scalability of CRATE remains an open question which this paper aims to address. Specifically, we propose CRATE-$\alpha$, featuring strategic yet minimal modifications to the sparse coding block in the CRATE architecture design, and a light training recipe designed to improve the scalability of CRATE. Through extensive experiments, we demonstrate that CRATE-$\alpha$ can effectively scale with larger model sizes and datasets. For example, our CRATE-$\alpha$-B substantially outperforms the prior best CRATE-B model accuracy on ImageNet classification by 3.7%, achieving an accuracy of 83.2%. Meanwhile, when scaling further, our CRATE-$\alpha$-L obtains an ImageNet classification accuracy of 85.1%. More notably, these model performance improvements are achieved while preserving, and potentially even enhancing the interpretability of learned CRATE models, as we demonstrate through showing that the learned token representations of increasingly larger trained CRATE-$\alpha$ models yield increasingly higher-quality unsupervised object segmentation of images. The project page is https://rayjryang.github.io/CRATE-alpha/.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# シングルビューで3Dを再現する「Pixel」は3Dガウシアンが1人以上いる

A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction ( http://arxiv.org/abs/2405.20310v3 )

ライセンス: Link先を確認
Jianghao Shen, Nan Xue, Tianfu Wu, (参考訳) シングルビュー画像から3Dシーンの表現を学習することは、コンピュータビジョンにおける長年の根本的問題であり、入力ビューから見えないコンテンツの予測に固有の曖昧さがある。 Splatter Image methodは、最近提案された3D Gaussian Splatting(3DGS)に基づいて、入力画像のU-Net特徴マップに基づいて、各画素に対して単一の3D Gaussianを学習することで、高速な単一画像のノベルビュー合成を進歩させた。 しかし、入力ビューでは観測できない排他的コンポーネントを表現するための表現力は限られている。 この問題に対処するため,本研究では,画素が1つ以上の3次元ガウス値を持つ階層型スプラッター画像法を提案する。 具体的には、各画素は親3Dガウシアンと子3Dガウシアンとで表される。 親の3Dガウスは、バニラ・スプラッター・イメージ(英語版)で学習されている。 子3Dガウスアンは、親3Dガウスアンの投影された画像特徴と対象カメラビューの埋め込みを入力として、軽量のマルチ層パーセプトロン(MLP)を介して学習される。 親と子の両方の3Dガウスアンは、段階的にエンドツーエンドで学習される。 親ガウスの目からの入力画像の特徴と対象カメラ位置との結合条件は、子ガウスを「見えないものを見る」に割り当てることを容易にし、しばしば親ガウスに見逃される隠された詳細を回復させる。 実験では,提案手法をShapeNet-SRNおよびCO3Dデータセット上でテストし,特に入力ビューにおける隠蔽コンテンツを再構成する有望な能力を示す。

Learning 3D scene representation from a single-view image is a long-standing fundamental problem in computer vision, with the inherent ambiguity in predicting contents unseen from the input view. Built on the recently proposed 3D Gaussian Splatting (3DGS), the Splatter Image method has made promising progress on fast single-image novel view synthesis via learning a single 3D Gaussian for each pixel based on the U-Net feature map of an input image. However, it has limited expressive power to represent occluded components that are not observable in the input view. To address this problem, this paper presents a Hierarchical Splatter Image method in which a pixel is worth more than one 3D Gaussians. Specifically, each pixel is represented by a parent 3D Gaussian and a small number of child 3D Gaussians. Parent 3D Gaussians are learned as done in the vanilla Splatter Image. Child 3D Gaussians are learned via a lightweight Multi-Layer Perceptron (MLP) which takes as input the projected image features of a parent 3D Gaussian and the embedding of a target camera view. Both parent and child 3D Gaussians are learned end-to-end in a stage-wise way. The joint condition of input image features from eyes of the parent Gaussians and the target camera position facilitates learning to allocate child Gaussians to ``see the unseen'', recovering the occluded details that are often missed by parent Gaussians. In experiments, the proposed method is tested on the ShapeNet-SRN and CO3D datasets with state-of-the-art performance obtained, especially showing promising capabilities of reconstructing occluded contents in the input view.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# 畳み込みL2L流:畳み込み正規化流を用いた高粒度キャロリメータにおける高精度ショーアの生成

Convolutional L2LFlows: Generating Accurate Showers in Highly Granular Calorimeters Using Convolutional Normalizing Flows ( http://arxiv.org/abs/2405.20407v2 )

ライセンス: Link先を確認
Thorsten Buss, Frank Gaede, Gregor Kasieczka, Claudius Krause, David Shih, (参考訳) 規則に基づくシミュレーションの計算効率の良い代替品として生成代理モデルを構築しようとする中で、生成されたサンプルの品質は依然として重要なフロンティアである。 これまでのところ、最も忠実なモデルには正規化フローがある。 しかし、そのようなモデルにおける潜在空間はデータ空間と同じ次元を持つ必要があるため、正規化フローを高次元データセットにスケールアップすることは容易ではない。 以前のL2LFlowsアプローチでは、この問題を回避するために、一連の別個の正規化フローと条件付ステップのシーケンスをうまく利用していた。 本研究では、L2L Flowsを拡張して、横方向の9倍のプロファイルを持つシャワーをシミュレートする。 これを実現するために、畳み込み層とU-Net型接続を導入し、マスク付き自己回帰流から結合層へ移動し、IDD電磁カルロメータおよび公共カルロチャレンジデータセットのデータセット3でシャワーのモデリングに成功したことを実証する。

In the quest to build generative surrogate models as computationally efficient alternatives to rule-based simulations, the quality of the generated samples remains a crucial frontier. So far, normalizing flows have been among the models with the best fidelity. However, as the latent space in such models is required to have the same dimensionality as the data space, scaling up normalizing flows to high dimensional datasets is not straightforward. The prior L2LFlows approach successfully used a series of separate normalizing flows and sequence of conditioning steps to circumvent this problem. In this work, we extend L2LFlows to simulate showers with a 9-times larger profile in the lateral direction. To achieve this, we introduce convolutional layers and U-Net-type connections, move from masked autoregressive flows to coupling layers, and demonstrate the successful modelling of showers in the ILD Electromagnetic Calorimeter as well as Dataset 3 from the public CaloChallenge dataset.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# GraphAny:任意のグラフ上のノード分類のための基礎モデル

GraphAny: A Foundation Model for Node Classification on Any Graph ( http://arxiv.org/abs/2405.20445v2 )

ライセンス: Link先を確認
Jianan Zhao, Hesham Mostafa, Mikhail Galkin, Michael Bronstein, Zhaocheng Zhu, Jian Tang, (参考訳) 特定のトレーニングを必要とせずに新しいタスクで推論を実行できるファンデーションモデルは、視覚と言語アプリケーションにおける機械学習に革命をもたらした。 しかし、グラフ構造データを含むアプリケーションは、各グラフに関連付けられたユニークな特徴空間とラベル空間の難しさのため、基礎モデルにとって依然として困難である。 グラフでトレーニングされたグラフニューラルネットワーク(GNN)のような従来のグラフMLモデルは、トレーニングしたものとは異なる特徴とラベル空間を持つ新しいグラフで推論を行うことはできない。 さらに、既存のモデルはトレーニンググラフに固有の関数を学習し、新しいグラフに一般化することができない。 本研究では,この2つの課題に,GraphAnyと呼ばれる帰納的ノード分類のための新しい基礎的アーキテクチャで対処する。 GraphAnyは、LinearGNNの分析ソリューションとして、新しいグラフ上での推論をモデル化することで、最初の課題を解決する。 第2の課題を解決するために、各ノードの注意スコアを学習し、複数のLinearGNNの予測を融合する。 具体的には、注目モジュールを複数のLinearGNN間のエントロピー正規化距離関数として注意深くパラメータ化し、新しいグラフへの一般化を保証する。 実証的に、わずか120のラベル付きノードを持つウィスコンシンデータセットでトレーニングされたGraphAnyは、インダクティブな平均精度67.26\%の30の新しいグラフを効果的に一般化することができ、監督体制でトレーニングされたGCNやGAT、その他のインダクティブベースラインを上回る。

Foundation models that can perform inference on any new task without requiring specific training have revolutionized machine learning in vision and language applications. However, applications involving graph-structured data remain a tough nut for foundation models, due to challenges in the unique feature- and label spaces associated with each graph. Traditional graph ML models such as graph neural networks (GNNs) trained on graphs cannot perform inference on a new graph with feature and label spaces different from the training ones. Furthermore, existing models learn functions specific to the training graph and cannot generalize to new graphs. In this work, we tackle these two challenges with a new foundational architecture for inductive node classification named GraphAny. GraphAny models inference on a new graph as an analytical solution to a LinearGNN, thereby solving the first challenge. To solve the second challenge, we learn attention scores for each node to fuse the predictions of multiple LinearGNNs. Specifically, the attention module is carefully parameterized as a function of the entropy-normalized distance-features between multiple LinearGNNs predictions to ensure generalization to new graphs. Empirically, GraphAny trained on the Wisconsin dataset with only 120 labeled nodes can effectively generalize to 30 new graphs with an average accuracy of 67.26\% in an inductive manner, surpassing GCN and GAT trained in the supervised regime, as well as other inductive baselines.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# Knockout: 入力不足を処理する簡単な方法

Knockout: A simple way to handle missing inputs ( http://arxiv.org/abs/2405.20448v2 )

ライセンス: Link先を確認
Minh Nguyen, Batuhan K. Karaman, Heejong Kim, Alan Q. Wang, Fengbei Liu, Mert R. Sabuncu, (参考訳) ディープラーニングモデルは、複雑な入力から予測および実行可能な情報を抽出することができる。 入力が豊富になればなるほど、これらのモデルの性能は向上する。 しかしながら、リッチインプット(例えばマルチモーダリティ)を利用するモデルは、推論時に欠落しているかもしれないため、広くデプロイすることは困難である。 この問題に対する現在の一般的な解決策には、余剰化、計算、複数のモデルのトレーニングがある。 行列化は校正された予測が得られるが、計算コストがかかるため、低次元の入力に対してのみ実現可能である。 不足変数に対して点推定を使い、高次元入力(例えば画像)ではうまく機能しないため、不正確な予測が生じる可能性がある。 各モデルが異なる入力サブセットを取る複数のモデルをトレーニングすることはうまく機能するが、事前に入力パターンの欠如を知る必要がある。 さらに、複数のモデルのトレーニングと維持にはコストがかかる。 完全入力と限界分布を用いて条件分布を効率よく学習する方法を提案する。 我々の手法であるKnockoutは、トレーニング中に入力特徴を適切なプレースホルダー値にランダムに置き換える。 Knockoutを理論的に正当化し、暗黙の限界化戦略と見なせることを示す。 我々は、Knockoutを広範囲のシミュレーションと実世界のデータセットで評価し、強力な経験的性能を提供できることを示す。

Deep learning models can extract predictive and actionable information from complex inputs. The richer the inputs, the better these models usually perform. However, models that leverage rich inputs (e.g., multi-modality) can be difficult to deploy widely, because some inputs may be missing at inference. Current popular solutions to this problem include marginalization, imputation, and training multiple models. Marginalization can obtain calibrated predictions but it is computationally costly and therefore only feasible for low dimensional inputs. Imputation may result in inaccurate predictions because it employs point estimates for missing variables and does not work well for high dimensional inputs (e.g., images). Training multiple models whereby each model takes different subsets of inputs can work well but requires knowing missing input patterns in advance. Furthermore, training and retaining multiple models can be costly. We propose an efficient way to learn both the conditional distribution using full inputs and the marginal distributions. Our method, Knockout, randomly replaces input features with appropriate placeholder values during training. We provide a theoretical justification of Knockout and show that it can be viewed as an implicit marginalization strategy. We evaluate Knockout in a wide range of simulations and real-world datasets and show that it can offer strong empirical performance.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# DepsRAG: 大規模言語モデルによるソフトウェア依存の管理

DepsRAG: Towards Managing Software Dependencies using Large Language Models ( http://arxiv.org/abs/2405.20455v2 )

ライセンス: Link先を確認
Mohannad Alhanahnah, Yazan Boshmaf, Benoit Baudry, (参考訳) ソフトウェア依存関係の管理は、ソフトウェア開発において重要なメンテナンスタスクであり、特にソフトウェアサプライチェーン攻撃の著しい増加を背景に、急速に成長する研究分野となっている。 依存関係を完全に理解し、依存関係に関する隠れたプロパティ(例えば、依存関係の数、依存関係チェーン、依存関係の深さ)を明らかにするためには、専門的な専門知識と実質的な開発者の努力が必要だ。 近年のLarge Language Models (LLM) の進歩により、様々なデータソースから情報を検索して応答生成が可能となり、ソフトウェア依存をユニークに管理する新たな機会が提供される。 この技術の可能性を強調するために,4つの人気ソフトウェアエコシステムにおいて,ソフトウェアパッケージの直接的かつ推移的な依存関係を知識グラフ(KG)として構築する,概念検索拡張生成(RAG)の実証手法である–\toolを提案する。 DepsRAGは、KGから情報を取得するために必要なクエリを自動的に生成し、取得した情報でLLMの入力を増強することで、ソフトウェアの依存関係に関するユーザの質問に答えることができる。 DepsRAGはまた、LLMがKGを介して直接答えられないような質問に答えるためにWebサーチを実行することもできる。 DepsRAGが提供できる具体的なメリットを特定し、その制限について議論する。

Managing software dependencies is a crucial maintenance task in software development and is becoming a rapidly growing research field, especially in light of the significant increase in software supply chain attacks. Specialized expertise and substantial developer effort are required to fully comprehend dependencies and reveal hidden properties about the dependencies (e.g., number of dependencies, dependency chains, depth of dependencies). Recent advancements in Large Language Models (LLMs) allow the retrieval of information from various data sources for response generation, thus providing a new opportunity to uniquely manage software dependencies. To highlight the potential of this technology, we present~\tool, a proof-of-concept Retrieval Augmented Generation (RAG) approach that constructs direct and transitive dependencies of software packages as a Knowledge Graph (KG) in four popular software ecosystems. DepsRAG can answer user questions about software dependencies by automatically generating necessary queries to retrieve information from the KG, and then augmenting the input of LLMs with the retrieved information. DepsRAG can also perform Web search to answer questions that the LLM cannot directly answer via the KG. We identify tangible benefits that DepsRAG can offer and discuss its limitations.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# 関数空間における拡散ブリッジの確率的最適制御

Stochastic Optimal Control for Diffusion Bridges in Function Spaces ( http://arxiv.org/abs/2405.20630v2 )

ライセンス: Link先を確認
Byoungwoo Park, Jungwon Choi, Sungbin Lim, Juho Lee, (参考訳) 拡散モデルと拡散ブリッジの最近の進歩は、主に有限次元空間に焦点を当てているが、多くの実世界の問題は、より自然で解釈可能な定式化のために無限次元函数空間での演算を必要とする。 本稿では,無限次元空間に適した確率的最適制御(SOC)の理論について述べる。 具体的には、拡散ブリッジを構成する基本的なツールであるDoobの$h$-transformが、SOCの観点から導出され、無限次元に拡張可能であることを実証する。 この拡張は、無限次元空間は典型的に閉形式密度を欠くため、挑戦となる。 本理論を応用し,目的関数選択による最適制御問題の解法が拡散モデル学習と等価であることを示す。 本研究では,(1)無限次元分布間の学習ブリッジと(2)無限次元分布からのサンプリングのための生成モデルを提案する。 提案手法は,解像度のない画像,時系列データ,確率密度関数などの連続関数空間表現に関わる多様な問題に対して有効であることを示す。

Recent advancements in diffusion models and diffusion bridges primarily focus on finite-dimensional spaces, yet many real-world problems necessitate operations in infinite-dimensional function spaces for more natural and interpretable formulations. In this paper, we present a theory of stochastic optimal control (SOC) tailored to infinite-dimensional spaces, aiming to extend diffusion-based algorithms to function spaces. Specifically, we demonstrate how Doob's $h$-transform, the fundamental tool for constructing diffusion bridges, can be derived from the SOC perspective and expanded to infinite dimensions. This expansion presents a challenge, as infinite-dimensional spaces typically lack closed-form densities. Leveraging our theory, we establish that solving the optimal control problem with a specific objective function choice is equivalent to learning diffusion-based generative models. We propose two applications: (1) learning bridges between two infinite-dimensional distributions and (2) generative models for sampling from an infinite-dimensional distribution. Our approach proves effective for diverse problems involving continuous function space representations, such as resolution-free images, time-series data, and probability density functions.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# 検索型大規模言語モデルにおける検索不整合の解消と緩和

Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2405.20680v2 )

ライセンス: Link先を確認
Mingda Li, Xinyu Li, Yifan Chen, Wenfeng Xuan, Weinan Zhang, (参考訳) Retrieval-Augmented Large Language Models (RALMs) は事実性の観点からその優位性を示すが、元の検索自由言語モデル (LMs) よりも一貫して優れているわけではない。 提案実験により, この例レベルの性能不整合性は, 検索強化と検索不要のLMの間だけでなく, 異なる検索者の間にも存在することが明らかとなった。 この現象を理解するために,ALMの変性挙動を調査し,理論的に4つのカテゴリに分解する。 分析の結果,知識源の自然差と予測不可能な読解モデル劣化が矛盾に大きく寄与していることが判明した。 本分析から,異なる知識ソースから適応的に検索し,予測不能な読取誤差を効果的に低減できる訓練可能なフレームワークであるEnsemble of Retrievers(EoR)を紹介した。 Open Domain Question Answering 実験の結果,EoR は不整合挙動を著しく低減し,単一検索器を用いた RALM 上での性能を大幅に向上することが示された。

Although Retrieval-Augmented Large Language Models (RALMs) demonstrate their superiority in terms of factuality, they do not consistently outperform the original retrieval-free Language Models (LMs). Our experiments reveal that this example-level performance inconsistency exists not only between retrieval-augmented and retrieval-free LM but also among different retrievers. To understand this phenomenon, we investigate the degeneration behavior of RALMs and theoretically decompose it into four categories. Further analysis based on our decomposition reveals that the innate difference in knowledge sources and the unpredictable degeneration of the reader model contribute most to the inconsistency. Drawing from our analysis, we introduce Ensemble of Retrievers (EoR), a trainable framework that can adaptively retrieve from different knowledge sources and effectively decrease unpredictable reader errors. Our experiments on Open Domain Question Answering show that EoR substantially improves performance over the RALM with a single retriever by considerably reducing inconsistent behaviors.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# スパース観測による成層アバターの生成

Stratified Avatar Generation from Sparse Observations ( http://arxiv.org/abs/2405.20786v2 )

ライセンス: Link先を確認
Han Feng, Wenchao Ma, Quankai Gao, Xianwei Zheng, Nan Xue, Huijuan Xu, (参考訳) AR/VRデバイスから3Dフルボディアバターを推定することは、AR/VRアプリケーションに没入的なエクスペリエンスを作り出す上で不可欠である。 ヘッドマウントデバイスからの入力が限られているため、このタスクは困難である。 これらのまばらな観察から全身のアバター、特に下半身を予測することは、重大な困難を呈する。 本稿では,上半身と下半身が共通の祖先ノードを1つしか共有しないSkinned Multi-Person Linear (SMPL)モデルで定義されたキネマティックツリーの性質に着想を得た。 そこで本研究では,従来のフルボディアバター再建パイプラインを2段階に分離し,まず上半身の再建と,それに続く下半身の再建を行った。 この簡単なアイデアを実現するために、潜伏拡散モデルを強力な確率的生成器として利用し、VQ-VAEエンコーダ・デコーダモデルにより探索された非結合運動の潜伏分布に従うよう訓練する。 AMASSモキャップデータセットの大規模な実験により、全身運動の再構築における最先端のパフォーマンスが実証された。

Estimating 3D full-body avatars from AR/VR devices is essential for creating immersive experiences in AR/VR applications. This task is challenging due to the limited input from Head Mounted Devices, which capture only sparse observations from the head and hands. Predicting the full-body avatars, particularly the lower body, from these sparse observations presents significant difficulties. In this paper, we are inspired by the inherent property of the kinematic tree defined in the Skinned Multi-Person Linear (SMPL) model, where the upper body and lower body share only one common ancestor node, bringing the potential of decoupled reconstruction. We propose a stratified approach to decouple the conventional full-body avatar reconstruction pipeline into two stages, with the reconstruction of the upper body first and a subsequent reconstruction of the lower body conditioned on the previous stage. To implement this straightforward idea, we leverage the latent diffusion model as a powerful probabilistic generator, and train it to follow the latent distribution of decoupled motions explored by a VQ-VAE encoder-decoder model. Extensive experiments on AMASS mocap dataset demonstrate our state-of-the-art performance in the reconstruction of full-body motions.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# S4Fusion:赤外線可視画像融合のためのサリエンシ対応選択状態空間モデル

S4Fusion: Saliency-aware Selective State Space Model for Infrared Visible Image Fusion ( http://arxiv.org/abs/2405.20881v2 )

ライセンス: Link先を確認
Haolong Ma, Hui Li, Chunyang Cheng, Gaoang Wang, Xiaoning Song, Xiaojun Wu, (参考訳) Image Fusionのタスクの1つとして、赤外線と可視画像融合は、様々なモードのセンサーが捉えた補完的な情報を単一の画像に統合することを目的としている。 Selective State Space Model (SSSM)は、長距離依存を捉える能力で知られており、コンピュータビジョンの分野でその可能性を実証している。 しかし、画像融合においては、現在の手法はSSSMが両モードのグローバル空間情報を捕捉する可能性を過小評価している。 この制限は、相互作用中の両モードからグローバル空間情報の同時考慮を妨げるため、有能な目標に対する包括的認識が欠如する。 その結果、融合の結果は、適応的に健全な目標を保持するのではなく、1つのモダリティに偏りが生じる傾向にある。 この問題に対処するため、我々はS4Fusion(Saliency-aware Selective State Space Fusion Model)を提案する。 我々のS4Fusionでは、設計したCross-Modal Space Awareness Module (CMSA) は、相互の相互作用を容易にしながら、両モードのグローバル空間情報に同時に焦点を合わせ、補完情報を包括的にキャプチャすることができる。 さらに、S4Fusionは事前トレーニングされたネットワークを利用して、融合した画像の不確実性を認識する。 この不確実性を最小化することで、S4Fusionは両方の画像から適切なターゲットを適応的に強調する。 大規模な実験により,本手法は高品質な画像を生成するとともに,下流タスクの性能向上を図っている。

As one of the tasks in Image Fusion, Infrared and Visible Image Fusion aims to integrate complementary information captured by sensors of different modalities into a single image. The Selective State Space Model (SSSM), known for its ability to capture long-range dependencies, has demonstrated its potential in the field of computer vision. However, in image fusion, current methods underestimate the potential of SSSM in capturing the global spatial information of both modalities. This limitation prevents the simultaneous consideration of the global spatial information from both modalities during interaction, leading to a lack of comprehensive perception of salient targets. Consequently, the fusion results tend to bias towards one modality instead of adaptively preserving salient targets. To address this issue, we propose the Saliency-aware Selective State Space Fusion Model (S4Fusion). In our S4Fusion, the designed Cross-Modal Spatial Awareness Module (CMSA) can simultaneously focus on global spatial information from both modalities while facilitating their interaction, thereby comprehensively capturing complementary information. Additionally, S4Fusion leverages a pre-trained network to perceive uncertainty in the fused images. By minimizing this uncertainty, S4Fusion adaptively highlights salient targets from both images. Extensive experiments demonstrate that our approach produces high-quality images and enhances performance in downstream tasks.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# 大規模言語モデルはゼロショット次位置予測器である

Large Language Models are Zero-Shot Next Location Predictors ( http://arxiv.org/abs/2405.20962v2 )

ライセンス: Link先を確認
Ciro Beneduce, Bruno Lepri, Massimiliano Luca, (参考訳) 将来、個人が訪れる場所を予測することは、病気の拡散や汚染の減少など、多くの社会問題を解決するために不可欠である。 しかし、次の位置予測に取り組むために設計されたモデルは、効果的に訓練される大量の個人レベルの情報を必要とする。 このようなデータは、いくつかの地理的領域や特殊なシナリオ(例えば、レコメンデーションシステムでコールドスタート)では、不足したり、利用できないこともある。 さらに、知識を一般化または地理的に伝達できる次位置予測器の設計は、まだオープンな研究課題である。 近年の自然言語処理の進歩により、Large Language Models (LLM) が急速に普及し、優れた一般化と推論能力が示された。 これらの知見は、LLMが地理的知識に富んでいるという最近の知見と相まって、これらのモデルがゼロショットの次位置予測器として機能すると考えることができた。 本稿では,Llama, GPT-3.5, Mistral 7Bなど,多くのLLMが果たす役割について述べる。 適切なプロンプトを設計した後、3つの実世界のモビリティデータセット上でモデルをテストしました。 その結果, LLM の精度は 32.4% まで向上し, 人間の移動性に特化して設計された高度DL モデルと比較して600% 以上向上した。 また,他のLLMでは適切に実行できないことを示す。 また,正に偏った結果を防ぐために,他の研究にインスパイアされたデータ汚染試験フレームワークを提案する。 最後に,LLMをテキストベースの説明器として使用して,その決定を効果的に説明できる次位置予測を行う可能性について検討した。 特に7Bモデルは、より大きなモデルに比べて、より汎用的で信頼性の高い説明を提供する。 コード:github.com/ssai-trento/LLM-zero-shot-NL

Predicting the locations an individual will visit in the future is crucial for solving many societal issues like disease diffusion and reduction of pollution among many others. The models designed to tackle next-location prediction, however, require a significant amount of individual-level information to be trained effectively. Such data may be scarce or even unavailable in some geographic regions or peculiar scenarios (e.g., cold-start in recommendation systems). Moreover, the design of a next-location predictor able to generalize or geographically transfer knowledge is still an open research challenge. Recent advances in natural language processing have led to a rapid diffusion of Large Language Models (LLMs) which have shown good generalization and reasoning capabilities. These insights, coupled with the recent findings that LLMs are rich in geographical knowledge, allowed us to believe that these models can act as zero-shot next-location predictors. This paper evaluates the capabilities of many popular LLMs in this role, specifically Llama, GPT-3.5 and Mistral 7B. After designing a proper prompt, we tested the models on three real-world mobility datasets. The results show that LLMs can obtain accuracies up to 32.4%, a significant relative improvement of over 600% when compared to sophisticated DL models specifically designed for human mobility. Moreover, we show that other LLMs are unable to perform the task properly. To prevent positively biased results, we also propose a framework inspired by other studies to test data contamination. Finally, we explored the possibility of using LLMs as text-based explainers for next-location prediction showing that can effectively provide an explanation for their decision. Notably, 7B models provide more generic, but still reliable, explanations compared to larger counterparts. Code: github.com/ssai-trento/LLM-zero-shot-NL
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# StrucTexTv3: テキストに富んだ画像知覚、理解、およびそれ以上の効率的な視覚言語モデル

StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond ( http://arxiv.org/abs/2405.21013v2 )

ライセンス: Link先を確認
Pengyuan Lyu, Yulin Li, Hao Zhou, Weihong Ma, Xingyu Wan, Qunyi Xie, Liang Wu, Chengquan Zhang, Kun Yao, Errui Ding, Jingdong Wang, (参考訳) テキストリッチな画像は大きな価値があり、人間の生活の様々な側面に深く統合されている。 特に、テキストリッチな画像における視覚的手がかりと言語記号は、情報伝達において重要な役割を担っているが、様々な課題が伴っている。 したがって、テキストリッチな画像の効率的かつ効果的な理解は、視覚言語モデルの能力にとって重要なリトマステストである。 我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。 StrucTexTv3の重要な設計は以下の点である。 まず、有効なマルチスケール縮小視覚変換器と多粒度トークンサンプリング器(MG-Sampler)の組み合わせを視覚トークン生成器として採用し、高分解能入力とテキストリッチイメージの複雑な表現学習の課題をうまく解決する。 第二に、StrucTexTv3の認識と理解能力は、命令学習によって向上し、様々なテキスト指向タスクをシームレスに統一されたフレームワークに統合する。 第3に、TIM-30Mと略される高品質なテキストリッチな画像の総合的な収集を行い、インシデントシーン、オフィス文書、Webページ、スクリーンショットなどの多様なシナリオを網羅し、モデルの堅牢性を改善した。 提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。 LLMデコーダの約1.8Bパラメータを持つマルチモーダルモデルの中で、これはリーダーとして際立っている。 要約すると、StrucTexTv3モデルは効率的な構造設計、優れた性能、広範囲な適応性を備えており、テキストリッチな画像を含む多様なインテリジェントなアプリケーションタスクを堅牢にサポートし、幅広いアプリケーションに対して大きな可能性を秘めている。

Text-rich images have significant and extensive value, deeply integrated into various aspects of human life. Notably, both visual cues and linguistic symbols in text-rich images play crucial roles in information transmission but are accompanied by diverse challenges. Therefore, the efficient and effective understanding of text-rich images is a crucial litmus test for the capability of Vision-Language Models. We have crafted an efficient vision-language model, StrucTexTv3, tailored to tackle various intelligent tasks for text-rich images. The significant design of StrucTexTv3 is presented in the following aspects: Firstly, we adopt a combination of an effective multi-scale reduced visual transformer and a multi-granularity token sampler (MG-Sampler) as a visual token generator, successfully solving the challenges of high-resolution input and complex representation learning for text-rich images. Secondly, we enhance the perception and comprehension abilities of StrucTexTv3 through instruction learning, seamlessly integrating various text-oriented tasks into a unified framework. Thirdly, we have curated a comprehensive collection of high-quality text-rich images, abbreviated as TIM-30M, encompassing diverse scenarios like incidental scenes, office documents, web pages, and screenshots, thereby improving the robustness of our model. Our method achieved SOTA results in text-rich image perception tasks, and significantly improved performance in comprehension tasks. Among multimodal models with LLM decoder of approximately 1.8B parameters, it stands out as a leader, which also makes the deployment of edge devices feasible. In summary, the StrucTexTv3 model, featuring efficient structural design, outstanding performance, and broad adaptability, offers robust support for diverse intelligent application tasks involving text-rich images, thus exhibiting immense potential for widespread application.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# Fusion-PSRO:Nash Policy Fusion for Policy Space Response Oracles

Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles ( http://arxiv.org/abs/2405.21027v2 )

ライセンス: Link先を確認
Jiesong Lian, Yucong Huang, Mingzhi Wang, Chengdong Ma, Yixue Hao, Ying Wen, Yaodong Yang, (参考訳) ゼロサムゲームを解決するための一般的なアプローチは、Nash Equilibrium (NE) を近似するポリシーの集団を維持することである。 これまでの研究では、ポリシー空間応答オラクル(PSRO)アルゴリズムが、そのようなゲームを解くための効果的なマルチエージェント強化学習フレームワークであることが示されている。 しかし、各イテレーションで相手の混合ポリシーに対して、スクラッチからBest Response(BR)を近似するために、新しいポリシーを繰り返し訓練することは、非効率かつコストがかかる。 いくつかのPSROは、過去のBRポリシーから継承することで、新しいポリシーを初期化するが、このアプローチは、特に挑戦する相手に対して、新しいポリシーの探索を制限する。 この問題に対処するために、政策融合を利用してBRの近似を改善するためのポリシーを初期化するFusion-PSROを提案する。 メタNEから高品質なベースポリシーを選択することで、ポリシー融合はベースポリシーをモデル平均化を通じて新しいポリシーに融合させる。 このアプローチにより、初期化されたポリシーが複数の専門家ポリシーを組み込むことができ、過去のBRポリシーを継承したり、スクラッチから初期化したりするよりも、難しい相手を扱うのが簡単になる。 さらに,本手法はポリシー初期化フェーズのみを修正し,PSROのほぼすべての変種を追加のトレーニングオーバーヘッドなく適用できるようにする。 非推移的行列ゲーム、Leduc Pokerおよびより複雑なLiars Diceに関する実験は、Fusion-PSROがほぼ全てのPSRO変種の性能を高め、より低い利用性を実現することを示した。

A popular approach for solving zero-sum games is to maintain populations of policies to approximate the Nash Equilibrium (NE). Previous studies have shown that Policy Space Response Oracle (PSRO) algorithm is an effective multi-agent reinforcement learning framework for solving such games. However, repeatedly training new policies from scratch to approximate Best Response (BR) to opponents' mixed policies at each iteration is both inefficient and costly. While some PSRO variants initialize a new policy by inheriting from past BR policies, this approach limits the exploration of new policies, especially against challenging opponents. To address this issue, we propose Fusion-PSRO, which employs policy fusion to initialize policies for better approximation to BR. By selecting high-quality base policies from meta-NE, policy fusion fuses the base policies into a new policy through model averaging. This approach allows the initialized policies to incorporate multiple expert policies, making it easier to handle difficult opponents compared to inheriting from past BR policies or initializing from scratch. Moreover, our method only modifies the policy initialization phase, allowing its application to nearly all PSRO variants without additional training overhead. Our experiments on non-transitive matrix games, Leduc Poker, and the more complex Liars Dice demonstrate that Fusion-PSRO enhances the performance of nearly all PSRO variants, achieving lower exploitability.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03
# グラフ外部アテンション強化変圧器

Graph External Attention Enhanced Transformer ( http://arxiv.org/abs/2405.21061v2 )

ライセンス: Link先を確認
Jianqing Liang, Min Chen, Jiye Liang, (参考訳) Transformerアーキテクチャは最近、グラフ表現学習の分野で大きな注目を集めている。グラフニューラルネットワーク(GNN)のいくつかの制限を自然に克服し、注意機構や位置および構造的エンコーディングをカスタマイズしているからだ。 若干の進展があるにもかかわらず、既存の研究はグラフの外部情報、特にグラフ間の相関を見落としがちである。 直感的には、類似した構造を持つグラフは類似した表現を持つべきである。 そこで本稿では,複数の外部ノード/エッジキー値ユニットを活用してグラフ間相関を暗黙的にキャプチャする,新たな注意機構であるグラフ外部注意(GEA)を提案する。 そこで我々は,より包括的なグラフ表現のための局所構造とグローバル相互作用情報を統合する,グラフ外部注意拡張変換器 (GEAET) と呼ばれる効果的なアーキテクチャを設計する。 ベンチマークデータセットに関する大規模な実験は、GAETが最先端の実証的なパフォーマンスを達成することを示した。 ソースコードは、 https://github.com/icm1018/GEAETで再現可能である。

The Transformer architecture has recently gained considerable attention in the field of graph representation learning, as it naturally overcomes several limitations of Graph Neural Networks (GNNs) with customized attention mechanisms or positional and structural encodings. Despite making some progress, existing works tend to overlook external information of graphs, specifically the correlation between graphs. Intuitively, graphs with similar structures should have similar representations. Therefore, we propose Graph External Attention (GEA) -- a novel attention mechanism that leverages multiple external node/edge key-value units to capture inter-graph correlations implicitly. On this basis, we design an effective architecture called Graph External Attention Enhanced Transformer (GEAET), which integrates local structure and global interaction information for more comprehensive graph representations. Extensive experiments on benchmark datasets demonstrate that GEAET achieves state-of-the-art empirical performance. The source code is available for reproducibility at: https://github.com/icm1018/GEAET.
翻訳日:2024-06-04 13:30:34 公開日:2024-06-03